Casos y controles, desperdicio de plata o eficiencia?

El principal problema del estudio de casos y controles es que es que todos creen que es una porquería. Esa visión viene del diccionario de epidemiología de Miquel Porta. Donde se dice que se comparan casos de gente enferma con controles de gente no enferma.

Si yo estuviera a favor de esta simple definición, yo recomendaría JAMÁS hacer esta clase de diseño de estudio epidemiológicos, porque lógicamente esto es puro bullshit! Yo comí de este cuento! pero ahora que estudio epidemiología me doy cuenta de las bondades de este diseño de estudio, en especial en lugares de América (hablo de todo el continente americano, excepto Canadá), donde los registros son sumamente deficientes.

Incluso la wikipedia en inglés hablaba Bullshit, pero la última edición han corregido esos problemas

El estudio anidado!

Kenneth Rothman, un editor de la revista American Journal of Epidemiology, ha escrito varios libros, entre ellos, Epidemiología una introducción (lamentablemente, sólo está en inglés) donde se ha compilado evidencia de como realmente funcionan estos estudios y el valor de éstos.

Lo primero que hay que hacer para realizar un estudio de casos y controles es definir una cohorte. Es decir, debemos buscar:

Una enfermedad (o bien una condición de importancia médica, como discapacidad, muerte, etc).
Personas que sean suceptibles a sufrir la enfermedad.
Un área geográfica donde vivan esas personas.
Un tiempo (un tiempo en el cual van a colectar los casos).

Una vez que definimos una cohorte con esas 4 características, identificamos todos los casos (o la mayor parte de casos posible), y luego procedemos a identificar controles mediante uno de varios “esquemas” de muestro. Estos “esquemas” sirven para idealmente tomar una muestra al azar de TODA la población susceptible a desarrollar la enfermedad.

Los esquemas de muestreo de controles

Los esquemas de muestreo para colectar controles son:

“Conjunto de riesgo”
Controles sobrevivientes
Controles de cohorte
Controles “convenientes”

Esquema de muestreo de “Conjunto de riesgo” (“Risk set” en inglés)

Este esquema de muestreo es el estándar de oro. Es sumamente caro en América, pero es relativamente fácil de realizar en países de Europa de Norte. Para este esquema primero se identifican los casos, e inmediatamente (o poco tiempo después después), se identifica un control (o más dependiendo de cuántos controles por caso se decide antes de iniciar el estudio).

Se recomienda un máximo de 4 controles por caso. Sin embargo, este número va a depender del número de recursos disponibles para trabajar.

Es posible que un control, después de ser seleccionado, se convierta en caso. En esta circunstancia, ese individuo pertenece tanto a los casos como a los controles.

Esquema de sobrevivientes

Este esquema es particularmente útil en enfermedades infecciosas que causan la muerte o inmunidad después de estar enfermo. Se eligen controles al azar, después de acaba el periodo de estudio.

Esquema de cohortes

En este esquema, antes de iniciar el estudio, se eligen personas al azar.

Esquema de “conveniencia”

En este esquema se eligen amigos, personas hospitalizadas (con enfermedades que no estén relacionadas con la misma exposición de la enfermedad estudiada*), familiares, etc.

El mito la pared que divide la razón de riesgo de los odds ratios

Hay muchos videos en youtube que hablan de una “pared” que divide la razón de riesgo (Risk ratio) que se miden en las cohortes y los odds ratio. Según el maestro Rothman, esa pared NO EXISTE!

Primero vamos a ver un estudio de cohortes. Calculamos las incidencia (que es la proporción de casos nuevos en un tiempo determinado) en los expuestos y la dividimos entre los no expuestos:

a-Casos expuestos
b-Casos no expuestos
C-Todos los expuestos

$C=a+(Personas Sanas Expuestas)$

D-Todos los no expuestos-

$D=b+(Personas Sanas No Expuestas)$

$RR=\frac{\frac{a}{C}}{\frac{b}{D}}$

$RR=\frac{a*D}{b*C}$

En el estudio de casos y controles, calculamos los “odds ratios”. Es algo parecido, pero a diferencia del RR en que los controles no necesariamente (aunque puede que sí) contienen a los casos.

a-Casos expuestos
b-Casos no expuestos
c-Controles expuestos
d-Controles no expuestos

$OR=\frac{\frac{a}{b}}{\frac{c}{d}}$

$OR=\frac{a*d}{b*c}$

Suponiendo que “a” y “b” sean lo suficientemente pequeños, entonces $\frac{c}{d}\approx \frac{C}{D}$

$OR=\frac{a*c}{b*d}\approx\frac{a*C}{b*D}$

Por consiguiente $OR\approx RR$ , siempre y cuando la incidencia sea baja en expuestos y no expuestos.

Aunque, los estudios de casos y controles NO pueden valorar la incidencia en expuestos y no expuestos, nos puede dar una idea bastante clara del valor del RR de la cohorte que le da origen, echando por tierra la mentira que $OR \neq RR$ !!

Esto pone en su justo lugar a los estudios de casos y controles, en especial donde hay pocos recursos como Panamá al igual que el resto de América (excepto Canadá).

Si voy a hablar de tazas, pero no de las que el profesor Jirafales le daba a Doña Florinda… Voy a hablar de estadísticas y como podemos usar las tasas (si se escribe con “s”) para interpretar ciertos fenómenos.

Algo malo pasa en Herrera!

Si algo perverso está pasando en esa provincia… Bueno, en realidad no. Pero vamos a ver los hechos:

En mayo de 2013, el Ministerio Público de Panamá publica en su página web un informe estadístico que compara el número de actividades realizadas en las provincias de Herrera y Los Santos en el mes anterior.
Si se toman el trabajo de ver el informe, no es más que un montón de tablas, gráficos, histogramas sin NINGÚN TEXTO ACLARATORIO. No podemos ver que representan estos informes, ni que argumentos hay detrás de éstos…
Hay una serie de tablas y gráficos que repiten los mismos datos. Cosa que me parece innecesaria!
En fin, podemos observar claramente que la actividad del centro de Herrera es superior a Los Santos, 173 vs 129, en el mismo periodo de tiempo! Qué pasa en Herrera? será que el diablo anda suelto allá?
Lo mismo ocurre con las audiencias, las imputaciones de delitos y causas egresadas.

Como podemos observar Herrera le “gana” a Los Santos

En verdad el diablo anda suelto en Herrera?

Tasas

En verdad no! Para poder saber que ocurre debemos calcular la “tazas” cada uno de esos eventos. Según los censos población y vivienda de 2010, Los Santos tiene 89,592 habitantes y Herrera tiene 109,955. Es decir que vive más gente en Herrera que en Los Santos.

Cualquier evento es esperado que tenga mayor número de ocurrencias en Herrera que en Los Santos.

Las tazas no son más que una comparación entre el número de eventos y la población estudiada. Vamos a ver el número de denuncias que representa la entrada al sistema del Ministerio Público. En Herrera hubo 173 denuncias y tiene una población de 109,955; si dividimos ambos números vamos a obtener 0.0015733… <-Que enredo… Si multiplicamos ese número por mil, tenemos que por cada 100 habitantes hay 1.57 denuncias o 1.57 denuncias/1000 habitantes.Si hacemos el mismo cálculo en Los Santos obtenemos 1.43 denuncias/1000 habitantes.

Eso aparentemente quiere decir que el mes de abril de este año, Herrera tiene más eventos para su población que Los Santos. Pero será eso cierto? Bueno, aun podemos ver otra cosa… puede ser que sea un evento “al azar”. Pero eso lo vemos en la otra sección!

Razón de riesgo (IRR o en inglés “Incidence Rate Ratio”)

Qué enredo este! Al parecer Herrera es el “malo de la película”, pero la historia no acaba aquí! no señores! La razón de riesgo es el primer paso para elucidar si Herrera tiene más o menos denuncias que Los Santos. La “razón de riesgo” (un feo anglicismo, el término castizo es “cuota de riesgos”, pero eso suena feo) es la división de una taza entre la otra.

Para ser más exactos, si dividimos $\frac{a/b}{c/d}$ , tenemos que eso es igual a $\frac {ac}{bd}$ .

Osea, $\frac{173}{103,955} \div \frac{129}{89,592}$ es lo mismo que $\frac {173*89,592}{129*103,955}$ . El resultado, el IRR, es 1.16. Lo que nos indica en hay un 16% de probabilidades de que se denuncie un hecho delictivo en Herrera que en la provincia de Los Santos.

Aunque ya sabíamos que Herrera tiene una cantidad al igual que una taza más alta de denuncias que la provincia de Los Santos, ahora sabemos que tanta es esa diferencia.

Sin embargo, lo que hemos calculado no es suficiente para saber que tan cierto es decir que hay más denuncias de crímenes en Herrera que en Los Santos! Requerimos tomar en cuenta el azar.

Para eso necesitamos calcular los “intervalos de confianza” de esa razón de riesgo o “cuota de tasas”

Intervalos de confianza

Esto es un poco técnico, pero la idea es que ninguna medición hecha o calculada por instrumentos científicos es exacta! hay cierto grado de error!

La medida que calculamos anteriormente, representa un promedio normalmente distribuido en la escala logarítmica, algo que explicaré más adelante. Es decir que sigue una curva como la que se aprecia a continuación:

Esta curva se llama “Curva de Bell estándar”. Tiene un valor promedio de 0 y una desviación estándar de 1. Vamos a ver estos conceptos antes de seguir adelante. El eje horizontal de esta curva representa todos los posibles valores de una población en el universo. El área bajo la curva es lo que interesa. Los valores entre -1.96 y +1.96 desviaciones estándar representa el 95% de los valores del universo.

Para calcular la desviación estándar en esta comparación es la raíz de la suma de los inversos de las denuncias menos la suma de los inversos de las poblaciones es decir:

$Desviacion Estandar=\sqrt {\frac {1}{Denuncias en Herrera}+\frac {1}{Denuncias en Los Santos}-(\frac {1}{Poblacion de Herrera}+\frac {1}{Poblacion de Los Santos})}$ .

La desviación estándar es igual a: $Desviacion Estandar=\sqrt{\frac{1}{173}+\frac{1}{129}-(\frac{1}{103,955}+\frac{1}{89,592})}$ =0.116239… (mala idea redondear!).

El límite inferior es $e^{\ln{IRR}-1.96*Desviacion Estandar}$ =0.92 (es decir que la población de Los Santos tiene un 8% más denuncias que Herrera.

El límite superior es casi lo mismo, pero en lugar de restar $1.96*Desviacion Estandar$ , el término se suma: $e^{\ln{IRR}+1.96*Desviacion Estandar}$ =1.45 (es decir que la población de Herrera tiene 45% más denuncias que Los Santos).

Es decir que los límite de 95%del intérvalo de confianza van de 0.92 a 1.45. Por consiguiente, como el 1 (no hay diferencias entre las denuncias de Herrera y Los Santos) está incluído en el 95% del intérvalo de confianza de la cuota de riesgos o IRR, no hay diferencias en las denuncias reportadas al ministerio público entre las provincias de Herrera y Los Santos.

ÓJUE!

Hedley's Blog

A bit of everything!

IRR

El mítico diseño de los casos y controles