regresión logística aplicada a la epidemiología

Transcription

regresión logística aplicada a la epidemiología
Revista Salud, Sexualidad y Sociedad 1(4), 2009
REGRESIÓN LOGÍSTICA APLICADA A LA EPIDEMIOLOGÍA
LOGISTIC APPLIED FOR REGRESSION EPIDEMIOLOGY
Dra. Jully Pahola Calderón Saldaña
Dr. Luis Alzamora de los Godos Urcia
RESUMEN
El siguiente artículo presenta la regresión logística como un método aplicado a las ciencias de la salud, en especial a la
epidemiología, con lo que se trabajan los coeficientes del modelo logístico como cuantificadora de riesgo, las variables cualitativas
en el modelo logístico, la interacción y confusión, la colinealidad, el tamaño de la muestra, la selección de modelos, el método de
máxima verosimilitud y la prueba de Wald de significación de los parámetros, en todo este aplicativo se coloca un ejemplo en de
reporte final de regresión logística binaria en SPSS y su interpretación .
Palabras Claves: Regresión logística, epidemiología.
ABSTRACT
The following article presents the logistic regression like an applied for method the sciences of health, specially to epidemiology, so
that the coefficients of the logistic model like quantifiers of risk, the qualitative variables in the logistic model, the interaction and
confusion, the colineality, the size of sign, the selection of models, the procedure of maximum verisimilitude and Wald's sample of
significance of the parameters, in everything are worked up this application an example is placed in of final report of logistic binary
regression in SPSS and your interpretation.
Key words: Logistic regression, epidemiology.
INTRODUCCIÓN
No cabe ninguna duda que la regresión logística es una
de las herramientas estadísticas con mejor capacidad
para el análisis de datos en investigación clínica y
epidemiología, de ahí su amplia utilización.
El objetivo primordial que resuelve esta técnica es el de
modelar cómo influye en la probabilidad de aparición de
un suceso, habitualmente dicotómico, la presencia o no
de diversos factores y el valor o nivel de los mismos.
También puede ser usada para estimar la probabilidad
de aparición de cada una de las posibilidades de un
suceso con más de dos categorías (politómico o
multinomial).
De todos es sabido que este tipo de situaciones se
aborda mediante técnicas de regresión. Sin embargo, la
metodología de la regresión lineal no es aplicable ya
que ahora la variable respuesta sólo presenta dos
valores (nos centraremos en el caso dicotómico), como
puede ser presencia/ausencia de alguna enfermedad o
suceso, por ejemplo hipertensión.
Si clasificamos el valor de la variable respuesta como 0
cuando no se presenta el suceso (ausencia de
hipertensión) y con el valor 1 cuando sí está presente
(paciente hipertenso), y buscamos cuantificar la posible
relación entre la presencia de hipertensión y, por
ejemplo, la cantidad media de sal consumida al día
como posible factor de riesgo, podríamos caer en la
tentación de utilizar una regresión lineal
y estimar, a partir de nuestros datos, por el
procedimiento habitual de mínimos cuadrados, los
coeficientes a y b de la ecuación. Sin embargo, y
aunque esto es posible matemáticamente, nos conduce
a la obtención de resultados absurdos, ya que cuando
se calcule la función obtenida para diferentes valores
de consumo de sal se obtendrá resultados que, en
general, serán diferentes de 0 y 1, los únicos realmente
posibles en este caso, ya que esa restricción no se
impone en la regresión lineal, en la que la respuesta
puede en principio tomar cualquier valor.
Si utilizamos cómo variable dependiente la probabilidad
p de que un paciente padezca hipertensión y
construimos la siguiente función:
1. Doctor of Philosophy in Public Health (Ph. D.). U.M. U.S.A. Docente de Postgrado en Salud de la Universidad Nacional Federico Villareal.
2. Doctor of Philosophy in Public Health (Ph. D.). U.M. U.S.A. Docente de Postgrado en Salud de la Universidad Inca Garcilaso de la Vega.
Revista Salud, Sexualidad y Sociedad 1(4), 2009
Aahora sí tenemos una variable que puede tomar
cualquier valor, por lo que podemos plantearnos el
buscar para ella una ecuación de regresión tradicional:
Que se puede convertir con una pequeña manipulación
algebraica en
Y este es precisamente el tipo de ecuación que se
conoce como modelo logístico, donde el número de
factores puede ser más de uno, así en el exponente
que figura en el denominador de la ecuación podríamos
tener:
la haya en esa situación. Igualmente podríamos
calcular el odds de presencia de hipertensión cuando el
consumo de sal es inferior a esa cantidad. Si dividimos
el primer odds entre el segundo, hemos calculado un
cociente de odds, esto es un odds ratio, que de alguna
manera cuantifica cuánto más probable es la aparición
de hipertensión cuando se consume mucha sal (primer
odds) respecto a cuándo se consume poca. La noción
que se está midiendo es parecida a la que encontramos
en lo que se denomina riesgo relativo que
corresponde al cociente de la probabilidad de que
aparezca un suceso (hipertensión) cuando está
presente el factor (consumo elevado de sal) respecto a
cuando no lo está. De hecho cuando la prevalencia del
suceso es baja (< 20 %) el valor del odds ratio y el
riesgo relativo es muy parecido, pero no es así cuando
el suceso es bastante común, hecho que a menudo se
ignora y será objeto de un comentario más extenso en
un nuevo artículo.
Si en la ecuación de regresión tenemos un factor
dicotómico, como puede ser por ejemplo si el sujeto es
no fumador, el coeficiente b de la ecuación para ese
factor está directamente relacionado con el odds ratio
OR de ser fumador respecto a no serlo
b1.consumo_sal + b2.edad + b3.sexo + b4.fumador
Los coeficientes del modelo logístico como
cuantificadores de riesgo
Una de las características que hacen tan interesante la
regresión logística es la relación que éstos guardan con
un parámetro de cuantificación de riesgo conocido en la
literatura como "odds ratio" (aunque puede tener
traducción al castellano, renunciamos a ello para evitar
confusión ya que siempre se utiliza la terminología
inglesa).
El odds asociado a un suceso es el cociente entre la
probabilidad de que ocurra frente a la probabilidad de
que no ocurra:
Siendo p la probabilidad del suceso. Así, por ejemplo,
podemos calcular el odds de presencia de hipertensión
cuando el consumo diario de sal es igual o superior a
una cierta cantidad, que en realidad determina cuántas
veces es más probable que haya hipertensión a que no
Es decir que exp(b) es una medida que cuantifica el
riesgo que representa poseer el factor correspondiente
respecto a no poseerlo, suponiendo que el resto de
variables del modelo permanecen constantes.
Cuando la variable es numérica, como puede ser por
ejemplo la edad, o el índice de masa corporal, es una
medida que cuantifica el cambio en el riesgo cuando se
pasa de un valor del factor a otro, permaneciendo
constantes el resto de variables. Así el odds ratio que
supone pasar de la edad X1 a la edad X2, siendo b el
coeficiente correspondiente a la edad en el modelo
logístico es:
Nótese que se trata de un modelo en el que el aumento
o disminución del riesgo al pasar de un valor a otro del
factor es proporcional al cambio, es decir a la diferencia
entre los dos valores, pero no al punto de partida,
quiere esto decir que el cambio en el riesgo, con el
Revista Salud, Sexualidad y Sociedad 1(4), 2009
modelo logístico, es el mismo cuando pasamos de 40 a
50 años que cuando pasamos de 80 a 90.
Cuando el coeficiente b de la variable es positivo
obtendremos un odds ratio mayor que 1 y corresponde
por tanto a un factor de riesgo. Por el contrario, si b es
negativo el odds ratio será menor que 1 y se trata de un
factor de protección.
Las variables cualitativas en el modelo logístico
Puesto que la metodología empleada para la
estimación del modelo logístico se basa en la utilización
de variables cuantitativas, al igual que en cualquier otro
procedimiento de regresión, es incorrecto que en él
intervengan variables cualitativas, ya sean nominales u
ordinales.
La asignación de un número a cada categoría no
resuelve el problema ya que si tenemos, por ejemplo, la
variable ejercicio físico con tres posibles respuestas:
sedentario, realiza ejercicio esporádicamente, realiza
ejercicio frecuentemente, y le asignamos los valores 0,
1, 2, significa a efectos del modelo, que efectuar
ejercicio físico frecuentemente es dos veces mayor que
solo hacerlo esporádicamente, lo cual no tienen ningún
sentido. Más absurdo sería si se trata, a diferencia de
ésta, de una variable nominal, sin ninguna relación de
orden entre las respuestas, como puede ser el estado
civil.
La solución a este problema es crear tantas variables
dicotómicas como número de respuestas - 1. Estas
nuevas variables, artificialmente creadas, reciben en la
literatura anglosajona el nombre de "dummy",
traduciéndose
en
español
con
diferentes
denominaciones como pueden ser variables internas,
indicadoras, o variables diseño.
Así por ejemplo si la variable en cuestión recoge datos
de tabaquismo con las siguientes respuestas: Nunca
fumó, Ex-fumador, Actualmente fuma menos de 10
cigarrillos diarios, Actualmente fuma 10 o más
cigarrillos diarios, tenemos 4 posibles respuestas por lo
que construiremos 3 variables internas dicotómicas
(valores 0,1), existiendo diferentes posibilidades de
codificación,
que
conducen
a
diferentes
interpretaciones, y siendo la más habitual la siguiente:
I1
I2
I3
Nunca fumó
0
0
0
Ex- fumador
1
0
0
Menos de 10 cigarrillos diarios
0
1
0
10 o más cigarrillos diarios
0
0
1
En este tipo de codificación el coeficiente de la
ecuación de regresión para cada variable diseño
(siempre transformado con la función exponencial), se
corresponde al odds ratio de esa categoría con
respecto al nivel de referencia (la primera respuesta),
en nuestro ejemplo cuantifica cómo cambia el riesgo
respecto a no haber fumado nunca.
Existen otras posibilidades entre las que se destaca
con un ejemplo para una variable cualitativa de tres
respuestas:
I1
I2
Respuesta 1
0
0
Respuesta 2
1
0
Respuesta 3
1
1
Con esta codificación cada coeficiente se interpreta
como una media del cambio del riesgo al pasar de una
categoría a la siguiente.
En el caso una categoría que NO pueda ser
considerada de forma natural como nivel de referencia,
como por ejemplo el grupo sanguíneo, un posible
sistema de clasificación es:
I1
I2
Respuesta 1
-1
-1
Respuesta 2
1
0
Respuesta 3
0
1
Donde cada coeficiente de las variables indicadoras
tiene una interpretación directa como cambio en el
riesgo con respecto a la media de las tres respuestas.
Bondad del ajuste
Revista Salud, Sexualidad y Sociedad 1(4), 2009
Siempre que se construye un modelo de regresión es
fundamental, antes de pasar a extraer conclusiones, el
corroborar que el modelo calculado se ajusta
efectivamente a los datos usados para estimarlo.
En el caso de la regresión logística una idea bastante
intuitiva es calcular la probabilidad de aparición del
suceso, presencia de hipertensión en nuestro caso,
para todos los pacientes de la muestra. Si el ajuste es
bueno, es de esperar que un valor alto de probabilidad
se asocie con presencia real de hipertensión, y
viceversa, si el valor de esa probabilidad calculada es
bajo, cabe esperar también ausencia de hipertensión.
Esta idea intuitiva se lleva a cabo formalmente
mediante la prueba conocida como de HosmerLemeshow (1989), que básicamente consiste en dividir
el recorrido de la probabilidad en deciles de riesgo (esto
es probabilidad de hipertensión < 0.1, < 0.2, y así hasta
<1) y calcular tanto la distribución de hipertensos, como
no hipertensos prevista por la ecuación y los valores
realmente observados. Ambas distribuciones, esperada
y observada, se contrastan mediante una prueba de
chi².
considerar que puede haber otros factores que
modifiquen esa relación.
Así, por ejemplo, si se está estudiando la posible
relación, como factor de riesgo, entre el síndrome de
apnea nocturna y la probabilidad de padecer
hipertensión, dicha relación puede ser diferente si se
tiene en cuenta otras variables como pueden ser la
edad, el sexo o el índice de masa corporal. Por ello en
un modelo de regresión logística podrían ser incluidas
como variables independientes, además del dato de
apnea. En la ecuación obtenida al considerar como
variables dependientes APNEA, EDAD, SEXO, IMC, el
exp(coeficiente de la ecuación para APNEA) nos
determina el odds ratio debido a la apena, ajustado o
controlado para el resto de los factores.
A las variables que, además del factor de interés (en el
ejemplo EDAD, SEXO, IMC), se introducen en el
modelo, se las denomina en la literatura de diferentes
formas: variables control, variables extrañas,
covariantes, o factores de confusión.
Interacción
En la presentación final de los datos de regresión
logística debiera figurar siempre algún tipo de prueba
de bondad de ajuste y las conclusiones comentadas
que de ella se deducen, pues en el caso de la prueba
Hosmer-Lemeshow es más ilustrativo que el propio
resultado del contraste, los valores de la distribución
obtenida.
Cuando la relación entre el factor en estudio y la
variable dependiente se modifica según el valor de una
tercera estamos hablando de interacción. Así en
nuestro ejemplo, supongamos que la probabilidad de
padecer HTA cuando se tiene síndrome de apnea
aumenta con la edad. En este caso decimos que existe
interacción entre las variables EDAD y APNEA.
Interacción y confusión
Si nos fijamos sólo en el exponente del modelo
logístico, en el caso de no considerar interacción éste
será:
El empleo de técnicas de regresión logística sirve para
dos objetivos:
1. Estimar la relación entre dos variables
teniendo en cuenta la presencia de otros
factores
2. Construir un modelo que permita predecir el
valor de la variable dependiente (en regresión
logística la probabilidad del suceso) para unos
valores determinados de un conjunto de
variables pronóstico
Cuando el objetivo es estimar la relación o asociación
entre dos variables, los modelos de regresión permiten
Si deseamos considerar la presencia de interacción
entre APNEA y EDAD el modelo cambia:
Si la variable APNEA es dicotómica (valores 0 y 1) la
relación entre HTA y APNEA vendrá cuantificada por b1
en el primer modelo mientras que en el segundo
Revista Salud, Sexualidad y Sociedad 1(4), 2009
es decir que ahora esa relación se modifica en función
del valor de la EDAD.
Para entenderlo supongamos el caso extremo, en el
que se introduce en el modelo dos veces la misma
variable, tendríamos entonces el siguiente término.
Algunas precauciones
La amplia disponibilidad de programas que permiten el
acceso a sofisticadas pruebas estadísticas como el
SPSS, el Epi-Info 2002, Systat entre otros, pueden
conducir a la utilización inadecuada y mecánica de
éstas. En particular los modelos de regresión requieren
de quien los construye un mínimo de comprensión de la
filosofía subyacente, así como no sólo el conocimiento
de las ventajas, sino también de los problemas y
debilidades de éstas técnicas. La utilización de
procedimientos matemáticos a menudo nos convence
de que estamos introduciendo "objetividad" en los
resultados y ello es así en cierta medida, pero también
lleva aparejada una gran carga de subjetividad, donde
se incluye desde la misma elección de un modelo
matemático determinado, hasta la selección de las
variables en él contenidas.
Una de las primeras consideraciones que hay que
hacer es que la relación entre la variable independiente
y la probabilidad del suceso no cambie de sentido, ya
que en ese caso no nos sirve el modelo logístico. Esto
es algo que habitualmente no ocurre en los estudios
clínicos, pero por ello es más fácil pasarlo por alto
cuando se presenta.
Un ejemplo muy claro de esa situación se da si
estamos evaluando la probabilidad de nacimiento un
niño con bajo peso (de riesgo) en función de la edad de
la madre. Hasta una edad esa probabilidad puede
aumentar a medida que la edad de la madre disminuye
(madres muy jóvenes) y a partir de una edad (madres
muy mayores) la probabilidad puede aumentar a
medida que lo hace la edad de la madre. En este caso
el modelo logístico no sería adecuado.
Colinealidad
Otro problema que se puede presentar en los modelos
de regresión, no sólo logísticos, es que las variables
que intervienen estén muy correlacionadas, lo que
conduce a un modelo desprovisto de sentido y por lo
tanto a unos valores de los coeficientes no
interpretables. A esta situación, de variables
independientes correlacionadas, se la denomina
colinealidad.
o lo que es lo mismo
Donde la suma b1+b2 admite infinitas posibilidades a la
hora de dividir en dos sumandos el valor de un
coeficiente, por lo que la estimación obtenida de b1 y
b2 no tiene realmente ningún sentido.
Un ejemplo de esta situación se podría dar si incluimos
en la ecuación variables como la hemoglobina y el
hematocrito que está altamente correlacionado.
Tamaño de muestra
Como regla "de andar por casa" podemos considerar
necesario disponer de al menos 10(k + 1) casos para
estimar un modelo con k variables independientes; es
decir, al menos 10 casos por cada variable que
interviene en el modelo, considerando también la
variable dependiente (la probabilidad del suceso), no es
cierto que una misma muestra calculada para un
estudio analítico sirva para el modelo logístico.
Conviene llamar la atención respecto a que las
cualitativas intervienen como c - 1 variables en el
modelo, al construir a partir de ellas las
correspondientes variables internas.
Selección de modelos
Al estar hablando de modelos que pueden ser
multivariantes, un aspecto de interés es cómo
seleccionar el mejor conjunto de variables
independientes a incluir en el modelo.
La definición de mejor modelo depende del tipo y el
objetivo del estudio. En un modelo con finalidad
predictiva se considerará como mejor modelo aquel que
produce predicciones más fiables, mientras que en un
modelo que pretende estimar la relación entre dos
variables (corrigiendo el efecto de otras), se
considerará mejor aquel con el que se consigue una
Revista Salud, Sexualidad y Sociedad 1(4), 2009
estimación más precisa del coeficiente de la variable de
interés. Esto se olvida a menudo y sin embargo
conduce a estrategias de modelado completamente
diferentes. Así en el segundo caso un covariante con
coeficiente estadísticamente significativo pero cuya
inclusión en la ecuación no modifica el valor del
coeficiente de la variable de interés, será excluido de la
ecuación, ya que no se trata de un factor de confusión:
la relación entre la variable de interés y la probabilidad
no se modifica si se tiene en cuenta esa variable. Sin
embargo si lo que se busca un modelo predicitivo sí
que se incluirá en la ecuación pues ahora lo que
buscamos es predicciones más fiables.
Otra consideración que hay que hacer siempre que se
analizan datos es distinguir entre diferencias
numéricas, diferencias estadísticamente significativas y
diferencias clínicamente relevantes. No siempre
coinciden los tres conceptos.
Lo primero que habrá que plantear es el modelo
máximo, o lo que es lo mismo el número máximo de
variables dependientes que pueden ser incluidas en la
ecuación, considerando también las interacciones si
fuera conveniente.
Aunque existen diferentes procedimientos para escoger
el modelo sólo hay tres mecanismos básicos para ello:
empezar con una sola variable dependiente e ir
añadiendo nuevas variables según un criterio prefijado
(procedimiento hacia adelante), o bien empezar con el
modelo máximo e ir eliminando de él variables según
un criterio prefijado (procedimiento hacia atrás). El
tercer método, denominado en la literatura "stepwise",
combina los dos anteriores y en cada paso se puede
tanto añadir una variable como eliminar otra que ya
estaba en la ecuación, dependiendo de los hallazgos
de otros estudios.
En el caso de la regresión logística el criterio para
decidir en cada paso si escogemos un nuevo modelo
frente al actual viene dado por el logaritmo del cociente
de verosimilitudes de los modelos.
La función de verosimilitud de un modelo es una
medida de cuán compatible es éste con los datos
realmente observados. Si al añadir una nueva variable
al modelo no mejora la verosimilitud de forma
apreciable, en sentido estadístico, ésta variable no se
incluye en la ecuación.
Para evaluar la significación estadística de una variable
concreta dentro del modelo, nos fijaremos en el valor
de chi² (estadístico de Wald) correspondiente al
coeficiente de la variable y en su nivel de probabilidad
El método de máxima verosimilitud
Supone que las observaciones fueron generadas por
una distribución de probabilidades cuyos parámetros
hay que estimar. Para llevar a cabo la estimación se
construye la función de verosimilitud que es una
medida de la incertidumbre en la estimación de valores
hipotéticos del o de los parámetros. Supongamos que
el valor hipotético del parámetro q es q' entonces la
función de verosimilitud será:
L(q'/Y, M) = K(Y)P(Y/q')
Donde la función de verosimilitud L representa la
incertidumbre asociada a q', dada las observaciones (Y)
y el modelo (M). El método consiste en encontrar el
valor de q' que maximiza la verosimilitud de que los
datos fueron producidos por el modelo (King G.: 1989:
24). Son muchos los cálculos técnicos de este método
de estimación, sin embargo, dejaremos su presentación
en este punto para enfocarnos hacia las ideas centrales
que organizan esta forma de atacar el problema.
Queremos destacar el hecho que el planteamiento del
método de estimación máximo verosímil introduce el
supuesto de que las observaciones se generan por un
mecanismo aleatorio. Esta es una forma de "organizar"
la experiencia. Reconoce un papel activo del sujeto, es
éste quien decide si el modelo adecuado para
representar un conjunto de datos es la distribución
binomial o multinomial, etc. La elección no es arbitraria
sino que se apoya en el examen del procedimiento que
se siguió para generar las observaciones y las
características teóricas de las distribuciones de
probabilidades.
Prueba de Wald de significación de los parámetros
Es posible que algunas de las supuestas variables
explicativas no sean tales y no tengan ningún efecto
sobre la variable respuesta; para poder identificarlas y
eliminarlas del modelo, se recurre a la prueba de Wald,
la cual se limita a contrastar la hipótesis de nulidad del
coeficiente
asociado a la variable Xj:
Revista Salud, Sexualidad y Sociedad 1(4), 2009
H0j: "Xj no influye sobre Y:
frente a la alternativa:
H1j: "Xj influye sobre Y:
=0"
Se quiere investigar la efectividad de la acupuntura en
el tratamiento de las molestias lumbares.
".
El programa calcula los coeficientes asociados a cada
una de las variables explicativas: tratamiento (0.78),
sexo (1.45), edad (-0.01) y consumo de sicofármacos
(1.91). En cuanto a los contrastes de Wald, todos ellos
aceptan la nulidad de los coeficientes, excepto el
correspondiente a la variable sobre consumo de
sicofármacos; la interpretación de los resultados es que
ni el tratamiento, ni el sexo, ni la edad influyen sobre la
declaración del paciente sobre su mejoría, pero sí el
haber sido consumidor de sicofármacos, lo que induce
a pensar que son los pacientes más sugestionables los
que dicen haber mejorado, independientemente de
donde hayan sido colocadas las agujas, de su sexo y
de su edad.
El estadístico de contraste para la j-ésima variable
explicativa es
que se distribuye como una
con 1 grado de libertad
cuando la muestra es grande, siendo s2j la varianza del
estimador de
. El contraste se realiza a un nivel de
significación del 5%.
Caso
Se ha realizado un ensayo clínico para determinar la
capacidad analgésica de la acupuntura en el
tratamiento de los dolores lumbares. A este fin se les
ha aplicado el tratamiento a 40 pacientes colocando las
agujas en los lugares indicados por la medicina
tradicional china, y a otros 40 un tratamiento placebo
consistente en situar las agujas de forma aleatoria
sobre la superficie cutánea (tradicional=1, placebo=0).
Además, se sabe de cada uno de ellos el sexo
(mujer=0, hombre=1), la edad (años cumplidos) y el
historial de consumo de sicofármacos (no consumió=0,
consumo ocasional=1, regular=2, frecuente=3,
dependencia=4). Transcurridos dos meses de
tratamiento, el individuo declara que ha experimentado
mejoría (Y=1) o que los dolores se mantienen o que
han aumentado (Y=0):
Resultado Tratamiento Sexo
(0-1)
(0-1)
(0-1)
Edad
(años)
(Fuente: L. C. Silva Ayçaguer (1995) Excursión a la
regresión logística en ciencias de la salud. Ed. Díaz de
Santos, Madrid.)
EJEMPLO DE TRABAJO EN EL SPSS
Primero se selecciona la base de datos en la se desea
trabajar, teniendo cuidado que la variable dependiente
que sea motivo del análisis sea dicotómica.
Sicofármacos
(0-4)
1
0
0
49
1
0
0
0
35
0
0
0
1
23
0
0
0
0
54
0
0
0
1
43
1
0
0
1
63
2
0
0
0
25
0
0
0
1
41
0
1
0
0
22
3
1
0
0
33
2
...
...
...
...
...
Posteriormente se va al menú contextual y se
selecciona ANALIZE, al cual se la un Clik.
Revista Salud, Sexualidad y Sociedad 1(4), 2009
Luego se va a la sección de regresión y se selecciona
binary Logistic la cual está referida a la regresión
logística binaria.
Posteriormente se reportan los resultados en el SPSS
de la siguiente forma, los cuales solamente se
seleccionan dos cuadros:
Logistic Regression
Case Processing Summary
Unweighted Cases
Selected Cases
a
N
Included in Analysis
Missing Cases
Total
52
14
66
0
66
Unselected Cases
Total
Posteriormente se ingresa en el casillero de Depndent
la variable dependiente, la cual debe ser dicotómica, en
este ejemplo se esta tomando es de un estudio de
casos y controles de mortalidad materna, la variable
condición se categoriza en Muerte Materna y
sobreviviente. Las variables independientes, como se
ha visto con anterioridad de preferencia deben ser
cuantitativa o categorizarlas de manera lógica para el
análisis, para este caso y para evitar confusión
emplearemos variables cuantitativas como edad, edad
gestacional, peso materno, talla materna, nº de hijos
vivos, intervalo íntergenésico y número de controles
prenatales. Dichas variables se colocan en el casillero
de covariates.
Percent
78,8
21,2
100,0
,0
100,0
a. If weight is in effect, see classification table for the total
number of cases.
Dependent Variable Encoding
Original Value
Internal Value
Muerte Materna
0
Sobreviviente
1
Block 0: Beginning Block
Classification Tablea,b
Predicted
Step 0
Observed
Condición
Muerte Materna
Sobreviviente
Condición
Muerte
Materna
Sobreviviente
0
24
0
28
Overall Percentage
Percentage
Correct
,0
100,0
53,8
a. Constant is included in the model.
b. The cut value is ,500
Variables in the Equation
Step 0
Constant
B
,154
S.E.
,278
Wald
,307
df
1
Sig.
,579
Exp(B)
1,167
Revista Salud, Sexualidad y Sociedad 1(4), 2009
Variables not in the Equation
Step
0
Variables
Score
,677
,604
,427
1,250
7,117
,558
1,072
17,056
EDAD10
EDADGE21
PESOMA22
TALMAT23
NHJSNV25
ININTE27
NCPN28
Overall Statistics
df
Sig.
,411
,437
,513
,264
,008
,455
,300
,017
1
1
1
1
1
1
1
7
Omnibus Tests of Model Coefficients
Chi-square
23,586
23,586
23,586
Step
Block
Model
df
Sig.
,001
,001
,001
7
7
7
-2 Log
likelihood
48,194
Cox & Snell
R Square
,365
B
Edad
Edad Gestacional
Peso Materno
Talla Materna
Nº de Hijos
Int. Intergenésico
Nº de CPN
Constante
Nagelkerke
R Square
,487
Classification Tablea
Step 1
Condición
Muerte
Materna
Sobreviviente
16
8
6
22
Muerte Materna
Sobreviviente
Overall Percentage
Percentage
Correct
66,7
78,6
73,1
1.
2.
3.
a. The cut value is ,500
Variables in the Equation
Step
a
1
EDAD10
EDADGE21
PESOMA22
TALMAT23
NHJSNV25
ININTE27
NCPN28
Constant
B
,166
-,038
-,019
-9,559
-,936
,095
,385
12,876
S.E.
,092
,041
,038
7,213
,346
,147
,174
10,057
Wald
3,269
,873
,247
1,756
7,331
,419
4,903
1,639
df
1
1
1
1
1
1
1
1
Sig.
,071
,350
,619
,185
,007
,518
,027
,200
Exp(B)
1,181
,962
,981
,000
,392
1,100
1,469
390681,5
gl
1,250
7,117
,558
1,072
17,056
1
1
1
1
1
1
1
7
Sig (p).
,411
,437
,513
,264
,008
,455
,300
,017
,166
-,038
-,019
-9,559
-,936
,095
,385
12,876
S.E.
,092
,041
,038
7,213
,346
,147
,174
10,057
gl
1
1
1
1
1
1
1
1
Sig (p).
OR
,071
1,181
,350
,962
,619
,981
,185
,000
,007
,392
,518
1,100
,027
1,469
,200 390681,50
Int. Conf. 95,0% (OR)
Mínimo
Máximo
,986
1,413
,888
1,043
,910
1,058
,000
97,265
,199
,772
,825
1,466
1,045
2,064
REFERENCIAS BIBLIOGRÁFICAS
Predicted
Observed
Condición
Valor Chi²
,677
,604
Todos los variables
Model Summary
Step
1
Edad
Edad gestacional
Peso Materno
Talla Materna
Nº de Hijos
Interv. Intergenesico
Nº de CPN
Se selecciona el segundo cuadro ya que realiza la
interacción de riesgo entre las muertes maternas y las
sobrevivientes, mientras que el primero solamente hace
una asociación simple a la muerte materna sin
comparación con las sobrevivientes.
Block 1: Method = Enter
Step 1
Variables
95,0% C.I.for EXP(B)
Lower
Upper
,986
1,413
,888
1,043
,910
1,058
,000
97,265
,199
,772
,825
1,466
1,045
2,064
4.
5.
a. Variable(s) entered on step 1: EDAD10, EDADGE21, PESOMA22, TALMAT23, NHJSNV25, ININTE27, NCPN28.
REPORTE FINAL DE REGRESIÓN LOGÍSTICA
BINARIA EN SPSS Y SU INTERPRETACIÓN
6.
Los cuadros marcados se editan en el SPSS y se
escogen las pruebas de acuerdo al análisis de la
información
7.
Recibido: 02/11/2008
8.
Ayçaguer S. Excursión a la regresión logística en
ciencias de la salud. Ed. Díaz de Santos. Madrid 1995.
Hosmer D, Lemeshow S, Wiley J. Applied Logistic
Regresión. New York. 1989.
Abraira V, Pérez de Vargas A. Métodos multivariantes en
bioestadística Ed. Centro de Estudios Ramón Areces.
Madrid. 1996.
Breslow N, Días N. Los métodos estadísticos en la
investigación de cáncer: el análisis de estudios del casomando. Lyon, Francia: IARC la Publicación Científica; ;
1981; 1 (32).
Hosmer D, Lemeshow S. La regresión logistica aplicada
(las Series de Wiley en la Probabilidad y la Estadística
Matemática. La Probabilidad aplicada y Sección de la
Estadística). Nueva York: John Wiley; 1989.
Kleinbaum D, Kupper L, Morgenstern H., Investigación
Epidemiológica: los Principios y los métodos
cuantitativos. Nueva York: Van Nostrand Reinhold; 1982.
Kleinbaum D, Kupper L, Muller K. El análisis de la
regresión aplicada y otros métodos multivariantes.
Segunda edición. Boston: Duxbury Press; 1987.
Kleinbaum D. Las estadísticas en las ciencias de salud:
Logistic regression. Nueva York: Springer-Verlag; 1994.
Aceptado: 06/01/2009