regresión logística aplicada a la epidemiología
Transcription
regresión logística aplicada a la epidemiología
Revista Salud, Sexualidad y Sociedad 1(4), 2009 REGRESIÓN LOGÍSTICA APLICADA A LA EPIDEMIOLOGÍA LOGISTIC APPLIED FOR REGRESSION EPIDEMIOLOGY Dra. Jully Pahola Calderón Saldaña Dr. Luis Alzamora de los Godos Urcia RESUMEN El siguiente artículo presenta la regresión logística como un método aplicado a las ciencias de la salud, en especial a la epidemiología, con lo que se trabajan los coeficientes del modelo logístico como cuantificadora de riesgo, las variables cualitativas en el modelo logístico, la interacción y confusión, la colinealidad, el tamaño de la muestra, la selección de modelos, el método de máxima verosimilitud y la prueba de Wald de significación de los parámetros, en todo este aplicativo se coloca un ejemplo en de reporte final de regresión logística binaria en SPSS y su interpretación . Palabras Claves: Regresión logística, epidemiología. ABSTRACT The following article presents the logistic regression like an applied for method the sciences of health, specially to epidemiology, so that the coefficients of the logistic model like quantifiers of risk, the qualitative variables in the logistic model, the interaction and confusion, the colineality, the size of sign, the selection of models, the procedure of maximum verisimilitude and Wald's sample of significance of the parameters, in everything are worked up this application an example is placed in of final report of logistic binary regression in SPSS and your interpretation. Key words: Logistic regression, epidemiology. INTRODUCCIÓN No cabe ninguna duda que la regresión logística es una de las herramientas estadísticas con mejor capacidad para el análisis de datos en investigación clínica y epidemiología, de ahí su amplia utilización. El objetivo primordial que resuelve esta técnica es el de modelar cómo influye en la probabilidad de aparición de un suceso, habitualmente dicotómico, la presencia o no de diversos factores y el valor o nivel de los mismos. También puede ser usada para estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con más de dos categorías (politómico o multinomial). De todos es sabido que este tipo de situaciones se aborda mediante técnicas de regresión. Sin embargo, la metodología de la regresión lineal no es aplicable ya que ahora la variable respuesta sólo presenta dos valores (nos centraremos en el caso dicotómico), como puede ser presencia/ausencia de alguna enfermedad o suceso, por ejemplo hipertensión. Si clasificamos el valor de la variable respuesta como 0 cuando no se presenta el suceso (ausencia de hipertensión) y con el valor 1 cuando sí está presente (paciente hipertenso), y buscamos cuantificar la posible relación entre la presencia de hipertensión y, por ejemplo, la cantidad media de sal consumida al día como posible factor de riesgo, podríamos caer en la tentación de utilizar una regresión lineal y estimar, a partir de nuestros datos, por el procedimiento habitual de mínimos cuadrados, los coeficientes a y b de la ecuación. Sin embargo, y aunque esto es posible matemáticamente, nos conduce a la obtención de resultados absurdos, ya que cuando se calcule la función obtenida para diferentes valores de consumo de sal se obtendrá resultados que, en general, serán diferentes de 0 y 1, los únicos realmente posibles en este caso, ya que esa restricción no se impone en la regresión lineal, en la que la respuesta puede en principio tomar cualquier valor. Si utilizamos cómo variable dependiente la probabilidad p de que un paciente padezca hipertensión y construimos la siguiente función: 1. Doctor of Philosophy in Public Health (Ph. D.). U.M. U.S.A. Docente de Postgrado en Salud de la Universidad Nacional Federico Villareal. 2. Doctor of Philosophy in Public Health (Ph. D.). U.M. U.S.A. Docente de Postgrado en Salud de la Universidad Inca Garcilaso de la Vega. Revista Salud, Sexualidad y Sociedad 1(4), 2009 Aahora sí tenemos una variable que puede tomar cualquier valor, por lo que podemos plantearnos el buscar para ella una ecuación de regresión tradicional: Que se puede convertir con una pequeña manipulación algebraica en Y este es precisamente el tipo de ecuación que se conoce como modelo logístico, donde el número de factores puede ser más de uno, así en el exponente que figura en el denominador de la ecuación podríamos tener: la haya en esa situación. Igualmente podríamos calcular el odds de presencia de hipertensión cuando el consumo de sal es inferior a esa cantidad. Si dividimos el primer odds entre el segundo, hemos calculado un cociente de odds, esto es un odds ratio, que de alguna manera cuantifica cuánto más probable es la aparición de hipertensión cuando se consume mucha sal (primer odds) respecto a cuándo se consume poca. La noción que se está midiendo es parecida a la que encontramos en lo que se denomina riesgo relativo que corresponde al cociente de la probabilidad de que aparezca un suceso (hipertensión) cuando está presente el factor (consumo elevado de sal) respecto a cuando no lo está. De hecho cuando la prevalencia del suceso es baja (< 20 %) el valor del odds ratio y el riesgo relativo es muy parecido, pero no es así cuando el suceso es bastante común, hecho que a menudo se ignora y será objeto de un comentario más extenso en un nuevo artículo. Si en la ecuación de regresión tenemos un factor dicotómico, como puede ser por ejemplo si el sujeto es no fumador, el coeficiente b de la ecuación para ese factor está directamente relacionado con el odds ratio OR de ser fumador respecto a no serlo b1.consumo_sal + b2.edad + b3.sexo + b4.fumador Los coeficientes del modelo logístico como cuantificadores de riesgo Una de las características que hacen tan interesante la regresión logística es la relación que éstos guardan con un parámetro de cuantificación de riesgo conocido en la literatura como "odds ratio" (aunque puede tener traducción al castellano, renunciamos a ello para evitar confusión ya que siempre se utiliza la terminología inglesa). El odds asociado a un suceso es el cociente entre la probabilidad de que ocurra frente a la probabilidad de que no ocurra: Siendo p la probabilidad del suceso. Así, por ejemplo, podemos calcular el odds de presencia de hipertensión cuando el consumo diario de sal es igual o superior a una cierta cantidad, que en realidad determina cuántas veces es más probable que haya hipertensión a que no Es decir que exp(b) es una medida que cuantifica el riesgo que representa poseer el factor correspondiente respecto a no poseerlo, suponiendo que el resto de variables del modelo permanecen constantes. Cuando la variable es numérica, como puede ser por ejemplo la edad, o el índice de masa corporal, es una medida que cuantifica el cambio en el riesgo cuando se pasa de un valor del factor a otro, permaneciendo constantes el resto de variables. Así el odds ratio que supone pasar de la edad X1 a la edad X2, siendo b el coeficiente correspondiente a la edad en el modelo logístico es: Nótese que se trata de un modelo en el que el aumento o disminución del riesgo al pasar de un valor a otro del factor es proporcional al cambio, es decir a la diferencia entre los dos valores, pero no al punto de partida, quiere esto decir que el cambio en el riesgo, con el Revista Salud, Sexualidad y Sociedad 1(4), 2009 modelo logístico, es el mismo cuando pasamos de 40 a 50 años que cuando pasamos de 80 a 90. Cuando el coeficiente b de la variable es positivo obtendremos un odds ratio mayor que 1 y corresponde por tanto a un factor de riesgo. Por el contrario, si b es negativo el odds ratio será menor que 1 y se trata de un factor de protección. Las variables cualitativas en el modelo logístico Puesto que la metodología empleada para la estimación del modelo logístico se basa en la utilización de variables cuantitativas, al igual que en cualquier otro procedimiento de regresión, es incorrecto que en él intervengan variables cualitativas, ya sean nominales u ordinales. La asignación de un número a cada categoría no resuelve el problema ya que si tenemos, por ejemplo, la variable ejercicio físico con tres posibles respuestas: sedentario, realiza ejercicio esporádicamente, realiza ejercicio frecuentemente, y le asignamos los valores 0, 1, 2, significa a efectos del modelo, que efectuar ejercicio físico frecuentemente es dos veces mayor que solo hacerlo esporádicamente, lo cual no tienen ningún sentido. Más absurdo sería si se trata, a diferencia de ésta, de una variable nominal, sin ninguna relación de orden entre las respuestas, como puede ser el estado civil. La solución a este problema es crear tantas variables dicotómicas como número de respuestas - 1. Estas nuevas variables, artificialmente creadas, reciben en la literatura anglosajona el nombre de "dummy", traduciéndose en español con diferentes denominaciones como pueden ser variables internas, indicadoras, o variables diseño. Así por ejemplo si la variable en cuestión recoge datos de tabaquismo con las siguientes respuestas: Nunca fumó, Ex-fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios, tenemos 4 posibles respuestas por lo que construiremos 3 variables internas dicotómicas (valores 0,1), existiendo diferentes posibilidades de codificación, que conducen a diferentes interpretaciones, y siendo la más habitual la siguiente: I1 I2 I3 Nunca fumó 0 0 0 Ex- fumador 1 0 0 Menos de 10 cigarrillos diarios 0 1 0 10 o más cigarrillos diarios 0 0 1 En este tipo de codificación el coeficiente de la ecuación de regresión para cada variable diseño (siempre transformado con la función exponencial), se corresponde al odds ratio de esa categoría con respecto al nivel de referencia (la primera respuesta), en nuestro ejemplo cuantifica cómo cambia el riesgo respecto a no haber fumado nunca. Existen otras posibilidades entre las que se destaca con un ejemplo para una variable cualitativa de tres respuestas: I1 I2 Respuesta 1 0 0 Respuesta 2 1 0 Respuesta 3 1 1 Con esta codificación cada coeficiente se interpreta como una media del cambio del riesgo al pasar de una categoría a la siguiente. En el caso una categoría que NO pueda ser considerada de forma natural como nivel de referencia, como por ejemplo el grupo sanguíneo, un posible sistema de clasificación es: I1 I2 Respuesta 1 -1 -1 Respuesta 2 1 0 Respuesta 3 0 1 Donde cada coeficiente de las variables indicadoras tiene una interpretación directa como cambio en el riesgo con respecto a la media de las tres respuestas. Bondad del ajuste Revista Salud, Sexualidad y Sociedad 1(4), 2009 Siempre que se construye un modelo de regresión es fundamental, antes de pasar a extraer conclusiones, el corroborar que el modelo calculado se ajusta efectivamente a los datos usados para estimarlo. En el caso de la regresión logística una idea bastante intuitiva es calcular la probabilidad de aparición del suceso, presencia de hipertensión en nuestro caso, para todos los pacientes de la muestra. Si el ajuste es bueno, es de esperar que un valor alto de probabilidad se asocie con presencia real de hipertensión, y viceversa, si el valor de esa probabilidad calculada es bajo, cabe esperar también ausencia de hipertensión. Esta idea intuitiva se lleva a cabo formalmente mediante la prueba conocida como de HosmerLemeshow (1989), que básicamente consiste en dividir el recorrido de la probabilidad en deciles de riesgo (esto es probabilidad de hipertensión < 0.1, < 0.2, y así hasta <1) y calcular tanto la distribución de hipertensos, como no hipertensos prevista por la ecuación y los valores realmente observados. Ambas distribuciones, esperada y observada, se contrastan mediante una prueba de chi². considerar que puede haber otros factores que modifiquen esa relación. Así, por ejemplo, si se está estudiando la posible relación, como factor de riesgo, entre el síndrome de apnea nocturna y la probabilidad de padecer hipertensión, dicha relación puede ser diferente si se tiene en cuenta otras variables como pueden ser la edad, el sexo o el índice de masa corporal. Por ello en un modelo de regresión logística podrían ser incluidas como variables independientes, además del dato de apnea. En la ecuación obtenida al considerar como variables dependientes APNEA, EDAD, SEXO, IMC, el exp(coeficiente de la ecuación para APNEA) nos determina el odds ratio debido a la apena, ajustado o controlado para el resto de los factores. A las variables que, además del factor de interés (en el ejemplo EDAD, SEXO, IMC), se introducen en el modelo, se las denomina en la literatura de diferentes formas: variables control, variables extrañas, covariantes, o factores de confusión. Interacción En la presentación final de los datos de regresión logística debiera figurar siempre algún tipo de prueba de bondad de ajuste y las conclusiones comentadas que de ella se deducen, pues en el caso de la prueba Hosmer-Lemeshow es más ilustrativo que el propio resultado del contraste, los valores de la distribución obtenida. Cuando la relación entre el factor en estudio y la variable dependiente se modifica según el valor de una tercera estamos hablando de interacción. Así en nuestro ejemplo, supongamos que la probabilidad de padecer HTA cuando se tiene síndrome de apnea aumenta con la edad. En este caso decimos que existe interacción entre las variables EDAD y APNEA. Interacción y confusión Si nos fijamos sólo en el exponente del modelo logístico, en el caso de no considerar interacción éste será: El empleo de técnicas de regresión logística sirve para dos objetivos: 1. Estimar la relación entre dos variables teniendo en cuenta la presencia de otros factores 2. Construir un modelo que permita predecir el valor de la variable dependiente (en regresión logística la probabilidad del suceso) para unos valores determinados de un conjunto de variables pronóstico Cuando el objetivo es estimar la relación o asociación entre dos variables, los modelos de regresión permiten Si deseamos considerar la presencia de interacción entre APNEA y EDAD el modelo cambia: Si la variable APNEA es dicotómica (valores 0 y 1) la relación entre HTA y APNEA vendrá cuantificada por b1 en el primer modelo mientras que en el segundo Revista Salud, Sexualidad y Sociedad 1(4), 2009 es decir que ahora esa relación se modifica en función del valor de la EDAD. Para entenderlo supongamos el caso extremo, en el que se introduce en el modelo dos veces la misma variable, tendríamos entonces el siguiente término. Algunas precauciones La amplia disponibilidad de programas que permiten el acceso a sofisticadas pruebas estadísticas como el SPSS, el Epi-Info 2002, Systat entre otros, pueden conducir a la utilización inadecuada y mecánica de éstas. En particular los modelos de regresión requieren de quien los construye un mínimo de comprensión de la filosofía subyacente, así como no sólo el conocimiento de las ventajas, sino también de los problemas y debilidades de éstas técnicas. La utilización de procedimientos matemáticos a menudo nos convence de que estamos introduciendo "objetividad" en los resultados y ello es así en cierta medida, pero también lleva aparejada una gran carga de subjetividad, donde se incluye desde la misma elección de un modelo matemático determinado, hasta la selección de las variables en él contenidas. Una de las primeras consideraciones que hay que hacer es que la relación entre la variable independiente y la probabilidad del suceso no cambie de sentido, ya que en ese caso no nos sirve el modelo logístico. Esto es algo que habitualmente no ocurre en los estudios clínicos, pero por ello es más fácil pasarlo por alto cuando se presenta. Un ejemplo muy claro de esa situación se da si estamos evaluando la probabilidad de nacimiento un niño con bajo peso (de riesgo) en función de la edad de la madre. Hasta una edad esa probabilidad puede aumentar a medida que la edad de la madre disminuye (madres muy jóvenes) y a partir de una edad (madres muy mayores) la probabilidad puede aumentar a medida que lo hace la edad de la madre. En este caso el modelo logístico no sería adecuado. Colinealidad Otro problema que se puede presentar en los modelos de regresión, no sólo logísticos, es que las variables que intervienen estén muy correlacionadas, lo que conduce a un modelo desprovisto de sentido y por lo tanto a unos valores de los coeficientes no interpretables. A esta situación, de variables independientes correlacionadas, se la denomina colinealidad. o lo que es lo mismo Donde la suma b1+b2 admite infinitas posibilidades a la hora de dividir en dos sumandos el valor de un coeficiente, por lo que la estimación obtenida de b1 y b2 no tiene realmente ningún sentido. Un ejemplo de esta situación se podría dar si incluimos en la ecuación variables como la hemoglobina y el hematocrito que está altamente correlacionado. Tamaño de muestra Como regla "de andar por casa" podemos considerar necesario disponer de al menos 10(k + 1) casos para estimar un modelo con k variables independientes; es decir, al menos 10 casos por cada variable que interviene en el modelo, considerando también la variable dependiente (la probabilidad del suceso), no es cierto que una misma muestra calculada para un estudio analítico sirva para el modelo logístico. Conviene llamar la atención respecto a que las cualitativas intervienen como c - 1 variables en el modelo, al construir a partir de ellas las correspondientes variables internas. Selección de modelos Al estar hablando de modelos que pueden ser multivariantes, un aspecto de interés es cómo seleccionar el mejor conjunto de variables independientes a incluir en el modelo. La definición de mejor modelo depende del tipo y el objetivo del estudio. En un modelo con finalidad predictiva se considerará como mejor modelo aquel que produce predicciones más fiables, mientras que en un modelo que pretende estimar la relación entre dos variables (corrigiendo el efecto de otras), se considerará mejor aquel con el que se consigue una Revista Salud, Sexualidad y Sociedad 1(4), 2009 estimación más precisa del coeficiente de la variable de interés. Esto se olvida a menudo y sin embargo conduce a estrategias de modelado completamente diferentes. Así en el segundo caso un covariante con coeficiente estadísticamente significativo pero cuya inclusión en la ecuación no modifica el valor del coeficiente de la variable de interés, será excluido de la ecuación, ya que no se trata de un factor de confusión: la relación entre la variable de interés y la probabilidad no se modifica si se tiene en cuenta esa variable. Sin embargo si lo que se busca un modelo predicitivo sí que se incluirá en la ecuación pues ahora lo que buscamos es predicciones más fiables. Otra consideración que hay que hacer siempre que se analizan datos es distinguir entre diferencias numéricas, diferencias estadísticamente significativas y diferencias clínicamente relevantes. No siempre coinciden los tres conceptos. Lo primero que habrá que plantear es el modelo máximo, o lo que es lo mismo el número máximo de variables dependientes que pueden ser incluidas en la ecuación, considerando también las interacciones si fuera conveniente. Aunque existen diferentes procedimientos para escoger el modelo sólo hay tres mecanismos básicos para ello: empezar con una sola variable dependiente e ir añadiendo nuevas variables según un criterio prefijado (procedimiento hacia adelante), o bien empezar con el modelo máximo e ir eliminando de él variables según un criterio prefijado (procedimiento hacia atrás). El tercer método, denominado en la literatura "stepwise", combina los dos anteriores y en cada paso se puede tanto añadir una variable como eliminar otra que ya estaba en la ecuación, dependiendo de los hallazgos de otros estudios. En el caso de la regresión logística el criterio para decidir en cada paso si escogemos un nuevo modelo frente al actual viene dado por el logaritmo del cociente de verosimilitudes de los modelos. La función de verosimilitud de un modelo es una medida de cuán compatible es éste con los datos realmente observados. Si al añadir una nueva variable al modelo no mejora la verosimilitud de forma apreciable, en sentido estadístico, ésta variable no se incluye en la ecuación. Para evaluar la significación estadística de una variable concreta dentro del modelo, nos fijaremos en el valor de chi² (estadístico de Wald) correspondiente al coeficiente de la variable y en su nivel de probabilidad El método de máxima verosimilitud Supone que las observaciones fueron generadas por una distribución de probabilidades cuyos parámetros hay que estimar. Para llevar a cabo la estimación se construye la función de verosimilitud que es una medida de la incertidumbre en la estimación de valores hipotéticos del o de los parámetros. Supongamos que el valor hipotético del parámetro q es q' entonces la función de verosimilitud será: L(q'/Y, M) = K(Y)P(Y/q') Donde la función de verosimilitud L representa la incertidumbre asociada a q', dada las observaciones (Y) y el modelo (M). El método consiste en encontrar el valor de q' que maximiza la verosimilitud de que los datos fueron producidos por el modelo (King G.: 1989: 24). Son muchos los cálculos técnicos de este método de estimación, sin embargo, dejaremos su presentación en este punto para enfocarnos hacia las ideas centrales que organizan esta forma de atacar el problema. Queremos destacar el hecho que el planteamiento del método de estimación máximo verosímil introduce el supuesto de que las observaciones se generan por un mecanismo aleatorio. Esta es una forma de "organizar" la experiencia. Reconoce un papel activo del sujeto, es éste quien decide si el modelo adecuado para representar un conjunto de datos es la distribución binomial o multinomial, etc. La elección no es arbitraria sino que se apoya en el examen del procedimiento que se siguió para generar las observaciones y las características teóricas de las distribuciones de probabilidades. Prueba de Wald de significación de los parámetros Es posible que algunas de las supuestas variables explicativas no sean tales y no tengan ningún efecto sobre la variable respuesta; para poder identificarlas y eliminarlas del modelo, se recurre a la prueba de Wald, la cual se limita a contrastar la hipótesis de nulidad del coeficiente asociado a la variable Xj: Revista Salud, Sexualidad y Sociedad 1(4), 2009 H0j: "Xj no influye sobre Y: frente a la alternativa: H1j: "Xj influye sobre Y: =0" Se quiere investigar la efectividad de la acupuntura en el tratamiento de las molestias lumbares. ". El programa calcula los coeficientes asociados a cada una de las variables explicativas: tratamiento (0.78), sexo (1.45), edad (-0.01) y consumo de sicofármacos (1.91). En cuanto a los contrastes de Wald, todos ellos aceptan la nulidad de los coeficientes, excepto el correspondiente a la variable sobre consumo de sicofármacos; la interpretación de los resultados es que ni el tratamiento, ni el sexo, ni la edad influyen sobre la declaración del paciente sobre su mejoría, pero sí el haber sido consumidor de sicofármacos, lo que induce a pensar que son los pacientes más sugestionables los que dicen haber mejorado, independientemente de donde hayan sido colocadas las agujas, de su sexo y de su edad. El estadístico de contraste para la j-ésima variable explicativa es que se distribuye como una con 1 grado de libertad cuando la muestra es grande, siendo s2j la varianza del estimador de . El contraste se realiza a un nivel de significación del 5%. Caso Se ha realizado un ensayo clínico para determinar la capacidad analgésica de la acupuntura en el tratamiento de los dolores lumbares. A este fin se les ha aplicado el tratamiento a 40 pacientes colocando las agujas en los lugares indicados por la medicina tradicional china, y a otros 40 un tratamiento placebo consistente en situar las agujas de forma aleatoria sobre la superficie cutánea (tradicional=1, placebo=0). Además, se sabe de cada uno de ellos el sexo (mujer=0, hombre=1), la edad (años cumplidos) y el historial de consumo de sicofármacos (no consumió=0, consumo ocasional=1, regular=2, frecuente=3, dependencia=4). Transcurridos dos meses de tratamiento, el individuo declara que ha experimentado mejoría (Y=1) o que los dolores se mantienen o que han aumentado (Y=0): Resultado Tratamiento Sexo (0-1) (0-1) (0-1) Edad (años) (Fuente: L. C. Silva Ayçaguer (1995) Excursión a la regresión logística en ciencias de la salud. Ed. Díaz de Santos, Madrid.) EJEMPLO DE TRABAJO EN EL SPSS Primero se selecciona la base de datos en la se desea trabajar, teniendo cuidado que la variable dependiente que sea motivo del análisis sea dicotómica. Sicofármacos (0-4) 1 0 0 49 1 0 0 0 35 0 0 0 1 23 0 0 0 0 54 0 0 0 1 43 1 0 0 1 63 2 0 0 0 25 0 0 0 1 41 0 1 0 0 22 3 1 0 0 33 2 ... ... ... ... ... Posteriormente se va al menú contextual y se selecciona ANALIZE, al cual se la un Clik. Revista Salud, Sexualidad y Sociedad 1(4), 2009 Luego se va a la sección de regresión y se selecciona binary Logistic la cual está referida a la regresión logística binaria. Posteriormente se reportan los resultados en el SPSS de la siguiente forma, los cuales solamente se seleccionan dos cuadros: Logistic Regression Case Processing Summary Unweighted Cases Selected Cases a N Included in Analysis Missing Cases Total 52 14 66 0 66 Unselected Cases Total Posteriormente se ingresa en el casillero de Depndent la variable dependiente, la cual debe ser dicotómica, en este ejemplo se esta tomando es de un estudio de casos y controles de mortalidad materna, la variable condición se categoriza en Muerte Materna y sobreviviente. Las variables independientes, como se ha visto con anterioridad de preferencia deben ser cuantitativa o categorizarlas de manera lógica para el análisis, para este caso y para evitar confusión emplearemos variables cuantitativas como edad, edad gestacional, peso materno, talla materna, nº de hijos vivos, intervalo íntergenésico y número de controles prenatales. Dichas variables se colocan en el casillero de covariates. Percent 78,8 21,2 100,0 ,0 100,0 a. If weight is in effect, see classification table for the total number of cases. Dependent Variable Encoding Original Value Internal Value Muerte Materna 0 Sobreviviente 1 Block 0: Beginning Block Classification Tablea,b Predicted Step 0 Observed Condición Muerte Materna Sobreviviente Condición Muerte Materna Sobreviviente 0 24 0 28 Overall Percentage Percentage Correct ,0 100,0 53,8 a. Constant is included in the model. b. The cut value is ,500 Variables in the Equation Step 0 Constant B ,154 S.E. ,278 Wald ,307 df 1 Sig. ,579 Exp(B) 1,167 Revista Salud, Sexualidad y Sociedad 1(4), 2009 Variables not in the Equation Step 0 Variables Score ,677 ,604 ,427 1,250 7,117 ,558 1,072 17,056 EDAD10 EDADGE21 PESOMA22 TALMAT23 NHJSNV25 ININTE27 NCPN28 Overall Statistics df Sig. ,411 ,437 ,513 ,264 ,008 ,455 ,300 ,017 1 1 1 1 1 1 1 7 Omnibus Tests of Model Coefficients Chi-square 23,586 23,586 23,586 Step Block Model df Sig. ,001 ,001 ,001 7 7 7 -2 Log likelihood 48,194 Cox & Snell R Square ,365 B Edad Edad Gestacional Peso Materno Talla Materna Nº de Hijos Int. Intergenésico Nº de CPN Constante Nagelkerke R Square ,487 Classification Tablea Step 1 Condición Muerte Materna Sobreviviente 16 8 6 22 Muerte Materna Sobreviviente Overall Percentage Percentage Correct 66,7 78,6 73,1 1. 2. 3. a. The cut value is ,500 Variables in the Equation Step a 1 EDAD10 EDADGE21 PESOMA22 TALMAT23 NHJSNV25 ININTE27 NCPN28 Constant B ,166 -,038 -,019 -9,559 -,936 ,095 ,385 12,876 S.E. ,092 ,041 ,038 7,213 ,346 ,147 ,174 10,057 Wald 3,269 ,873 ,247 1,756 7,331 ,419 4,903 1,639 df 1 1 1 1 1 1 1 1 Sig. ,071 ,350 ,619 ,185 ,007 ,518 ,027 ,200 Exp(B) 1,181 ,962 ,981 ,000 ,392 1,100 1,469 390681,5 gl 1,250 7,117 ,558 1,072 17,056 1 1 1 1 1 1 1 7 Sig (p). ,411 ,437 ,513 ,264 ,008 ,455 ,300 ,017 ,166 -,038 -,019 -9,559 -,936 ,095 ,385 12,876 S.E. ,092 ,041 ,038 7,213 ,346 ,147 ,174 10,057 gl 1 1 1 1 1 1 1 1 Sig (p). OR ,071 1,181 ,350 ,962 ,619 ,981 ,185 ,000 ,007 ,392 ,518 1,100 ,027 1,469 ,200 390681,50 Int. Conf. 95,0% (OR) Mínimo Máximo ,986 1,413 ,888 1,043 ,910 1,058 ,000 97,265 ,199 ,772 ,825 1,466 1,045 2,064 REFERENCIAS BIBLIOGRÁFICAS Predicted Observed Condición Valor Chi² ,677 ,604 Todos los variables Model Summary Step 1 Edad Edad gestacional Peso Materno Talla Materna Nº de Hijos Interv. Intergenesico Nº de CPN Se selecciona el segundo cuadro ya que realiza la interacción de riesgo entre las muertes maternas y las sobrevivientes, mientras que el primero solamente hace una asociación simple a la muerte materna sin comparación con las sobrevivientes. Block 1: Method = Enter Step 1 Variables 95,0% C.I.for EXP(B) Lower Upper ,986 1,413 ,888 1,043 ,910 1,058 ,000 97,265 ,199 ,772 ,825 1,466 1,045 2,064 4. 5. a. Variable(s) entered on step 1: EDAD10, EDADGE21, PESOMA22, TALMAT23, NHJSNV25, ININTE27, NCPN28. REPORTE FINAL DE REGRESIÓN LOGÍSTICA BINARIA EN SPSS Y SU INTERPRETACIÓN 6. Los cuadros marcados se editan en el SPSS y se escogen las pruebas de acuerdo al análisis de la información 7. Recibido: 02/11/2008 8. Ayçaguer S. Excursión a la regresión logística en ciencias de la salud. Ed. Díaz de Santos. Madrid 1995. Hosmer D, Lemeshow S, Wiley J. Applied Logistic Regresión. New York. 1989. Abraira V, Pérez de Vargas A. Métodos multivariantes en bioestadística Ed. Centro de Estudios Ramón Areces. Madrid. 1996. Breslow N, Días N. Los métodos estadísticos en la investigación de cáncer: el análisis de estudios del casomando. Lyon, Francia: IARC la Publicación Científica; ; 1981; 1 (32). Hosmer D, Lemeshow S. La regresión logistica aplicada (las Series de Wiley en la Probabilidad y la Estadística Matemática. La Probabilidad aplicada y Sección de la Estadística). Nueva York: John Wiley; 1989. Kleinbaum D, Kupper L, Morgenstern H., Investigación Epidemiológica: los Principios y los métodos cuantitativos. Nueva York: Van Nostrand Reinhold; 1982. Kleinbaum D, Kupper L, Muller K. El análisis de la regresión aplicada y otros métodos multivariantes. Segunda edición. Boston: Duxbury Press; 1987. Kleinbaum D. Las estadísticas en las ciencias de salud: Logistic regression. Nueva York: Springer-Verlag; 1994. Aceptado: 06/01/2009