R 2 ajustado
Transcription
R 2 ajustado
R2 ajustado Supongamos que contamos con dos modelos: Modelo 1: Modelo 2: ¿Cuál de los dos modelos ajusta mejor a los datos? Recordamos: Bondad del Ajuste 1 Miramos SRC* para cada modelo SRC* 1: SRC* 2: En principio, no hay razones para pensar que el segundo modelo sea mejor que el primero. Y sin embargo, su R2 generalmente será mayor. 2 Entonces, cuando comparemos estos modelos, probablemente lleguemos a la conclusión de que el segundo es mejor, aunque no necesariamente sea cierto. Solución: el R2 ajustado ( ) Donde n es la cantidad de observaciones y k es la cantidad de parámetros que estimamos. El impone una penalidad por agregar variables al modelo. 3 Notar que a medida que aumentamos la cantidad de variables X → SRC disminuye (por construcción) → (n-k) también disminuye (dado que aumenta la cantidad de parámetros a estimar) Entonces si bien el numerador disminuye, el denominador también. El efecto total sobre SRC/(n-k) es incierto. Estamos penalizando por la inclusión de variables. → Al agregar una variable independiente, (n-k) siempre cae en 1 =? → depende de cuán relevante sea la variable que agregamos. Cuanto más relevante, más cae SRC al aumentar una variable. 4 Intuición: si X explica mucho de Y entonces SRC va a caer mucho. Si cae más que la caída por el aumento en K, entonces el segundo término va a disminuir y por lo tanto el va a aumentar. Entonces, un aumento del depende de cuánto explique la X. Porque si explica poco, el efecto “matemático” de reducción de SRC se va a ver compensado por la disminución en el denominador. → Siempre aumenta Nota Importante: El R2 ajustado no puede interpretarse como el % de la variabilidad total de Y explicada por el modelo. Para esa interpretación sigue siendo válido el R2 sin ajustar. El R2 ajustado se usa para comparar el ajuste de modelos que difieren en el número de variables 5