Regresión lineal (estadísticas)

47     Regresión lineal

Notación
y
=
valor de la variable dependiente
x
=
valor de una variable independiente
i, j, l, m
=
subíndices para variables
p
=
número de predictores
k
=
subíndice para el caso
N
=
número total de casos
w
=
valor del peso multiplicado por N / W
W
=
suma total de los pesos.

47.1  Estadísticas univariadas

Estas estadísticas ponderadas son calculadas para todas las variables utilizadas en el análisis, es desir, variables ficticias, variables independientes y la variable dependiente.
a)   Promedio.

x
 

i 
= æ
è

å
k 
wk xik ö
ø
 /  N
b)   Desviación estándar (estimada).
^
s
 

i 
=   æ
Ö

é
ë
N
å
k 
( wk xik )2  -   æ
è

å
k 
wk xik ö
ø
2
 
ù
û
 /  [ N ( N - 1)]
 
c)  Coeficiente de variación (C.var.).
Ci = 100   
^
s
 

i 
 /  

x
 

i 

47.2  Matriz de sumas totales de cuadrados y productos cruzados

Es calculada para todas las variables utilizadas en el análisis como sigue:
t.s.s.c.p.  ij =
å
k 
wk  xik  xjk

47.3  Matriz de sumas de cuadrados residuales y productos cruzados

Esta matriz, llamada matriz de cuadrados y productos cruzados de puntajes de desviación, es calculada para todas las variables utilizadas en el análisis como sigue:
r.s.s.c.p. ij =
å
k 
wk xik xjk  -   é
ë
æ
è

å
k 
wk xik ö
ø
æ
è

å
k 
wk xjk ö
ø
ù
û
 /  N

47.4  Matriz de correlación total

Los elementos de esta matriz son calculados directamente a partir de la matriz de la suma de cuadrados residuales y productos cruzados. Note que si esta fórmula se escribe en todo detalle y si se multiplican por N numerador y denominador, se trata de la fórmula convencional de la r de Pearson.
rij = (r.s.s.c.p.  ij )  /   æ
è

Ö
 

r.s.s.c.p.  ii
 
  
Ö
 

r.s.s.c.p.  jj
 
ö
ø

47.5  Matriz de correlación parcial

El ijésimo elemento de esta matriz es la correlación parcial entre la variable i y la variable j, manteniendo constantes ciertas variables específicas. Las correlaciones parciales describen el grado de interrelación que puede existir entre dos variables si se controla la variación en una o más variables. También describen la correlación entre variables independientes que serían seleccionadas en una regresión por pasos.
a)   Correlación entre xi y xj manteniendo constante xl (parciales de primer orden).
rij · l = (rij  -  ril rjl )  /   æ
è

Ö
 

1 - ril2
 
  
Ö
 

1 - rjl2
 
ö
ø
donde rij, ril, rjl son los coeficientes de orden cero (coeficientes r de Pearson).
b)   Correlación entre xi y xj manteniendo constantes xl y xm (parciales de segundo orden).
rij · lm = (rij · l  -  rim · l  rjm · l )  /   æ
è

Ö
 

1 - r2im · l
 
  
Ö
 

1 - r2jm · l
 
ö
ø
donde rij · l, rim · l, rjm · l son las parciales de primer orden.
Nota: el programa calcula las correlaciones parciales aumentando paso a paso a partir de los coeficientes de orden cero pasando a los coeficientes de primer orden, después a los coeficientes de segundo orden, etc.

47.6  Matriz inversa

En el caso de una regresión estándar, ésta es la inversa de la matriz de correlación de las variables independientes y de la variable dependiente. Para una regresión por pasos, ésta es la inversa de la matriz de correlaciones de las variables independientes en la ecuación final. El programa utiliza el método de eliminación de Gauss para invertir.

47.7  Estadísticas de resumen del análisis

a)   Error estándar de la estimación. Es la desviación estándar de los residuos.
Error  estándar  de  estimación =   æ
Ö

é
ë

å
k 
( yk  -  
^
y
 

k 
)2 ù
û
 /  gl
 
donde
^
y
 

k 
=
valor proyectado de la variable dependiente para el késimo caso
gl
=
grados de libertad del residuo (ver 7.f más abajo).
b)   Cociente-F para la regresión. Es la estadística F para determinar la significación estadística del modelo considerado. Los grados de libertad son p y N-p-1.
F = R2  gl

p  (1 - R2)
donde R2 es igual a la fracción de la variancia explicada (ver 7.d más abajo).
c)   Coeficiente de correlación múltiple. Es la correlación entre la variable dependiente y el valor proyectado. Indica la fortaleza de la relación entre el criterio y la función lineal de los predictores y es similar a un coeficiente simple de correlación de Pearson excepto que siempre es positivo.
R =
Ö
 

R2
 
R no es impresa si el término constante ha sido forzado a tomar el valor cero.
d)   Fracción de la variancia explicada. R2 puede ser interpretada como la proporción de la variación en la variable dependiente, explicada por las variables explicativas. Llamado algunas veces el coeficiente de determinación, es una medida de eficacia de la regresión lineal. Entre más grande sea, la ecuación ajustada explicará mejor la variación en los datos.
R2 = 1 -

å
k 
æ
è
yk  -  
^
y
 

k 
ö
ø
2
 


å
k 
æ
è
yk  -  

y
 
ö
ø
2
 
donde
^
y
 

k 
=
valor proyectado de la variable dependiente para el késimo caso

y
 
=
media de la variable dependiente.
Al igual que R, R2 no es impresa si el término constante es forzado a tomar el valor cero.
e)   Determinante de la matriz de correlación. Es el determinante de la matriz de correlación de las variables predictoras. El valor del determinante de esta matriz, varía de cero a uno y es obtenido mediante la suma de varios productos de sus elementos. Determinantes cuyos valores son cercanos a cero, indican que algunas o todas las variables explicativas tienen un alto grado de correlación. Un determinante igual a cero indica que se trata de una matriz singular que no tiene inverso.
f)   Grados de libertad de residuos.
Si la constante no está forzada a tomar el valor cero,
gl = N - p - 1
Si la constante está forzada a tomar el valor cero,
gl = N - p
g)   Término constante.
A =

y
 
 -  
å
i 
Bi  

x
 

i 
donde

y
 
=
promedio de la variable dependiente (ver 1.a arriba)

x
 

i 
=
promedio de la iésima variable predictora (ver 1.a arriba)
Bi
=
coeficiente B de la iésima variable predictora (ver 8.a abajo).

47.8  Estadísticas de análisis para los predictores

a)   B. Son los coeficientes de regresión parcial no estandarizada que son los indicados (en vez de las betas) para utilizarse en una ecuación de proyección de valores primarios. Son sensibles a la escala de medida de la variable predictora así como a la variancia de la variable predictora.
Bi   =  bi   (
^
s
 

y 
 /  
^
s
 

i 
)
donde
bi
=
ponderación beta para el predictor i (ver 8.c abajo)
^
s
 

y 
=
desviación estándar de la variable dependiente (ver 1.b arriba)
^
s
 

i 
=
desviación estándar de la variable predictora i (ver 1.b arriba).
b)   Sigma B. Es el error estándar de B, una medida de fiabilidad del coeficiente.
Sigma   Bi = (error  estándar  de  la  estimación)     æ
Ö

cii

r.s.s.c.p.  ii
 
donde cii es el iésimo elemento de la diagonal de la inversa de la matriz de correlación de los predictores en la ecuación (ver sección 6 arriba).
c)   Beta. Coeficientes de regresión que se llaman también los "coeficientes estandarizados de regresión parcial" o "coeficientes estandarizados B". Son independientes de la escala de medida. Las magnitudes de los cuadrados de las betas indican las contribuciones relativas de las variables a la proyección.
bi = Â11-1   Âyi
donde
Â11
=
matriz de correlación de los predictores en la ecuación
Âyi
=
vector columna de correlaciones de la variabledependiente y los
predictores indicada por el predictor i.
d)   Sigma Beta. Es el error estándar del coeficiente beta, una medida de fiabilidad del coeficiente.
Sigma  bi = sigma  Bi   (
^
s
 

i 
 /  
^
s
 

y 
)
e)   r cuadrada parcial. Son las correlaciones parciales, al cuadrado, entre el predictor i y la variable dependiente, y, eliminada la influencia de otras variables en la ecuación de regresión. El coeficiente de correlación parcial al cuadrado, es una medida de que tanto la parte de variación en la variable dependiente que no está explicada por otros predictores, está explicada por el predictor i.
ryi · jl ¼2 = Ry · ijl ¼2  -  Ry · jl ¼2

1 - Ry · jl ¼2
donde
Ry · ijl ¼2
=
R cuadrada múltiple con el predictor i
Ry · jl ¼2
=
R cuadrada múltiple sin el predictor i.
f)   r cuadrada marginal. Es el incremento de la variancia explicada, al añadir el predictor i a los otros predictores ya incluidos en la ecuación de regresión.
ri2  marginal = Ry · ijl ¼2  -  Ry · jl ¼2
g)   Cociente t. Puede ser utilizado para probar si la hipótesis que b, o B, es igual a cero; es decir si el predictor i no tiene una influencia lineal en la variable dependiente. Su significancia se puede determinar de la tabla de t con N-p-1 grados de libertad.
t = ê
ê
bi

sigma  bi
ê
ê
= ê
ê
Bi

sigma  Bi
ê
ê
h)   Coeficiente de covariancia. La tasa de covariancia de xi es el cuadrado del coeficiente de correlación múltiple, R2, de xi con las otras p - 1 variables independientes en la ecuación. Es una medida de la intercorrelación de xi con los otros predictores.
Coeficiente  de  covariancia  i = 1 - 1

cii
donde cii es el iésimo elemento de la diagonal del inverso de la matriz de correlación de los predictores en la ecuación (ver sección 6 arriba).

47.9  Residuos

Los residuos son la diferencia entre los valores observados de la variable dependiente y los valores calculados por la ecuación de regresión.
ek = yk -
^
y
 

k 
La prueba para detectar la correlación serial, popularmente conocida como la estadística d de Durbin-Watson para autocorrelación de primer orden de residuos, se calcula así:
d =
N
å
k=2 
( ek - ek-1)2

N
å
k=1 
ek2

47.10  Nota sobre la regresión por pasos

La regresión por pasos incluye los predictores en el modelo paso a paso, comenzando con la variable independiente que está más correlacionada con y. Después del primer paso, el algoritmo selecciona a partir de las variables independientes restantes, aquella que disminuye al máximo la variancia restante (no explicada) de la variable dependiente, es decir, la variable cuya correlación parcial con y es más elevada. Entonces, el programa hace una prueba parcial de F de inclusión para ver si la variable absorbe una cantidad significativa de variación relativa, a aquella que ya ha sido absorbida por las variables que ya forman parte de la regresión. El usuario puede especificar un valor F mínimo, para incluir cualquier variable; el programa evalúa si el valor de F calculado en un paso dado, satisface el mínimo especificado y si lo satisface, incluye la variable en la regresión. En forma similar, el programa decide a cada paso si cada variable incluida previamente, continua a satisfacer el mínimo (también proporcionado por el usuario), y si no, la excluye.
Valor parcial de F para la variable  i = ( Ry · Pi2  -  Ry · P2) (gl)

1 - Ry · Pi2
donde
Ry · Pi2
=
R cuadrada múltiple para el conjunto (P) de predictores
ya incluidos en la regresión, con el predictor i
Ry · P2
=
R cuadrada múltiple para el conjunto (P) de predictores
ya incluidos en la regresión
gl
=
grados de libertad de los residuos.
En cualquier paso del procedimiento, los resultados son los mismos que habría en una regresión estándar utilizando el conjunto particular de variables; así, el último paso de una regresión por pasos muestra los mismos coeficientes de una pasada normal utilizando las variables que "sobrevivieron" el procedimiento de selección hecho paso a paso.

47.11  Nota sobre la regresión descendente

La regresión descendente es similar a la regresión paso a paso, a excepción que el algoritmo comienza con la inclusión de todas las variables independientes y después quita o añade nuevamente las variables, en la forma de paso a paso.

47.12  Nota sobre la regresión con intercepto cero

Cuando se utiliza el programa REGRESSN, es posible solicitar una intercepto cero, es decir, que la variable dependiente sea cero cuando todas las variables independientes son cero.
Si una regresión a través del origen es especificada, todas las estadísticas a la excepción de aquellas citadas de 1 a 4 arriba, están basadas sobre una media cero. El coeficiente de correlación múltiple y la fracción de variancia explicada (artículos 7.c y 7.d) no son impresas. Las estadísticas que no están centradas con respecto a la media pueden ser muy diferentes de lo que podrían serlo, si hubieran sido centradas; así, en una solución por pasos, las variables pueden ser incluidas en la ecuación en un orden diferente del que ha sido hecho, si una constante hubiera sido estimada.
En el programa REGRESSN una matriz con elementos
aij = æ
è

å
k 
wk xik xjk ö
ø
 /     æ
Ö


å
k 
wk xik2  
å
k 
wk xjk2
 
es analizada en vez de Â, la matriz de correlación.
Las B, los coeficientes de regresión parcial no estandarizados, se obtienen mediante
Bi = bi     æ
Ö


å
k 
wk  xik2  
å
k 
wk  xjk2