Estas estadísticas ponderadas son calculadas para todas las variables
utilizadas en el análisis, es desir, variables ficticias, variables
independientes y la variable dependiente.
a) Promedio.
x
i
=
æ è
å k
wkxik
ö ø
/ N
b) Desviación estándar (estimada).
^
s
i
=
æ Ö
é ë
N
å k
( wkxik )2 -
æ è
å k
wkxik
ö ø
2
ù û
/ [ N ( N - 1)]
c) Coeficiente de variación (C.var.).
Ci = 100
^
s
i
/
x
i
47.2 Matriz de sumas totales de cuadrados y productos cruzados
Es calculada para todas las variables utilizadas en el análisis como sigue:
t.s.s.c.p.ij =
å k
wkxikxjk
47.3 Matriz de sumas de cuadrados residuales y productos cruzados
Esta matriz, llamada matriz de cuadrados y productos cruzados de puntajes
de desviación, es calculada para todas las variables utilizadas en el
análisis como sigue:
Los elementos de esta matriz son calculados directamente a partir de la
matriz de la suma de cuadrados residuales y productos cruzados.
Note que si esta fórmula se escribe en todo detalle y si se multiplican
por N numerador y denominador, se trata de la fórmula convencional
de la r de Pearson.
El ijésimo elemento de esta matriz es la correlación
parcial entre la variable i y la variable j, manteniendo constantes
ciertas variables específicas. Las correlaciones parciales describen
el grado de interrelación que puede existir entre dos variables si se
controla la variación en una o más variables. También describen
la correlación entre variables independientes que serían
seleccionadas en una regresión por pasos.
a) Correlación entre xi y xj manteniendo
constante xl (parciales de primer orden).
rij · l = (rij - rilrjl ) /
æ è
Ö
1 - ril2
Ö
1 - rjl2
ö ø
donde rij, ril, rjl son los coeficientes de orden cero
(coeficientes r de Pearson).
b) Correlación entre xi y xj manteniendo
constantes xl y xm (parciales de segundo orden).
rij · lm = (rij · l - rim · lrjm · l ) /
æ è
Ö
1 - r2im · l
Ö
1 - r2jm · l
ö ø
donde rij · l, rim · l,
rjm · l son las parciales de primer orden.
Nota: el programa calcula las correlaciones parciales aumentando paso a paso
a partir de los coeficientes de orden cero pasando a los coeficientes de
primer orden, después a los coeficientes de segundo orden, etc.
En el caso de una regresión estándar, ésta es la inversa de la
matriz de correlación de las variables independientes y
de la variable dependiente.
Para una regresión por pasos, ésta es la inversa de la matriz de
correlaciones de las variables independientes en la ecuación final.
El programa utiliza el método de eliminación de Gauss para invertir.
b) Cociente-F para la regresión.
Es la estadística F para determinar la significación
estadística del modelo considerado.
Los grados de libertad son p y N-p-1.
F =
R2gl
p (1 - R2)
donde R2 es igual a la fracción de la variancia explicada (ver 7.d más abajo).
c) Coeficiente de correlación múltiple.
Es la correlación entre la variable dependiente y el valor proyectado.
Indica la fortaleza de la relación entre el criterio y la función
lineal de los predictores y es similar a un coeficiente simple de
correlación de Pearson excepto que siempre es positivo.
R =
Ö
R2
R no es impresa si el término constante ha sido forzado a tomar
el valor cero.
d) Fracción de la variancia explicada.R2 puede ser interpretada como la proporción de la variación
en la variable dependiente, explicada por las variables explicativas.
Llamado algunas veces el coeficiente de determinación, es una medida
de eficacia de la regresión lineal.
Entre más grande sea, la ecuación ajustada explicará mejor
la variación en los datos.
Al igual que R, R2 no es impresa si el término constante es
forzado a tomar el valor cero.
e) Determinante de la matriz de correlación.
Es el determinante de la matriz de correlación de las variables predictoras.
El valor del determinante de esta matriz, varía de cero a uno y
es obtenido mediante la suma de varios productos de sus elementos.
Determinantes cuyos valores son cercanos a cero, indican que algunas o todas
las variables explicativas tienen un alto grado de correlación.
Un determinante igual a cero indica que se trata de una matriz singular
que no tiene inverso.
f) Grados de libertad de residuos.
Si la constante no está forzada a tomar el valor cero,
gl = N - p - 1
Si la constante está forzada a tomar el valor cero,
47.8 Estadísticas de análisis para los predictores
a) B.
Son los coeficientes de regresión parcial no estandarizada que son
los indicados (en vez de las betas) para utilizarse en una ecuación
de proyección de valores primarios. Son sensibles a la escala de
medida de la variable predictora así como a la variancia de la variable predictora.
b) Sigma B.
Es el error estándar de B, una medida de fiabilidad del coeficiente.
SigmaBi = (errorestándardelaestimación)
æ Ö
cii
r.s.s.c.p.ii
donde cii es el iésimo elemento de la diagonal de la
inversa de la matriz de correlación de los predictores en la
ecuación (ver sección 6 arriba).
c) Beta.
Coeficientes de regresión que se llaman también los "coeficientes
estandarizados de regresión parcial" o "coeficientes estandarizados B".
Son independientes de la escala de medida. Las magnitudes de los cuadrados
de las betas indican las contribuciones relativas de las variables a la proyección.
d) Sigma Beta.
Es el error estándar del coeficiente beta, una medida de fiabilidad
del coeficiente.
Sigma bi = sigmaBi (
^
s
i
/
^
s
y
)
e) r cuadrada parcial.
Son las correlaciones parciales, al cuadrado, entre el predictor i y
la variable dependiente, y, eliminada la influencia de otras variables
en la ecuación de regresión. El coeficiente de correlación
parcial al cuadrado, es una medida de que tanto la parte de variación
en la variable dependiente que no está explicada por otros predictores,
está explicada por el predictor i.
ryi · jl ¼2 =
Ry · ijl ¼2 - Ry · jl ¼2
1 - Ry · jl ¼2
donde
Ry · ijl ¼2
=
Rcuadradamúltipleconelpredictori
Ry · jl ¼2
=
Rcuadradamúltiplesinelpredictori.
f) r cuadrada marginal.
Es el incremento de la variancia explicada, al añadir el predictor i
a los otros predictores ya incluidos en la ecuación de regresión.
ri2marginal = Ry · ijl ¼2 - Ry · jl ¼2
g) Cociente t.
Puede ser utilizado para probar si la hipótesis que b, o B,
es igual a cero; es decir si el predictor i no tiene una influencia
lineal en la variable dependiente.
Su significancia se puede determinar de la tabla de t
con N-p-1 grados de libertad.
t =
ê ê
bi
sigma bi
ê ê
=
ê ê
Bi
sigmaBi
ê ê
h) Coeficiente de covariancia.
La tasa de covariancia de xi es el cuadrado del coeficiente de
correlación múltiple, R2, de xi con las otras p - 1
variables independientes en la ecuación. Es una medida de la
intercorrelación de xi con los otros predictores.
Coeficientedecovarianciai = 1 -
1
cii
donde cii es el iésimo elemento de la diagonal
del inverso de la matriz de correlación de los predictores
en la ecuación (ver sección 6 arriba).
Los residuos son la diferencia entre los valores observados de la variable
dependiente y los valores calculados por la ecuación de regresión.
ek = yk -
^
y
k
La prueba para detectar la correlación serial, popularmente conocida como
la estadística d de Durbin-Watson para autocorrelación de primer orden
de residuos, se calcula así:
La regresión por pasos incluye los predictores en el modelo paso a paso,
comenzando con la variable independiente que está más correlacionada
con y. Después del primer paso, el algoritmo selecciona a partir de
las variables independientes restantes, aquella que disminuye al máximo
la variancia restante (no explicada) de la variable dependiente, es decir, la
variable cuya correlación parcial con y es más elevada. Entonces,
el programa hace una prueba parcial de F de inclusión para ver si la
variable absorbe una cantidad significativa de variación relativa,
a aquella que ya ha sido absorbida por las variables que ya forman parte
de la regresión. El usuario puede especificar un valor F mínimo,
para incluir cualquier variable; el programa evalúa si el valor de F
calculado en un paso dado, satisface el mínimo especificado y si lo
satisface, incluye la variable en la regresión. En forma similar,
el programa decide a cada paso si cada variable incluida previamente,
continua a satisfacer el mínimo (también proporcionado por el
usuario), y si no, la excluye.
ValorparcialdeFparalavariablei =
( Ry · Pi2 - Ry · P2) (gl)
1 - Ry · Pi2
donde
Ry · Pi2
=
Rcuadradamúltipleparaelconjunto(P)depredictores
yaincluidosenlaregresión,conelpredictori
Ry · P2
=
Rcuadradamúltipleparaelconjunto(P)depredictores
yaincluidosenlaregresión
gl
=
gradosdelibertaddelosresiduos.
En cualquier paso del procedimiento, los resultados son los mismos que
habría en una regresión estándar utilizando el conjunto
particular de variables; así, el último paso de una regresión
por pasos muestra los mismos coeficientes de una pasada normal utilizando
las variables que "sobrevivieron" el procedimiento de selección
hecho paso a paso.
La regresión descendente es similar a la regresión paso a paso,
a excepción que el algoritmo comienza con la inclusión de todas
las variables independientes y después quita o añade nuevamente
las variables, en la forma de paso a paso.
Cuando se utiliza el programa REGRESSN, es posible solicitar una
intercepto cero, es decir, que la variable dependiente sea cero cuando
todas las variables independientes son cero.
Si una regresión a través del origen es especificada, todas las
estadísticas a la excepción de aquellas citadas de 1 a 4 arriba,
están basadas sobre una media cero. El coeficiente de correlación
múltiple y la fracción de variancia explicada (artículos 7.c y
7.d) no son impresas. Las estadísticas que no están centradas
con respecto a la media pueden ser muy diferentes de lo que podrían
serlo, si hubieran sido centradas; así, en una solución por pasos,
las variables pueden ser incluidas en la ecuación en un orden diferente
del que ha sido hecho, si una constante hubiera sido estimada.
En el programa REGRESSN una matriz con elementos
aij =
æ è
å k
wkxikxjk
ö ø
/
æ Ö
å k
wkxik2
å k
wkxjk2
es analizada en vez de Â, la matriz de correlación.
Las B, los coeficientes de regresión parcial no estandarizados,
se obtienen mediante