Regressão Linear (estatísticas)

47     Regressão Linear

Notação
y
=
valor da variável dependente
x
=
valor de uma variável independente (explanatória)
i, j, l, m
=
subscritos para variáveis
p
=
número de preditores
k
=
subscrito par caso
N
=
número total de casos
w
=
valor do peso multiplicado por N / W
W
=
soma total dos pesos.

47.1  Estatísticas Univariadas

Essas estatísticas ponderadas são calculadas para todas as variáveis usadas na análise, i.e., variáveis independentes e variável dependente.
a)  Média.

x
 

i 
= æ
è

å
k 
wk xik ö
ø
 /  N
b)  Desvio-padrão (estimado).
^
s
 

i 
=   æ
Ö

é
ë
N
å
k 
( wk xik )2  -   æ
è

å
k 
wk xik ö
ø
2
 
ù
û
 /  [ N ( N - 1)]
 
c)  Coeficiente de variação (C.var.).
Ci = 100   
^
s
 

i 
 /  

x
 

i 

47.2  Matriz de Soma Total de Quadrados e Produtos Cruzados

É calculado para todas as variáveis usadas na análise como segue:
t.s.s.c.p. ij =
å
k 
wk xik xjk

47.3  Matriz de Soma de Quadrados Residuais e Produtos Cruzados

Essa matriz, às vezes chamada matriz dos quadrados e produtos cruzados dos escores dos desvios, é calculada para todas as variáveis usadas na análise, como segue:
r.s.s.c.p. ij = sumk wk xik xjk  -   é
ë
æ
è

å
k 
wk xik ö
ø
æ
è

å
k 
wk xjk ö
ø
ù
û
 /  N

47.4  Matriz de Correlação Total

Os elementos dessa matriz são calculados diretamente da matriz de soma de quadrados residuais e produtos cruzados. Note que se essa fórmula for escrita em detalhe e se numerador e denominador forem ambos multiplicados por N, tem-se uma fórmula convencional para o r de Pearson.
rij = r.s.s.c.p. ij


Ö
 

r.s.s.c.p. ii
 
  
Ö
 

r.s.s.c.p. jj
 

47.5  Matriz de Correlação Parcial

O ij¢esimo elemento dessa matriz é o coeficiente de correlação parcial entre a variável i e a variável j, mantendo constantes as variáveis especificadas. Correlações parciais descrevem o grau de correlação que existiria entre duas variáveis dado que a variação em outras variáveis está controlada. Elas também descrevem a correlação entre variáveis independentes (explanatória) que seriam selecionadas em uma regressão stepwise.
a)  Correlação entre xi e xj mantendo constante xl (coeficientes de correlação parcial de primeira-ordem).
rij · l = (rij  -  ril rjl )  /   æ
è

Ö
 

1 - ril2
 
  
Ö
 

1 - rjl2
 
ö
ø
onde rij, ril, rjl são coeficientes de ordem-zero (coeficientes r de Pearson).
b)  Correlação entre xi e xj mantendo constante xl e xm (coeficientes de correlação parcial de segunda-ordem).
rij · lm = (rij · l  -  rim · l  rjm · l )  /   æ
è

Ö
 

1 - r2im · l
 
  
Ö
 

1 - r2jm · l
 
ö
ø
onde rij · l, rim · l, rjm · l são coeficientes de primeira-ordem.
Note: O programa computa as correlações trabalhando, passo a passo, a partir de coeficientes de ordem-zero até coeficientes de primeira-ordem, segunda-ordem, etc.

47.6  Matriz Inversa

Para uma regressão padrão, essa é a inversa da matriz de correlação das variáveis independentes (explanatórias) e a variável dependente. Para uma regressão stepwise, essa é a inversa da matriz de correlação das variáveis independentes na equação final. O programa usa o método de eliminação Gaussiana para a inversão.

47.7  Estatísticas de Resumo de Análise

a)  Erro padrão de estimação. Esse é o desvio-padrão dos resíduos.
Erro padrão de estimação =   æ
Ö

é
ë

å
k 
( yk  -  
^
y
 

k 
)2 ù
û
 /  df
 
onde
^
y
 

k 
=
o valor previsto da variável dependentepara o k¢esimo caso
df
=
graus de liberdade dos resíduos (ver 7.f abaixo).
b)  F-ratio para a regressão. Essa é a estatística F para determinar a significância estatística do modelo sob consideração. Os graus de liberdade são p e N-p-1.
F = R2  df

p  (1 - R2)
onde R2 é a fração da variância explicada (ver 7.d abaixo).
c)  Coeficiente de correlação múltipla. Essa é a correlação entre a variável dependente e o escore preditor. Ele indica a intensidade da associação entre o critério e a função linear dos preditores, e é similar a um coeficiente de correlação de Pearson simples, exceto pelo fato de ser sempre positivo.
R =
Ö
 

R2
 
R não é impresso se o termo constante for restrito a zero.
d)  Fração da variância explicada. R2 pode ser interpretado como a proporção da variância na variável dependente explicada pelos preditores. Às vezes chamado de coeficiente de determinação, é uma medida da efetividade geral da regressão linear. Quanto maior ele for, melhor a equação ajustada explica a variação nos dados.
R2 = 1 -

å
k 
( yk  -  
^
y
 

k 
)2


å
k 
( yk  -  

y
 
)2
onde
^
y
 

k 
=
o valor predito da variável dependentepara o k¢esimo caso

y
 
=
a média da variável dependente.
Como R, R2 não é impresso se o termo constante for restringido a zero.
e)  Determinante da matriz de correlação. Esse é o determinante da matriz de correlação dos preditores. Ele representa, através de um único número, a variância generalizada em um conjunto de variáveis, e varia de 0 a 1. Determinantes próximos de zero indicam que algumas ou todas as variáveis explanatórias são altamente correlacionadas. Um determinante de zero indica uma matriz singular, o que significa que pelo menos um dos preditores é uma função linear de um ou outros mais.
f)  Graus de liberdade dos resíduos.
Se a constante não é restrita a ser zero,
df = N - p - 1
Se a constante é restrita a ser zero,
df = N - p
g)  Termo constante.
A =

y
 
 -  
å
i 
Bi  

x
 

i 
onde

y
 
=
a média da variável dependente (ver 1.a acima)

x
 

i 
=
a média da variável preditora i (ver 1.a acima)
Bi
=
o coeficiente B para a variável preditora i (ver 8.a abaixo).

47.8  Estatísticas de Análise para Preditores

a)  B.   Essas são coeficientes de regressão parciais não-padronizados que são apropriados (ao invés dos betas) para serem utilizados em uma equação com a finalidade de prever escores brutos. Eles são sensíveis à escala de medida da variável preditora e à variância da variável preditora.
Bi   =  bi   (
^
s
 

y 
 /  
^
s
 

i 
)
onde
bi
=
o peso beta para o preditor i (ver 8.c abaixo)
^
s
 

y 
=
o desvio-padrão da variável dependente (ver 1.b acima)
^
s
 

i 
=
o desvio-padrão da variável preditora i(ver 1.b acima).
b)  Sigma B. Esse é o desvio-padrão de B, uma medida da confiabialidade do coeficiente.
Sigma Bi = (erro padrão de estimação)     æ
Ö

cii

r.s.s.c.p.  ii
 
onde cii é o i¢esimo elemento da diagonal da inversa da matriz de correlação dos preditores na equação de regressão (ver a seção 6 acima).
c)  Beta. Esses coeficientes de regressão são também chamados de "coeficientes de regressão parcial padronizados" ou "coeficientes B padronizados". Eles são independentes da escala de medida. As magnitudes dos quadrados dos betas indicam as contribuições relativas das variáveis para a predição.
bi = Â11-1   Âyi
onde
Â11
=
matriz de correlação dos preditores na equação
Âyi
=
vetor coluna das correlações da variáveldependente e preditores
indicados pelo preditor i.
d)  Sigma Beta. Esse é o erro padrão do coeficiente beta, uma medida da confiabilidade do coeficiente.
Sigma  bi = sigma  Bi   (
^
s
 

i 
 /  
^
s
 

y 
)
e)  R quadrado parcial. Essas são correlações parciais, ao quadrado, entre os preditores i e a variável dependente, y, com a influência das outras variáveis na equação de regressão eliminada. O coeficiente de correlação parcial ao quadrado é uma medida do grau que aquela parte da variação na variável dependente, não explicada por outros preditores, pode ser explicada pelo preditor i.
r2yi · jl ¼ = R2y · ijl ¼  -  R2y · jl ¼

1 - R2y · jl ¼
onde
Ry · ijl ¼2
=
R quadrado múltiplo com preditor i
Ry · jl ¼2
=
R quadrado múltiplo sem preditor i.
f)  R quadrado marginal. Isso é o aumento na variância explicada ao adicionar-se o preditor i aos outros preditores na equação de regressão.
ri2 marginal = Ry · ijl ¼2  -  Ry· jl ¼2
g)  t-ratio. Pode ser usado para testar a hipótese que b, ou B, é igual a zero; isto é, que o preditor i não possui nenhuma influência linear na variável dependente. Sua significância pode ser determinada da tabela de t, com N-p-1 graus de liberdade.
t = ê
ê
bi

sigma  bi
ê
ê
= ê
ê
Bi

sigma  Bi
ê
ê
h)  Quociente de covariância. O quociente de covariância de xi é o quadrado do coeficiente de correlação múltipla, R2, de xi com as p - 1 outras variáveis independentes na equação. É uma medida da intercorrelação de xi com os outros preditores.
Quociente de covariancia i = 1 - 1

cii
onde cii é o i¢esimo elemento da diagonal da inversa da matriz de correlação dos preditores na equação de regressão (ver a seção 6 acima).

47.9  Resíduos

Os resíduos são a diferença entre o valor observado da variável dependente e o valor predito pela equação de regressão.
ek = yk -
^
y
 

k 
O teste para detectar correlação serial, popularmente conhecido como estatística d de Durbin-Watson para autocorrelação de primeira ordem dos resíduos, é calculada da seguinte forma:
d =
N
å
k=2 
( ek - ek-1)2

N
å
k=1 
ek2

47.10  Nota sobre Regressão Stepwise

Regressão stepwise introduz os preditores passo-a-passo no modelo, começando com a variável independente mais correlacionada com y. Depois do primeiro passo, o algoritmo seleciona do grupo de variáveis remanescentes aquela que dá a maior redução na variâncial residual (não-explicada) da variável dependente, i.e. a variável cuja correlação parcial com y é a maior. O programa então executa um teste-F parcial na entrada para checar se a variável absorverá uma quantidade significante da variação em relação aquela removida por variáveis já na regressão. O usuário pode especificar um valor de F mínimo para a inclusão de qualquer variável; o programa avalia se o valor de F obtido em um dado passo satisfaz o mínimo, e se satisfizer, a variável entrará. Similarmente, o programa decide a cada passo se qualquer variável previamente incluída ainda satisfaz um mínimo (também fornecido pelo usuário) e, caso contrário, remove-se tal variável.
Valor de F parcial para variável  i = ( R2y · Pi  -  R2y · P) (df)

1 - R2y · Pi
onde
Ry · Pi2
=
R quadrado múltiplo para o conjunto de preditores (P) já na regressão,
com preditor i
Ry · P2
=
R quadrado múltiplo para o conjunto de preditores (P) já na regressão
df
=
graus de liberdade dos resíduos.
Em qualquer passo do procedimento, os resultados são os mesmos de como seriam em uma regressão padrão usando-se um conjunto particular de variáveis; portanto, o passo final de uma regressão stepwise mostra os mesmos coeficientes que uma execução normal usando as variáveis que ßobreviveram" ao procedimento stepwise.

47.11  Nota sobre Regressão Descendente

Regressão descendente é como regressão stepwise, exceto que o algoritmo começa com todas as variáveis independentes e então elimina e adiciona de volta variáveis de um jeito stepwise.

47.12  Nota sobre Regressão com Intercepto Zero

É possível, ao se usar o programa REGRESSN, requerer-se uma regressão com intercepto zero, i.e. que a variável dependente seja zero quando todas as variáveis independentes forem zero.
Se uma regressão através da origem é especificada, todas as estatísticas, exceto aquelas especificadas nas seções 1 a 4 acima, são baseadas em uma média de zero. O coeficiente de correlação múltipla e a fração de variância explicada (ítens 7.c e 7.d) não são impressos. Estatísticas que não sejam centradas na média podem ser bastante diferentes daquelas que seriam se fosse centradas; portanto, em uma solução stepwise, variáveis podem muito bem entrar na equação em uma ordem diferente daquela que seria se uma constante fosse estimada.
No programa REGRESSN uma matriz com elementos
aij = æ
è

å
k 
wk xik xjk ö
ø
 /     æ
Ö


å
k 
wk xik2  
å
k 
wk xjk2
 
é analisada qo invés de Â, a matriz de correlação.
Os B's, coeficientes da regressão parcial não-padronizada, são obtidos por
Bi = bi     æ
Ö


å
k 
wk xik2  
å
k 
wk xjk2