Análise de Classificação Múltipla (estatísticas)

49     Análise de Classificação Múltipla

Notação
y
=
valor da variável dependente
w
=
valor do peso
k
=
subscrito para caso
i
=
subscrito para preditor
j
=
subscrito para categoria de um preditor
p
=
número de preditores
c
=
número de categorias não-vazias ao longo de todos os preditores
aij
=
desvio ajustado da j¢esima categoria do preditor i (ver 2.c abaixo)
Nij
=
número de casos na j¢esima categoria do preditor i
N
=
número total de casos
W
=
soma total dos pesos
     subscrito  ijk  indica que o caso k pertence a j¢esima categoria do preditor i.

49.1  Estatísticas da Variável Dependente

a)  Média. Média geral de y.

y
 
= æ
è

å
k 
wk yk ö
ø
 /  W
b)  Desvio-padrão de y (estimado).
^
s
 

y 
=   æ
Ö

æ
è
N

N - 1
ö
ø
é
ë
W  
å
k 
wk yk2 - æ
è

å
k 
wk yk ö
ø
2
 
ù
û
 /  W2
 
c)  Coeficiente de variação (C.var.).
Cy = 100   
^
s
 

y 
 /  

y
 
d)  Soma de y.
Soma de y =
å
k 
wk yk
e)  Soma de y quadrado.
Soma de y2 =
å
k 
wk yk2
f)  Soma total de quadrados.
TSS =
å
k 
wk (yk -

y
 
)2
g)  Soma explicada de quadrados.
ESS =
å
i 

å
j 
aij æ
è

å
k 
wijk yijk ö
ø
h)  Soma residual de quadrados.
RSS = TSS - ESS

49.2  Estatísticas de Preditores para Análise de Classificação Múltipla

a)  Média de classe. Média da variável dependente para casos na j¢esima categoria do preditor i.

y
 

ij 
=

å
k 
wijk yijk


å
k 
wijk
b)  Desvio não-ajustado em relação a média geral.
Não-ajustado   aij =

y
 

ij 
-

y
 
c)  Coeficiente. Desvio ajustado aij em relação a média geral. Esse é o coeficiente de regressão para cada categoria de cada preditor.
Predito   yk =

y
 
+
å
i 
aijk
Os valores de aij são obtidos por meio de um procedimento iterativo que pára quando åk (yk - predito yk)2 alcança o mínimo.
d)  Média de classe ajustada. Isso é uma estimativa do que a média deveria ser se o grupo tivesse sido exatamente como a população em termos da distribuição em torno de todas as classificações dos preditores. Se não houvesse nenhuma correlação entre preditores, a média ajustada seria igual a média da classe.
Ajustado  

y
 

ij 
=

y
 
+ aij
e)  Desvio-padrão (estimado) da variável dependente para a j¢esima categoria do preditor i.
^
s
 

ij 
=   æ
Ö


å
k 
wijk yijk2 - æ
è

å
k 
wijk yijk ö
ø
2
 
/
å
k 
wijk


å
k 
wijk - æ
è

å
k 
wijk  /  Nij ö
ø
 
f)  Coeficiente de variação (C.var.).
Cij = 100   
^
s
 

ij 
 /  

y
 

ij 
g)  SS de desvios não-ajustados. Essa é a soma dos quadrados dos desvios não-ajustados para o preditor i.
Ui =
å
j 
æ
è

å
k 
wijk ö
ø
æ
è

y
 

ij 
-

y
 
ö
ø
2
 
h)  SS de desvios ajustados. Essa é a soma dos quadrados dos desvios ajustados para o preditor i.
Di =
å
j 
æ
è

å
k 
wijk ö
ø
( aij2 )
i)  Eta quadrado para o preditor i. Eta ao quadrado pode ser interpretado como o percentual de variância na variável dependente que pode ser explicada pelo preditor i somente.
hi2 = Ui

TSS
j)  Eta para o preditor i. Ele indica a habilidade do preditor, usando as categorias dadas para explicar variação na variável dependente.
hi =
Ö
 

hi2
 
k)  Eta quadrado para preditor i, ajustado pelos graus de liberdade.
Ajustado   hi2 = 1 - A  (1 - hi2 )
onde A é o ajustamento pelos graus de liberdade (ver 3.b abaixo).
l)  Eta para o preditor i, ajustado.
Ajustado hi =
Ö
 

1 - A  (1 - hi2 )
 
m)  Beta quadrado para o preditor i. Beta ao quadrado é a soma dos quadrados atribuível ao preditor, depois de "manter todos os outros preditores constantes", relativa a soma total de quadrados. Isso não significa o percentual da variância explicada.
bi2 = Di

TSS
n)  Beta para o preditor i. Beta fornece uma medida da habilidade do preditor explicar a variação na variável dependente depois de se ajustar pelos efeitos de todos os outros preditores. Coeficientes beta indicam a importância relativa de vários preditores (quanto maior o valor, mais a variação é explicada pelo beta correspondente).
bi =
Ö
 

bi2
 

49.3  Estatísticas de Análise para Análise de Classificação Múltipla

a)  R quadrado múltiplo não-ajustado. Esse é um coeficiente de correlação múltiplo ao quadrado. Indica a proporção real da variância explicada para os preditores usados na análise.
R2 = ESS

TSS
b)  Ajustamento pelos graus de liberdade.
A = N - 1

N - p - c - 1
c)  R quadrado múltiplo ajustado. Ele fornece uma estimativa da correlação múltipla na população de onde a amostra é retirada. Note que é uma estimativa da correlação múltipla que seria obtida se os mesmos preditores, mas não necessariamente os mesmos coeficientes, fossem usados para a população.
Ajustado R2 = 1 - A  (1 - R2)
d)  R múltiplo ajustado. Esse é o coeficiente de correlação múltipla ajustado pelos graus de liberdade. É uma estimativa do R que seria obtido se os mesmos preditores fosse aplicados à população.
Ajustado R =
Ö
 

1 - A  (1 - R2)
 

49.4  Estatísticas de Resumo dos Resíduos

O resíduo para o caso k é rk = yk - predito   yk ,
a)  Média.

r
 
= æ
è

å
k 
wk rk ö
ø
 /  W
b)  Variância (estimada).
^
s
 
2
r 
= æ
è
N

N-1
ö
ø
é
ë
  W  
å
k 
wk rk2 - æ
è

å
k 
wk rk ö
ø
2
 
ù
û
 /  W2
c)  Assimetria. A assimetria da distribuição dos resíduos é medida por
g1 = æ
è
N

N-2
ö
ø
é
ë
m3  /   æ
è
^
s
 
2
r 
  æ
Ö

^
s
 
2
r 
 
ö
ø
ù
û
onde
m3 = æ
è

å
k 
wk  (rk -

r
 
)3 ö
ø
 /  W
d)  Curtose. A curtose da distribuição dos resíduos é medida por
g2 = æ
è
N

N-3
ö
ø
é
ë
m4  /   æ
è
^
s
 
2
r 
ö
ø
2
 
ù
û
- 3
onde
m4 = æ
è

å
k 
wk  (rk -

r
 
)4 ö
ø
 /  W

49.5  Estatísticas de Categoria do Preditor para Análise de Variância Univariada

Ver o capítulo Änálise de Variância Univariada" para detalhes.

49.6  Estatísticas para Análise de Variância Univariada

Ver o capítulo Änálise de Variância Univariada" para detalhes. Note que o fator de ajustamento A usado no programa MCA para análise de variância univariada é calculado diferentemente do que no programa ONEWAY, de fato:
A = N - 1

N - c

49.7  Referências

Andrews, F.M., Morgan, J.N., Sonquist, J.A., and Klem, L., Multiple Classification Analysis, 2nd ed., Institute for Social Research, The University of Michigan, Ann Arbor, 1973.