Correlação de Pearson (PEARSON)

33    Correlação de Pearson (PEARSON)


33.1  Descrição Geral

PEARSON computa e imprime a matriz de coeficiente de correlação r de Pearson e covariâncias para todos os pares de variáveis em uma lista (opção matriz quadrada) ou para cada par de variáveis formado ao se obter uma variável de cada uma das duas listas (opção matriz retangular).

Tanto a deleção por pares ou por casos de dados perdidos pode ser especificada.

PEARSON pode ser também utilizado para produzir uma matriz de correlação que pode subseqüentemente ser entrada para os programas REGRESSN ou MDSCAL. Apesar de REGRESSN ser capaz de computar sua própria matriz de correlação, seu manuseio de dados perdidos é limitado à deleção por pares. Contrastando, uma matriz pode ser gerada por PEARSON usando-se um algoritmo de deleção por pares para dados perdidos.


33.2  Características Padrão do IDAMS

Seleção de casos e variáveis. O filtro padrão está disponível para selecionar um subconjunto de casos dos dados de entrada. As variáveis de cujas correlações são desejadas são especificadas nos parâmetros ROWVARS e COLVARS.

Transformando dados. Declarações de Recode podem ser usadas.

Ponderando dados. Uma variável pode ser usada para ponderar dados de entrada; essa variável de ponderação pode ter valores inteiros e decimais. Quando o valor da variável de ponderação para um caso for zero, negativo, perdido ou não-numérico, então o caso será sempre evitado; o número de casos tratados dessa maneira é impresso.

Tratamento de dados perdidos. O parâmetro MDVALUES está disponível para indicar quais valores de dados perdidos, se houverem, devem ser usados para checar a existência de dados perdidos. As estatísticas univariadas para cada variável são computadas dos casos que possuem dados válidos (não perdidos) para a variável.

Dados perdidos: deleção por pares. Estatísticas emparelhadas e cada coeficiente de correlação podem ser computadas dos casos que possuem dados válidos para ambas as variáveis (MDHANDLING=PAIR). Portanto, um caso pode ser usado no cômputo de alguns pares de variáveis e não ser usado em outros pares. Esse método de manusear dados perdidos é referido como o algoritmo de deleção por pares. Nota: Se há dados perdidos, coeficientes de correlação individuais podem ser computados em diferentes subconjuntos dos dados. Se há uma grande quantidade de dados perdidos, isso pode levar à inconsistências internas na matriz de correlação que podem causar dificuldades em análises multivariadas subseqüentes.

Dados perdidos: deleção por casos. O programa pode também ser instruído (MDHANDLING=CASE) a computar estatísticas emparelhadas e correlações dos casos que possuem dados válidos em todas as variáveis na lista de variáveis. Portanto, um caso é usado no cômputo para todos os pares de variáveis ou não é usado de jeito nenhum. Esse método de manusear dados é referido como o algoritmo de deleção por casos (também disponível no programa REGRESSN), e se aplica somente à opção de matriz quadrada.


33.3  Resultados

Dicionário de entrada. (Opcional: ver o parâmetro PRINT). Registros de descrição de variáveis, e registros-C, se houver, apenas para variáveis usadas na execução.

Opção de matriz quadrada

Estatísticas emparelhadas. (Opcional: ver o parâmetro PRINT). Para cada par de variáveis na lista de variáveis o seguinte é impresso:

número de casos válidos (ou soma ponderada de casos),
média e desvio-padrão da variável X,
média e desvio-padrão da variável Y,
t-test para coeficiente de correlação,
coeficiente de correlação.

Estatísticas univariadas. Para cada variável na lista de variáveis, o seguinte é impresso:

número de casos válidos e soma dos pesos,
soma dos escores e soma dos escores ao quadrado,
média e desvio-padrão.

Coeficientes de regressão para escores brutos. (Opcional: ver o parâmetro PRINT). Para cada par de variáveis x e y, os coeficientes a e c e os termos constantes b e d nas equações de regressão x=ay+b e y=cx+d são impressos.

Matriz de correlação. (Opcional: ver o parâmetro PRINT). A parte triangular inferior esquerda da matriz.

Matriz de produtos cruzados. (Opcional: ver o parâmetro PRINT). A parte triangular inferior esquerda da matriz.

Matriz de covariância. (Opcional: ver o parâmetro PRINT). A parte triangular inferior esquerda da matriz com a diagonal.

Em cada uma das matrizes acima, um máximo de 11 colunas e 27 linhas são impressas por página.

Opção de matriz retangular

Tabela de freqüências de variáveis. Número de casos válidos para cada par de variáveis.

Tabela de valores médios para variáveis de coluna. Médias são calculadas e impressas para cada variável de coluna ao longo de todos os casos que sejam válidos para cada variável de linha.

Tabela de desvios-padrões para variáveis de coluna. Igual às médias.

Matriz de correlação. (Opcional: ver o parâmetro PRINT). Coeficientes de correlação para todos os pares de variáveis.

Matriz de covariância. (Opcional: ver o parâmetro PRINT). Covariâncias para todos os pares de variáveis.

Em cada uma das matrizes acima, um máximo de 8 colunas e 50 linhas são impressas por página.

Nota: Se um par de variáveis não possui casos válidos, 0.0 é impresso para a média, desvio-padrão, correlação e covariância.


33.4  Matrizes de Saída

Matriz de correlação

A matriz de correlação na forma de matriz quadrada do IDAMS é produzida quando o parâmetro WRITE=CORR é especificado. O formato usado para escrever as correlações é 8F9.6; o formato para ambas médias e desvios-padrões, é 5E14.7. Colunas 73-80 são utilizadas para identificar os registros.

A matriz contém correlações, médias, e desvios-padrões. As médias e desvios-padrões estão desemparelhados. Os registros de dicionário que são produzidos por PEARSON contém números e nomes de variáveis do dicionário de entrada e/ou declarações de Recode. A ordem das variáveis é determinada pela ordem das variáveis na lista de variáveis.

PEARSON pode gerar correlações iguais a 99.99901, e médias e desvios-padrões iguais a 0.0 quando não for possível computar um valor inteligível. Razões típicas para isso são quando todos os dados são eliminados devido a dados perdidos ou uma das variáveis possui um valor constante. Note que MDSCAL não aceita esses "valores perdidos", apesar de REGRESSN aceitar.

Matriz de covariância

A matriz de covariância sem a diagonal na forma de uma matriz quadrada do IDAMS é produzida quando o parâmetro WRITE=COVA é especificado.


33.5  Dataset de Entrada

A entrada é um arquivo Dados descrito por um dicionário do IDAMS. Todas as variáveis de análise devem ser numéricas; elas podem ter valores inteiros ou decimais.


33.6  Estrutura de Setup




     $RUN PEARSON

     $FILES
          Especificações de arquivo

     $RECODE (opcional)
          Declarações de Recode

     $SETUP
          1. Filtro (opcional)
          2. Título
          3. Parâmetros

     $DICT (condicional)
          Dicionário

     $DATA (condicional)
          Dados


     Arquivos :
     FT02       matrizes de saída se parâmetro WRITE especificado
     DICTxxxx   dicionário de entrada (omitir se $DICT é usado)
     DATAxxxx   dados de entrada (omitir se $DATA é usado)
     PRINT      resultados (default  IDAMS.LST)


33.7  Declarações de Controle de Programa

Reportar-se ao capítulo "O Arquivo Setup do IDAMS" para descrições mais aprofundadas das declarações de controle de programa, itens 1-3 abaixo.

  1. Filtro (opcional). Seleciona um subconjunto de casos a ser usado na execução.
    
         Exemplo:  INCLUDE  V2=11-15,60  OR  V3=9
    
  2. Título (mandatório). Uma linha contendo até 80 caracteres para nomear os resultados.
    
         Exemplo:  FIRST EXECUTION OF PEARSON - APRIL 27
    
  3. Parâmetros (mandatório). Para selecionar opções de programa.
    
         Exemplo:  WRITE=CORR, PRINT=(CORR,COVA)  ROWV=(V1,V3-V6,R47,V25)
    
    INFILE=IN /xxxx
    Um sufixo ddname de 1-4 caracteres para os arquivos Dicionário e Dados de entrada.
    Default ddnames: DICTIN, DATAIN.

    BADDATA=STOP /SKIP/MD1/MD2

    Tratamento de valores não-numéricos. Ver o capítulo "O Arquivo Setup do IDAMS".

    MAXCASES=n

    O número máximo de casos (depois da filtragem) a serem usados do arquivo de entrada.
    Default: Todos os casos serão usados.

    MATRIX=SQUARE /RECTANGULAR

    SQUA 
    Computa os coeficientes de correlação de Pearson para todos os pares de variáveis da lista ROWV.
    RECT 
    Computa os coeficientes de correlação de Pearson para todos os pares de variáveis formados ao obter-se uma variável de cada uma das listas ROWV e COLV.

    ROWVARS=(lista de variáveis)

    Uma lista de variáveis-V e/ou -R a serem correlacionadas (MATRIX=SQUARE) ou a lista de variáveis de linha (MATRIX=RECTANGULAR).
    Não há default.

    COLVARS=(lista de variáveis)

    (MATRIX=RECTANGULAR apenas).
    Uma lista de variáveis-V e/ou -R a serem usadas como variáveis de coluna. Oito colunas são impressas por página; se a lista de variáveis de linha ou a lista de variáveis de coluna contém menos do que oito variáveis, é preferível (para facilidade de leitura dos resultados) ter a lista curta como a lista de variável de coluna.

    MDVALUES=BOTH /MD1/MD2/NONE

    Que valores de dados perdidos devem ser usados para as variáveis acessadas nessa execução. Ver o capítulo o "O Arquivo Setup do IDAMS".

    MDHANDLING=PAIR /CASE

    Método de manuseio de dados perdidos.
    PAIR 
    Deleção por pares.
    CASE 
    Deleção por casos (não disponível com MATRIX=RECTANGULAR).

    WEIGHT=número de variável

    O número da variável de ponderação se os dados forem ponderados.

    WRITE=(CORR, COVA)

    (MATRIX=SQUARE apenas).
    CORR 
    Produz a matriz de correlação com médias e desvios-padrões.
    COVA 
    Produz a matriz de covariância com médias e desvios-padrões.

    PRINT=(CDICT/DICT, CORR /NOCORR, COVA, PAIR, REGR, XPRODUCTS)

    CDIC 
    Imprime o dicionário de entrada para as variáveis acessadas com registros-C, se houver.
    DICT 
    Imprime o dicionário de entrada sem registros-C.
    CORR 
    Imprime a matriz de correlação.
    COVA 
    Imprime a matriz de covariância.
    PAIR 
    Imprime as estatísticas emparelhadas (MATRIX=SQUARE apenas).
    REGR 
    Imprime os coeficientes da regressão (MATRIX=SQUARE apenas).
    XPRO 
    Imprime a matriz de produtos cruzados (MATRIX=SQUARE apenas).


33.8  Restrições

Quando MATRIX=SQUARE é especificado

  1. O número máximo de variáveis permitidas em uma execução é 200. Esse limite inclui todas as variáveis de análise, e variáveis usadas em declarações de Recode.
  2. Números de variáveis de Recode não devem exceder 999 se o parâmetro WRITE é especificado. (Elas são produzidas como números negativos na parte descritiva da matriz que tenha apenas 4 colunas reservadas ao número da variável e.g R862 se torna -862).
Quando MATRIX=RECTANGULAR é especificado
  1. O número máximo de variáveis em uma lista de variáveis de linha ou coluna é 100.
  2. O número total máximo de variáveis de linha, variáveis de coluna, variáveis usadas em declarações de Recode, e a variável de ponderação é 136.


33.9  Exemplos

Exemplo 1. Cálculo de uma matriz quadrada de coeficientes de correlação r de Pearson com deleção por pares de casos que possuam dados perdidos; a matriz será escrita em um arquivo e impressa.


     $RUN PEARSON
     $FILES
     PRINT  = PEARS1.LST
     FT02   = BIRDCOR.MAT                    arquivo Matriz de saída
     DICTIN = BIRD.DIC                       arquivo Dicionário de entrada
     DATAIN = BIRD.DAT                       arquivo Dados de entrada
     $SETUP
     MATRIX OF CORRELATION COEFFICIENTS
     PRINT=(PAIR,REGR,CORR)  WRITE=CORR  ROWV=(V18-V21,V36,V55-V61)

Exemplo 2. Cálculo de coeficientes de correlação r de Pearson para as variáveis V10-V20 com as variáveis V5-V6.

     $RUN PEARSON
     $FILES
     DICTIN = BIRD.DIC                       arquivo Dicionário de entrada
     DATAIN = BIRD.DAT                       arquivo Dados de entrada
     $SETUP
     CORRELATION COEFFICIENTS
     MATRIX=RECT  ROWV=(V10-V20)  COLV=(V5-V6)