Corrélation de Pearson (PEARSON)

33    Corrélation de Pearson (PEARSON)


33.1  Description générale

PEARSON calcule et imprime des matrices de coefficients de corrélation r de Pearson ainsi que des covariances pour toutes les paires de variables d'une liste (option de matrice carrée) ou pour chaque paire de variables formée en prenant une variable de chacune de deux listes de variables (option de matrice rectangulaire).

La suppression des données manquantes peut être effectuée par " paires " ou par " observations " .

On peut aussi utiliser PEARSON pour produire une matrice de corrélation qui peut par la suite servir d'entrée aux programmes REGRESSN et MDSCAL. Bien que REGRESSN soit capable de calculer sa propre matrice de corrélation, sa gestion des données manquantes est limitée à la suppression par " observations " . Par contre, PEARSON peut produire une matrice traitant les données manquantes avec un algorithme de suppression par " paires " .

33.2  Caractéristiques standard d'IDAMS

Sélection d'observations et de variables. On dispose du filtre standard pour opérer la sélection d'un sous-ensemble d'observations à partir des données d'entrée. Les variables pour lesquelles on veut obtenir des corrélations sont spécifiées à l'aide des paramètres ROWVARS et COLVARS.

Transformation de données. Les instructions Recode peuvent être utilisées.

Pondération de données. On peut utiliser une variable pour pondérer les données d'entrée ; cette variable poids peut prendre une valeur entière ou une valeur décimale. Le programme ignore les observations dont les valeurs de pondération contiennent des données manquantes, des zéros, des valeurs négatives ou des valeurs non numériques, et il imprime le nombre des observations traitées de cette façon.

Traitement des données manquantes. Le paramètre MDVALUES permet à l'utilisateur, s'il le souhaite, d'indiquer au programme les valeurs de données manquantes à utiliser pour vérifier si les données d'entrée en contiennent. Pour chaque variable, le programme calcule les statistiques univariées sur les observations ayant des données valides (non manquantes) pour la variable en question.

Données manquantes : suppression par paires. Les statistiques par paires et chaque coefficient de corrélation peuvent être calculés à partir des observations ayant des données valides pour les deux variables (MDHANDLING=PAIR). Ainsi, une observation peut être utilisée dans le calcul de certaines paires de variables et non d'autres. Cette méthode de gestion des données manquantes est appelée algorithme de suppression par " paires " . Note : s'il y a des données manquantes, on peut calculer des coefficients de corrélation individuels sur différents sous-ensembles de données. Un grand nombre de données manquantes peut amener des incohérences internes dans la matrice de corrélation, ce qui peut causer des difficultés dans des analyses multivariées ultérieures.

Données manquantes : suppression par observations. On peut aussi demander au programme (MDHANDLING=CASE) de calculer les statistiques par paires et les corrélations à partir des observations ayant des données valides pour toutes les variables dans la liste de variables. Dès lors, une observation est soit utilisée dans les calculs pour toutes les paires de variables, soit pas utilisée du tout. Cette méthode de gestion des données manquantes est appelée algorithme de suppression par " observations " (existant également dans le programme REGRESSN), et s'applique uniquement à l'option de matrice carrée.

33.3  Résultats

Dictionnaire d'entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s'il y en a, et ceci uniquement pour les variables utilisées durant l'exécution du programme.

Option de matrice carrée

Statistiques par paires. (Facultatif : voir le paramètre PRINT). Pour chaque paire de variables dans la liste de variables, le programme imprime les informations suivantes :

nombre d'observations valides (ou somme pondérée des observations),
moyenne et écart-type de la variable X,
moyenne et écart-type de la variable Y,
test T pour le coefficient de corrélation,
coefficient de corrélation.

Statistiques univariées. Pour chaque variable dans la liste, sont imprimés :

nombre d'observations valides et somme des poids,
somme des valeurs de la variable et somme des valeurs de la variable au carré,
moyenne et écart-type.

Coefficients de régression pour les données brutes. (Facultatif : voir le paramètre PRINT). Pour chaque paire de variables x et y, le programme imprime les coefficients de régression a et c et les termes constants b et d dans les équations de régression x=ay+b et y=cx+d.

Matrice de corrélation. (Facultatif : voir le paramètre PRINT). Le programme imprime le triangle inférieur gauche de la matrice.

Matrice des produits croisés. (Facultatif : voir le paramètre PRINT). Le programme imprime le triangle inférieur gauche de la matrice.

Matrice de covariance. (Facultatif : voir le paramètre PRINT). Le programme imprime le triangle inférieur gauche de la matrice avec la diagonale.

Pour chaque matrice mentionnée ci-dessus, le programme imprime un maximum de 11 colonnes et 27 lignes par page.

Option de matrice rectangulaire

Tableau des fréquences. Nombre d'observations valides pour chaque paire de variables.

Tableau des moyennes pour les variables de colonnes. Pour chaque variable de colonne, le programme calcule et imprime la moyenne des observations valides, à tour de rôle pour chaque variable de ligne.

Tableau des écarts-types pour les variables de colonnes. De même que pour les moyennes.

Matrice de corrélation. (Facultatif : voir le paramètre PRINT). Coefficients de corrélation pour chacune des paires de variables.

Matrice de covariance. (Facultatif : voir le paramètre PRINT). Covariances pour chacune des paires de variables.

Pour chacun des tableaux ci-dessus, le programme imprime au maximum 8 colonnes et 50 lignes par page.

Note : s'il n'y a pas d'observations valides pour une paire de variables, le programme imprime 0.0 pour la moyenne, l'écart-type, la corrélation et la covariance.


33.4  Matrices en sortie

Matrice de corrélation

Quand le paramètre WRITE=CORR est spécifié, le programme produit en sortie une matrice de corrélation ayant la forme d'une matrice IDAMS carrée. Le format utilisé pour écrire les corrélations est 8F9.6 ; pour les moyennes et pour les écarts-types le format est 5E14.7. Les colonnes 73-80 servent à identifier les enregistrements.

La matrice contient des corrélations, des moyennes et des écarts-types. Les moyennes et les écarts-types ne sont pas produits par paires. Les enregistrements dictionnaire produits par PEARSON contiennent les noms et les numéros de variables tirés du dictionnaire d'entrée et/ou des instructions de Recode. L'ordre des variables est déterminé par l'ordre des variables dans la liste des variables.

PEARSON peut produire des corrélations égales à 99.999901 y des moyennes et des écarts-types égaux à 0.0 quand il n'arrive pas à calculer une valeur raisonnable. Des motifs typiques d'une telle situation sont, par exemple, la suppression de toutes les observations en raison des données manquantes ou le fait que l'une des variables a une valeur constante. On notera que MDSCAL n'accepte pas ces " valeurs manquantes " tandis que REGRESSN les accepte.

Matrice de covariance

Quand le paramètre WRITE=COVA est spécifié, le programme produit en sortie une matrice de covariance sans la diagonale, ayant la forme d'une matrice IDAMS carrée.

33.5  Dataset en entrée

C'est un fichier Données décrit par un dictionnaire IDAMS. Toutes les variables d'analyse doivent être numériques ; elles peuvent avoir pour valeur un nombre décimal ou entier.

33.6  Structure du setup


     $RUN PEARSON

     $FILES
          Spécification des fichiers
 
     $RECODE (facultatif)
          Instructions Recode 
 
     $SETUP
          1. Filtre (facultatif)
          2. Titre
          3. Paramètres
 
     $DICT (conditionnel)
          Dictionnaire
 
     $DATA (conditionnel)
          Données
  
     Fichiers :
     FT02       matrices en sortie si le paramètre WRITE est spéfifié
     DICTxxxx   dictionnaire en entrée (omettre si $DICT est utilisé)
     DATAxxxx   données en entrée (omettre si $DATA est utilisé)
     PRINT      résultats (défaut IDAMS.LST)

33.7  Instructions de contrôle du programme

Se référer au chapitre " Le fichier Setup d'IDAMS " pour une description plus complète des instructions relatives aux items 1-3 ci-dessous.

  1. Filtre (facultatif). Sélectionne un sous-ensemble d'observations à utiliser avec le programme.
    
         Exemple :  INCLUDE  V2=11-15,60  OR  V3=9
    
  2. Titre (obligatoire). Une ligne pouvant contenir jusqu'à 80 caractères pour donner un titre aux résultats.
    
         Exemple :  PREMIÈRE EXÉCUTION DE PEARSON - 27 AVRIL 
    
  3. Paramètres (obligatoire). Pour sélectionner des options du programme.
    
         Exemple :  WRITE=CORR, PRINT=(CORR,COVA)  ROWV=(V1,V3-V6,R47,V25)
    
    INFILE=IN /xxxx
    Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée.
    ddnames par défaut : DICTIN, DATAIN.

    BADDATA=STOP /SKIP/MD1/MD2

    Traitement des valeurs non numériques. Voir le chapitre " Le fichier Setup d'IDAMS " .

    MAXCASES=n

    Le nombre maximum d'observations du fichier en entrée à utiliser (après le filtre).
    Défaut : toutes les observations seront utilisées par le programme.

    MATRIX=SQUARE /RECTANGULAR

    SQUA 
    Calculer les coefficients de corrélation Pearson pour toutes les paires de variables de la liste ROWV.
    RECT 
    Calculer les coefficients de corrélation Pearson pour chaque paire de variables formée en prenant une variable de chacune des deux listes de variables ROWV et COLV.


    ROWVARS=(liste de variables)

    Une liste de variables V et/ou R dont calculer les coefficients de corrélation (MATRIX=SQUARE) ou la liste des variables en lignes (MATRIX=RECTANG).
    Pas de défaut.

    COLVARS=(liste de variables)

    (MATRIX=RECTANGULAR seulement).
    Une liste de variables V et/ou R dont calculer les coefficients de corrélation. Le programme imprime huit colonnes par page ; si l'une des listes de variables contient moins que huit variables, il est préférable (pour faciliter la lecture) de la prendre comme liste de variables de colonne.

    MDVALUES=BOTH /MD1/MD2/NONE

    Valeurs de données manquantes que le programme doit utiliser pour les variables auxquelles il accède durant son exécution. Voir le chapitre " Le fichier Setup d'IDAMS " .

    MDHANDLING=PAIR /CASE

    Manière de gérer les données manquantes.
    PAIR 
    Suppression par paires.
    CASE 
    Suppression par observations (non disponible avec MATRIX=RECT).


    WEIGHT=numéro de variable

    Numéro de la variable poids si l'on va pondérer les données.

    WRITE=(CORR, COVA)

    (MATRIX=SQUARE seulement).
    CORR 
    Envoyer en sortie la matrice de corrélation avec les moyennes et les écarts-types.
    COVA 
    Envoyer en sortie la matrice des covariances avec les moyennes et les écarts-types.


    PRINT=(CDICT/DICT, CORR /NOCORR, COVA, PAIR, REGR, XPRODUCTS)

    CDIC 
    Imprimer le dictionnaire d'entrée pour les variables utilisées, avec les enregistrements C s'il y en a.
    DICT 
    Imprimer le dictionnaire d'entrée sans les enregistrements C.
    CORR 
    Imprimer la matrice de corrélation.
    COVA 
    Imprimer la matrice de covariance.
    PAIR 
    Imprimer les statistiques par paires (MATRIX=SQUARE seulement).
    REGR 
    Imprimer les coefficients de régression (MATRIX=SQUARE seulement).
    XPRO 
    Imprimer la matrice des sommes des produits croisés (MATRIX=SQUARE seulement).

33.8  Restrictions

Quand on spécifie MATRIX=SQUARE

  1. Le nombre maximum de variables autorisé dans une même exécution est 200. Ce chiffre inclut toutes les variables d'analyse et les variables utilisées avec Recode.
  2. Si le paramètre WRITE est spécifié, les numéros des variables recodées ne peuvent pas dépasser 999. (Ils sont envoyés en sortie sous forme de nombres négatifs dans la partie descriptive de la matrice, où il y a seulement 4 colonnes réservées pour le numéro de la variable, par ex. R862 devient -862).
Quand on spécifie MATRIX=RECTANGULAR
  1. Le nombre maximum de variables dans la liste de variables de lignes ou de colonnes est 100.
  2. Le nombre total de variables de lignes, de colonnes, utilisées avec Recode, et de poids, ne peut dépasser 136.

33.9  Exemples

Exemple 1. Calcul d'une matrice carrée de coefficients de corrélation r de Pearson, avec suppression par paires des observations ayant des données manquantes ; la matrice sera envoyée dans un fichier et imprimée.


     $RUN PEARSON
     $FILES
     PRINT  = PEARS1.LST
     FT02   = BIRDCOR.MAT                   fichier Matrice en sortie
     DICTIN = BIRD.DIC                      fichier Dictionnaire en entrée
     DATAIN = BIRD.DAT                      fichier Données en entrée
     $SETUP
     MATRICE DE COEFFICIENTS DE CORRÉLATION
     PRINT=(PAIR,REGR,CORR)  WRITE=CORR  ROWV=(V18-V21,V36,V55-V61)

Exemple 2. Calcul des coefficients de corrélation r de Pearson pour les variables V10-V20 avec les variables V5-V6.


     $RUN PEARSON
     $FILES
     DICTIN = BIRD.DIC                      fichier Dictionnaire en entrée
     DATAIN = BIRD.DAT                      fichier Données en entrée
     $SETUP
     COEFFICIENTS DE CORRÉLATION 
     MATRIX=RECT  ROWV=(V10-V20)  COLV=(V5-V6)