Correlación de Pearson (PEARSON)

33    Correlación de Pearson (PEARSON)


33.1  Descripción general

PEARSON calcula e imprime matrices de coeficientes de correlación r de Pearson y covariancias para todos los pares de variables en una lista (opción de matriz cuadrada) o para cada pareja de variables formada al tomar una variable de cada dos listas de variables (opción de matriz rectangular).

Se puede especificar la eliminación de datos faltantes "por pares" o "por casos".

PEARSON se puede utilizar también para obtener una matriz de correlación, la cual puede ser posteriormente leida por los programas REGRESSN o MDSCAL. Aunque REGRESSN puede calcular su propia matriz de correlación, su opción de manejo de datos faltantes sólo puede eliminar "por casos". En contraste, PEARSON puede generar una matriz con el uso de un algoritmo de eliminación "por pares" para datos faltantes.

33.2  Características estándar de IDAMS

Selección de casos y variables. Se puede utilizar el filtro estándar para la selección de un subconjunto de casos de los datos de entrada. Las variables para las cuales se desea la correlación se especifican con los parámetros ROWVARS y COLVARS.

Transformación de datos. Se pueden usar las proposiciones de Recode.

Ponderación de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de ponderación puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderación para un caso es cero, negativo, dato faltante o no numérico, entonces el caso siempre se omite; se imprime el número de casos así tratados.

Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores de datos faltantes, si los hay, se usarán para verificar los datos faltantes. Se calculan las estadísticas univariadas para cada variable a partir de los casos que tengan datos válidos (no faltantes) para la variable.

Datos faltantes: eliminación por pares. Las estadísticas por pares y el coeficiente de correlación, se pueden calcular de los casos que tengan datos válidos para ambas variables (MDHANDLING=PAIR). Así, un caso se puede utilizar en los cálculos para algunos pares de variables y no usarse para otros. Este método de manejo de datos faltantes se llama algoritmo de eliminación "por pares". Nota: si hay datos faltantes, se pueden calcular coeficientes de correlación individuales para diferentes subconjuntos de datos. Si hay muchos datos faltantes, se pueden presentar inconsistencias internas en la matriz de correlación, las cuales pueden causar dificultades en análisis multivariados posteriores.

Datos faltantes: eliminación por casos. El programa puede también recibir la instrucción (MDHANDLING=CASE) para calcular estadísticas pareadas y correlaciones a partir de los casos que tengan datos válidos en todas las variables de la lista de variables. De esta manera, un caso se usa en el cálculo para todos los pares de variables o no se usa. Este método de manejar los datos faltantes se llama algoritmo de eliminación "por casos" (también se encuentra en el programa REGRESSN) y sólo se aplica a la opción de matriz cuadrada.

33.3  Resultados

Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.

Opción de matriz cuadrada

Estadísticas pareadas. (Opcional: ver el parámetro PRINT). Para cada par de variables de la lista, se imprime la siguiente información:

número de casos válidos (o suma ponderada de casos),
media y desviación estándar de la variable X,
media y desviación estándar de la variable Y,
prueba T para el coeficiente de correlación,
coeficiente de correlación.

Estadísticas univariadas. Para cada variable de la lista, se imprime la siguiente información:

número de casos válidos y suma de ponderaciones,
suma de puntajes y suma de puntajes cuadrados,
media y desviación estándar.

Coeficientes de regresión para puntajes primarios. (Opcional: ver el parámetro PRINT). Para cada par de variables x, y se imprimen los coeficientes de regresión a y c y los términos constantes b y d de las ecuaciones de regresión x=ay+b y y=cx+d.

Matriz de correlación. (Opcional: ver el parámetro PRINT). Se imprime el triángulo inferior izquierdo de la matriz.

Matriz de productos cruzados. (Opcional: ver el parámetro PRINT). Se imprime el triángulo inferior izquierdo de la matriz.

Matriz de covariancia. (Opcional: ver el parámetro PRINT). Se imprime el triángulo inferior izquierdo de la matriz con su diagonal.

En cada una de las tablas anteriores, se imprime por página, un máximo de 11 columnas y 27 filas.

Opción de matriz rectangular

Tabla de frecuencias de variables. Número de casos válidos para cada par de variables.

Tabla de valores de la media para las variables de columnas. Se calculan y se imprimen las medias para cada variable de columna en los casos que son válidos, a su turno, para cada variable de fila.

Tabla de desviaciones estándar para variables de columnas. Igual que para las medias.

Matriz de correlación. (Opcional: ver el parámetro PRINT). Coeficientes de correlación para todos los pares de variables.

Matriz de covariancia. (Opcional: ver el parámetro PRINT). Covariancias para todos los pares de variables.

En cada una de las tablas anteriores, se imprime por página, un máximo de 8 columnas y 50 filas.

Nota: si un par de variables no tiene casos válidos, se escribe 0.0 para la media, desviación estándar, correlación y covariancia.


33.4  Matrices de salida

Matriz de correlación

Cuando se especifica el parámetro WRITE=CORR, se produce la matriz de correlación, en la forma estándar de una matriz cuadrada IDAMS. El formato de las correlaciones es 8F9.6; el formato para la media y la desviación estándar es 5E14.7. Las columnas 73-80, se utilizan para identificar los registros.

La matriz contiene correlaciones, medias y desviaciones estándar. Las medias y las desviaciones estándar están sin parear. Los registros de diccionario que produce PEARSON, tienen números y nombres de variable del diccionario de entrada y/o de proposiciones de Recode. El orden de las variables lo determina el orden de las mismas en la lista.

PEARSON puede generar correlaciones iguales a 99.999901, y medias y desviaciones estándar iguales a 0.0 cuando los valores calculados carezcan de sentido. Razones típicas de ésto pueden ser por ejemplo, que se hayan eliminado todos los casos debido a datos faltantes o una de las variables tuvo un valor constante. Nótese que MDSCAL no acepta estos "valores faltantes" y REGRESSN sí.

Matriz de covariancia

Cuando se especifica el parámetro WRITE=COVA, se produce la matriz de covariancia, sin la diagonal, en la forma de una matriz cuadrada estándar de IDAMS.

33.5  Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del análisis deben ser numéricas; pueden tener valores enteros o decimales.

33.6  Estructura del setup


 
 
     $RUN PEARSON
   
     $FILES
          Especificación de archivos
 
     $RECODE (opcional)
          Proposiciones de Recode
 
     $SETUP
          1. Filtro (opcional)
          2. Título
          3. Parámetros
 
     $DICT (condicional)
          Diccionario

     $DATA (condicional)
          Datos

 
     Archivos:
     FT02       matrices de salida si se especifica el parámetro WRITE
     DICTxxxx   diccionario de entrada (omitir si se usa $DICT)
     DATAxxxx   datos de entrada (omitir si se usa $DATA)
     PRINT      resultados (por defecto IDAMS.LST)
  

33.7  Proposiciones de control del programa

Referirse al capítulo "El archivo Setup de IDAMS" para una descripción más detallada de las proposiciones de control del programa, ítems 1-3, a continuación.

  1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
    
         Ejemplo:  INCLUDE V2=11-15,60  OR  V3=9
    
  2. Título (mandatorio). Una línea que contenga hasta 80 caracteres para titular los resultados.
    
         Ejemplo:  PRIMERA CORRIDA DE PEARSON - ABRIL 27
    
  3. Parámetros (mandatorio). Para seleccionar opciones del programa.
    
         Ejemplo:  WRITE=CORR,  PRINT=(CORR,COVA)  ROWV=(V1,V3-V6,R47,V25)
    
    INFILE=IN /xxxx
    Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
    Por defecto: DICTIN, DATAIN.

    BADDATA=STOP /SKIP/MD1/MD2

    Tratamiento de los datos no numéricos. Ver el capítulo "El archivo Setup de IDAMS".

    MAXCASES=n

    Número máximo de casos (después de filtrar) a usar del archivo de entrada.
    Por defecto: se usan todos los casos.

    MATRIX=SQUARE /RECTANGULAR

    SQUA 
    Calcular coeficientes de correlación de Pearson para todos los pares de variables de la lista en ROWV.
    RECT 
    Calcular los coeficientes de correlación de Pearson para cada par de variables formado al tomar una variable de cada una de las dos listas en ROWV y COLV.

    ROWVARS=(lista de variables)

    Una lista de variables V o R a correlacionar (MATRIX=SQUARE) o la lista de variables de fila (MATRIX=RECTANGULAR).
    Sin valor por defecto.

    COLVARS=(lista de variables)

    (Sólo MATRIX=RECTANGULAR).
    Una lista de variables V o R a usar como variables de columna. Se escriben 8 columnas por página; si las listas de variables de columna o de fila tienen menos de 8 variables, es preferible (para facilidad de lectura del listado) tener la lista corta como la lista de variables de columna.

    MDVALUES=BOTH /MD1/MD2/NONE

    Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver el capítulo "El archivo Setup de IDAMS".

    MDHANDLING=PAIR /CASE

    Método para el manejo de datos faltantes.
    PAIR 
    Eliminación por pares.
    CASE 
    Eliminación por casos (no disponible con MATRIX=RECTANG).

    WEIGHT=número de variable

    Número de la variable de ponderación, si se van a ponderar los datos.

    WRITE=(CORR, COVA)

    Sólo MATRIX=SQUARE.
    CORR 
    Escribir en un archivo de salida, la matriz de correlación con medias y desviaciones estándar.
    COVA 
    Escribir en un archivo de salida, la matriz de covariancia con medias y desviaciones estándar.

    PRINT=(CDICT/DICT, CORR /NOCORR, COVA, PAIR, REGR, XPRODUCTS)

    CDIC 
    Imprimir el diccionario de entrada para las variables accedidas con registros C, si los hay.
    DICT 
    Imprimir el diccionario de entrada sin registros C.
    CORR 
    Imprimir la matriz de correlación.
    COVA 
    Imprimir la matriz de covariancia.
    PAIR 
    Imprimir estadísticas pareadas (sólo MATRIX=SQUARE).
    REGR 
    Imprimir los coeficientes de regresión (sólo MATRIX=SQUARE).
    XPRO 
    Imprimir la matriz de productos cruzados (sólo MATRIX=SQUARE).

33.8  Restricciones

Cuando se especifica MATRIX=SQUARE

  1. El número máximo de variables permitido en una ejecución es 200. Este límite incluye todas las variables de análisis y variables usadas en proposiciones Recode.
  2. Los números de las variables recodificadas no pueden exceder de 999 si se especifica el parámetro WRITE. (Salen como números negativos en la parte descriptiva de la matriz, la cual sólo tiene cuatro columnas reservadas para el número de variable, por ej. R862 saldría como -862).

Cuando se especifica MATRIX=RECTANGULAR

  1. El número máximo de variables en la lista para filas o columnas es 100.
  2. El máximo total variables de filas, columnas, variables usadas en Recode y variable de ponderación es 136.

33.9  Ejemplos

Ejemplo 1. Cálculo de una matriz cuadrada de coeficientes de correlación de Pearson, con eliminación de casos con datos faltantes por pares; la matriz se escribirá en un archivo de salida y se imprimirá.


     $RUN PEARSON
     $FILES
     PRINT  = PEARS1.LST
     FT02   = BIRDCOR.MAT               archivo Matriz de salida 
     DICTIN = BIRD.DIC                  archivo Diccionario de entrada
     DATAIN = BIRD.DAT                  archivo Datos de entrada
     $SETUP
     MATRIZ DE COEFICIENTES DE CORRELACION
     PRINT=(PAIR,REGR,CORR)  WRITE=CORR  ROWV=(V18-V21,V36,V55-V61)

Ejemplo 2. Cálculo de coeficientes de correlación de Pearson para las variables V10-V20, con las variables V5-V6.


     $RUN PEARSON
     $FILES
     DICTIN = BIRD.DIC                  archivo Diccionario de entrada
     DATAIN = BIRD.DAT                  archivo Datos de entrada
     $SETUP
     COEFICIENTES DE CORRELACION
     MATRIX=RECT  ROWV=(V10-V20)  COLV=(V5-V6)