Análisis de clasificación múltiple (MCA)

29    Análisis de clasificación múltiple (MCA)


29.1  Descripción general

MCA examina las relaciones entre varias variables de predicción y una sóla variable dependiente y determina los efectos de cada predictor antes y después de los ajustes para sus intercorrelaciones con otros predictores dentro del análisis. También produce información acerca de las relaciones bivariadas y multivariadas entre los predictores y la variable dependiente. La técnica MCA se puede considerar equivalente a un análisis de regresión múltiple con variables ficticias. Sin embargo, a menudo MCA resulta más conveniente para usar e interpretar. MCA tiene también la posibilidad de hacer análisis de variancia de una entrada.

MCA asume que los efectos de los predictores son aditivos, es decir que no hay interacciones entre los predictores. Está diseñado para usar con variables predictoras las cuales se miden en escalas nominales, ordinales y de intervalos. Acepta un número desigual de casos en las celdas construidas por clasificación cruzada de los predictores.

Como alternativa al uso de MCA, se tiene REGRESSN y ONEWAY. REGRESSN suministra una capacidad de tipo general de regresión múltiple. ONEWAY hace un análisis de variancia de una entrada. La ventaja de MCA sobre REGRESSN consiste en aceptar variables predictoras en una forma tan débil como escalas nominales y no supone una relación lineal en la regresión. Las ventajas sobre ONEWAY son que en MCA el código máximo para una variable de control en un análisis de una entrada es 2999 (en lugar de 99 en ONEWAY).

Generación de un dataset de residuos. Se pueden calcular residuos y llevarlos como un archivo de datos de salida descrito por un diccionario IDAMS. Ver la sección "Dataset(s) de residuos de salida" para detalles del contenido. Esta opción no se puede usar cuando se tiene sólo un predictor.

Procedimientos iterativos. MCA utiliza un algoritmo de iteración para aproximar los coeficientes que constituyen las soluciones del conjunto de ecuaciones normales. El algoritmo de iteración se detiene cuando los coeficientes generados tienen la exactitud suficiente. Esto involucra la definición de una tolerancia y la especificación de una prueba para determinar cuando se ha satisfecho esta tolerancia (ver parámetros de análisis CRITERION y TEST). Hay cuatro pruebas de convergencia. Si los coeficientes no convergen dentro de los límites impuestos por el usuario, el programa imprime los resultados de la última iteración. El número de iteraciones útiles depende, en alguna forma, del número de predictores usados en el análisis y de la fracción especificada de tolerancia. Cuando hay menos de 10 predictores, se ha encontrado que resulta conveniente especificar 10 como el número de máximo de iteraciones.

Detección y tratamiento de interacciones. El programa asume que el fenómeno que se va estudiar se puede entender en términos de un modelo aditivo.

Si sobre bases a priori, se sospecha que algunas variables en particular presentan interacciones entre ellas, MCA se puede usar para determinar la extensión de estas interacciones así. Si se especifica un predictor, MCA hace análisis de variancia de una entrada. Este análisis puede ayudar a determinar y eliminar interacciones entre predictores. El procedimiento completo es el siguiente (ver también Ejemplo 3):

  1. Determinar un conjunto de predictores de los cuales se sospecha que tendrán interacciones.
  2. Formar una sola "variable de combinación" con estos predictores y la proposición COMBINE de Recode.
  3. Ejecutar un análisis de MCA con los predictores sospechosos para obtener una R cuadrada ajustada.
  4. Ejecutar un análisis de MCA con la "variable de combinación" como control en un análisis de variancia de una entrada para obtener eta cuadrada ajustada, la cual será mayor o igual a la R cuadrada ajustada.
  5. Use la diferencia, eta cuadrada ajustada menos R cuadrada ajustada (la fracción de la variancia explicada que se pierde debido a la suposición de aditividad), como guía para determinar si se justifica el uso de una variable de combinación a cambio de los predictores originales.
La prueba para interacción debe basarse en la misma muestra de la ejecución normal de MCA. Si se detectan interacciones, entonces debe usarse la variable de combinación como variable de predicción en lugar de las variables individuales que interactúan.

29.2  Características estándar de IDAMS

Selección de casos y variables. Los casos se pueden excluir del análisis en la ejecución de MCA con una proposición de filtro estándar. En el análisis de clasificación múltiple, se excluyen casos por haber excedido el código máximo de predictor. (Nota: si en una ejecución, una variable de predicción tiene un código fuera del rango 0-31, el caso con este valor se elimina de todos los análisis). Para un análisis en particular, se pueden excluir casos adicionales, debido a las condiciones siguientes:

Transformación de datos. Se pueden usar las proposiciones de Recode.

Ponderación de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de ponderación puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderación para un caso es cero, negativo, dato faltante o no numérico, entonces el caso siempre se omite; se imprime el número de casos así tratados. Cuando se usan datos ponderados, las pruebas de significación estadística deben interpretarse con precaución.

Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores de datos faltantes, si los hay, se usarán para verificar los datos faltantes. Los casos con datos faltantes en la variable dependiente siempre se excluyen. Los casos con datos faltantes en las variables de predicción se pueden excluir de todos los análisis con un filtro. (El uso de filtro para excluir casos con datos faltantes de las variables predictoras en la clasificación múltiple, solamente se necesita si los códigos de datos faltantes se encuentran dentro del rango 0-31; si el valor de algún predictor está por fuera de este rango, un caso se excluye automáticamente de todos los análisis en la ejecución).

29.3  Resultados

Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.

Tabla de frecuencias ponderadas. (Opcional: ver el parámetro PRINT). Se imprime una matriz N x M para cada par de predictores donde N=código máximo de predictor de fila y N=código máximo de predictor de columna. El número total de tablas es P(P-1)/2 donde P es el número de predictores.

Coeficientes para cada iteración. (Opcional: ver el parámetro de analisis PRINT). Coeficientes para cada clase para cada predictor.

Estadísticas de la variable dependiente. Para la variable dependiente (Y):

gran media, desviación estándar y coeficiente de variación,
suma de Y y suma de Y cuadrada,
sumas de cuadrados total, explicada y residual,
número de casos usados en el análisis y suma de ponderaciones.

Estadísticas de predictores para análisis de clasificación múltiple.

Para cada categoría de cada predictor:

código de categoría (clase) y nombre, si existe en el diccionario,
número de casos con datos válidos (en forma primaria, ponderada y porcentaje),
media (no ajustada y ajustada), desviación estándar y coeficiente de variación de la variable dependiente,
desviación no ajustada de la media de la categoría a partir de la gran media y coeficiente de ajuste.

Para cada variable predictora:

eta y eta cuadrada (no ajustada y ajustada),
beta y beta cuadrada,
sumas de cuadrados no ajustadas y ajustadas.

Estadísticas de análisis para análisis de clasificación múltiple. Para todos los predictores combinados:

R cuadrada múltiple (no ajustada y ajustada),
coeficiente de ajuste para grados de libertad,
R múltiple (ajustada),
lista de betas en orden descendente de sus valores.

Estadísticas de análisis de variancia de una entrada.

Para cada categoría del predictor:

código de categoría (clase) y nombre, si existe en el diccionario,
número de casos con datos válidos (en forma primaria, ponderada y porcentaje),
media, desviación estándar y coeficiente de variación de la variable dependiente,
suma y porcentaje de valores de la variable dependiente,
suma de valores cuadrados de la variable dependiente.

Para la variable predictora:

eta y eta cuadrada (no ajustada y ajustada),
coeficiente de ajuste para grados de libertad,
sumas de cuadrados total, entre medias y dentro de grupos,
valor F (se imprimen grados de libertad).

Residuos. (Opcional: ver el parámetro PRINT). Se imprimen para cada caso, en el orden del archivo de entrada: la variable de identificación, el valor observado, el valor predicho, el residuo y la variable de ponderación si se ha usado.

Estadísticas de resumen para los residuos. Si se solicitan residuos, el programa imprime el número de casos, la suma de ponderaciones, media, variancia, asimetría y kurtosis de la variable de residuo.


29.4  Dataset(s) de residuos de salida

Para cada análisis se puede, opcionalmente, llevar los residuos a un archivo de salida, descrito por un diccionario IDAMS. (Ver el parámetro de análisis WRITE=RESIDUALS). Se graba un registro por cada caso que haya pasado por el filtro contenido una variable de identificación, un valor observado, un valor calculado, un residuo para la variable dependiente y la variable de ponderación si se ha usado. Las características del dataset son las siguientes:

Número de Ancho de Número de Códigos
variable Nombre campo decimales MD
(identificador) 1 igual a entrada * 0 igual a entrada
(variable dependiente) 2 igual a entrada * ** igual a entrada
(variable predicha) 3 Predicted value 7 *** 9999999
(residuo) 4 Residual 7 *** 9999999
(ponderación - si hay) 5 igual a entrada * ** igual a entrada

*  
transferido del diccionario de entrada para variables V o 7 para variables R
**  
transferido del diccionario de entrada para variables V o 2 para variables R
***  
6 + Nr. de decimales para la variable dependiente menos el ancho de la variable dependiente; si ésta es negativa, entonces este valor es cero.

Si faltan el valor observado o el valor de la variable de ponderación, o si el caso se excluyó por la verificación de código máximo o por criterio de dato excéntico, se graba un registro residual de todas las variables con código MD1 (con excepción de la variable de identificación).

29.5  Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para análisis deben ser numéricas; pueden tener valores enteros o decimales, excepto los predictores que deben tener valor entero, entre 0 y 31 para clasificación múltiple y hasta 2999 para el análisis de variancia de una entrada. La variable identificadora de caso puede ser alfabética.

Para un análisis con MCA se requiere un gran número de casos; una regla práctica es que el número total de categorías (es decir la suma de categorías sobre todos los predictores) no debe exceder el 10% del tamaño de la muestra).

La variable dependiente debe medirse en una escala de intervalo o ser una dicotomía, y no debe presentar mala asimetría. Las variables predictoras en MCA deben estar categorizadas, preferiblemente no más de 6 categorías. Aunque MCA está diseñado para manejar predictores correlacionados, no debe haber dos predictores tan fuertemente correlacionados que presenten una superposición perfecta entre cualesquiera de sus categorías. (Si hay una superposición perfecta, se hace necesaria una recodificación para combinar categorías o un filtrado para retirar casos viciados).


29.6  Estructura del setup


  
  
     $RUN MCA
   
     $FILES
          Especificación de archivos
 
     $RECODE (opcional)
          Proposiciones de Recode
 
     $SETUP
          1. Filtro (opcional)
          2. Título
          3. Parámetros
          4. Especificaciones de análisis (tantas como sean necesarias)

     $DICT (condicional)
          Diccionario

     $DATA (condicional)
          Datos


     Archivos:
     DICTxxxx   diccionario de entrada (omitir si se usa $DICT)
     DATAxxxx   datos de entrada (omitir si se usa $DATA)
     DICTyyyy   diccionario de residuos de salida ) un conjunto por cada
     DATAyyyy   datos de residuos de salida       ) archivo de residuos requerido
     PRINT      resultados (por defecto IDAMS.LST)
 

29.7  Proposiciones de control del programa

Referirse al capítulo "El archivo Setup de IDAMS" para una descripción más detallada de las proposiciones de control del programa, ítems 1-4, a continuación.

  1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
    
         Ejemplo:  INCLUDE V6=2-6
    
  2. Título (mandatorio). Una línea que contenga hasta 80 caracteres para titular los resultados.
    
         Ejemplo:  EJECUCION DE PRUEBA PARA MCA
    
  3. Parámetros (mandatorio). Para seleccionar opciones del programa.
    
         Ejemplo:  *
    
    INFILE=IN /xxxx
    Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
    Por defecto: DICTIN, DATAIN.

    BADDATA=STOP /SKIP/MD1/MD2

    Tratamiento de los datos no numéricos. Ver el capítulo "El archivo Setup de IDAMS".

    MAXCASES=n

    Número máximo de casos (después de filtrar) a usar del archivo de entrada.
    Por defecto: se usan todos los casos.

    PRINT=CDICT/DICT

    CDIC 
    Imprimir el diccionario de entrada para las variables accedidas con registros C, si los hay.
    DICT 
    Imprimir el diccionario de entrada sin registros C.

  4. Especificaciones de análisis. Las reglas de codificación son las mismas que las de los parámetros. Cada especificación de análisis debe comenzar en una línea nueva.
    
         Ejemplo:  PRINT=TABLES, DEPVAR=(V35,98), ITER=100, CONV=(V4-V8)
    
    DEPVAR=(número de variable, codmax)
    Número de variable y código máximo para la variable dependiente.
    Sin valor por defecto; siempre se debe especificar el número de variable.
    El valor por defecto para el máximo código es 9999999.

    CONVARS=(lista de variables)

    Variables que se van a usar como predictores. Si sólo se especifica una variable, entonces se ejecuta un análisis de variancia de una entrada.
    Sin valor por defecto.

    MDVALUES=BOTH /MD1/MD2/NONE

    Cuales valores de datos faltantes de la variable dependiente se van a verificar. Ver el capítulo "El archivo Setup de IDAMS".
    Nota: nunca se verifican datos faltantes para las variables de predicción.

    WEIGHT=número de variable

    Número de la variable de ponderación, si se van a ponderar los datos.

    ITERATIONS=25 /n

    Número máximo de iteraciones. Rango 1-99999.

    TEST=PCTMEAN /CUTOFF/PCTRATIO/NONE

    Prueba de convergencia deseada.
    PCTM 
    Prueba si el cambio en los coeficientes de una iteración a otra, se encuentra por debajo de la fracción especificada de la gran media.
    CUTO 
    Prueba si el cambio en los coeficientes de una iteración a otra, es menor que un valor especificado.
    PCTR 
    Prueba si el cambio en los coeficientes de una iteración a otra, es menor que una fracción especificada de la relación de la desviación estándar de la variable dependiente a su media.
    NONE 
    El programa itera hasta exceder el máximo número de iteraciones especificado.

    CRITERION=.005 /n

    Dar un valor numérico que es la tolerancia de la convergencia de la prueba escogida. Rango 0.0 a 1.0 (se debe dar el punto decimal).

    OUTLIERS=INCLUDE /EXCLUDE

    INCL 
    Se incluyen en el análisis y se contarán, los casos con valores excéntricos de la variable dependiente.
    EXCL 
    Los casos con valores excéntricos de la variable dependiente, se excluyen del análisis.

    OUTDISTANCE=5 /n

    Número de desviaciones estándar, tomadas desde la gran media, para definir cuándo un valor de la variable dependiente se considera excéntrico.

    WRITE=RESIDUALS

    Escribir los residuos en un dataset IDAMS; aplicar el modelo MCA, sólo al subconjunto de los casos que pasan los criterios de datos faltantes, código máximo y valores excéntricos. Los casos a los cuales el modelo MCA no se aplica, se incluyen en el dataset de residuos con todos sus valores (excepto el valor de la variable de identificación) marcados MD1.
    No se pueden obtener residuos si sólo se ha especificado una variable de predicción.

    OUTFILE=OUT /yyyy

    Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
    Por defecto: DICTOUT, DATAOUT.
    Nota: si más de un análisis solicita llevar residuos al archivo, los ddnames por defecto DICTOUT y DATAOUT sólo se pueden usar para uno.

    IDVAR=número de variable

    Número de una variable de identificación para ser incluida en el dataset de residuos.
    Por defecto: se crea una variable cuyos valores son números que indican la posición secuencial del caso en el archivo de residuos.

    PRINT=(TABLES, HISTORY, RESIDUALS)

    TABL 
    Imprimir la tabulación cruzada por pares de predictores.
    HIST 
    Imprimir los coeficientes de todas las iteraciones. Si no se ha seleccionado la opción HIST y la iteración converge, sólo se imprimen los coeficientes finales; si la iteración no converge, se imprimen los coeficientes de las dos últimas iteraciones.
    RESI 
    Imprimir los residuos en el mismo orden secuencial de los casos de entrada.

29.8  Restricciones

  1. Número máximo de variables de entrada, incluidas las variables de proposiciones Recode es 200.
  2. El número máximo de variables predictoras (de control) por análisis es 50.
  3. No es posible usar el número máximo de predictores, cada uno de ellos con el número máximo de categorías en un análisis. Si un problema excede la capacidad de memoria, se imprime un mensaje de error y el programa pasa al siguiente análisis.
  4. Máximo número de análisis por ejecución es 50.
  5. Las variables predictoras para el análisis de clasificación múltiple deben estar categorizadas, preferiblemente con 6 o menos categorías. Las categorías deben tener códigos enteros en el rango 0-31. Los casos con cualquier otro valor serán excluidos del análisis.
  6. La variable predictora en el análisis de variancia de una entrada debe estar codificada dentro del rango 0-2999. Los casos con otros valores, se excluyen del análisis.
  7. Si una variable predictora tiene cifras decimales, sólo se usa la parte entera.
  8. Si la variable de identificación es alfabética con ancho > 4, sólo se usan los primeros cuatro caracteres.

29.9  Ejemplos

Ejemplo 1. Análisis de clasificación múltiple con cuatro variables de control (predictores): V7, V9, V12, V13 y la variable dependiente V100; se harán análisis separados en todo el dataset y en dos subconjuntos de casos.


     $RUN MCA
     $FILES
     PRINT  = MCA1.LST
     DICTIN = STUDY.DIC            archivo Diccionario de entrada
     DATAIN = STUDY.DAT            archivo Datos de entrada
     $SETUP
     TODOS LOS ENCUESTADOS JUNTOS
     *                       (valores por defecto para todos los parámetros)
     DEPV=V100  CONV=(V7,V9,V12-V13)
     $RUN MCA
     $SETUP
     INCLUDE V4=21,31-39
     SOLO CIENTIFICOS
     *                       (valores por defecto para todos los parámetros)
     DEPV=V100  CONV=(V7,V9,V12-V13)
     $RUN MCA
     $SETUP
     INCLUDE V4=41-49
     SOLO TECNICOS
     *                       (valores por defecto para todos los parámetros)
     DEPV=V100  CONV=(V7,V9,V12-V13)
 
Ejemplo 2. Análisis de clasificación múltiple con la variable dependiente V201 y tres variables de predicción V101, V102, V107; los datos se van a ponderar con la variable V6; se producirá un dataset de residuos en el cual los casos se identificarán con la variable V2; se excluirán los casos con valores extremos de la variable dependiente (casos excéntricos que estén a más de cuatro desviaciones estándar desde la gran media). Los residuos para los primeros 20 casos se imprimirán con el programa LIST.

     $RUN MCA
     $FILES
     PRINT   = MCA2.LST
     DICTIN  = LAB.DIC             archivo Diccionario de entrada
     DATAIN  = LAB.DAT             archivo Datos de entrada
     DICTOUT = LABRES.DIC          archivo Diccionario de residuos
     DATAOUT = LABRES.DAT          archivo Datos de residuos
     $SETUP
     ANALISIS DE CLASIFICACION MULTIPLE  -  RESIDUOS VAN A UN ARCHIVO DE SALIDA
     *                       (valores por defecto para todos los parámetros)
     DEPV=V201  OUTL=EXCL  OUTD=4  IDVA=V2  WRITE=RESI  -
        CONV=(V101,V102,V107)  WEIGHT=V6
     $RUN LIST
     $SETUP
     LISTADO DEL PRINCIPIO DEL ARCHIVO DE RESIDUOS
     MAXCASES=20  INFILE=OUT
 
Ejemplo 3. Para una variable dependiente V52, se van a verificar las interacciones entre tres variables (V7, V9, V12). V7 se codifica 1,2,9, V9 se codifica 1,3,5,9 y V12 se codifica 0,1,9 donde los dígitos 9 significan valores de datos faltantes. Se construye, con Recode, una sola variable de combinación. Esto implica la recodificación de cada variable a un conjunto de códigos contiguos que comienza desde cero y luego se usa la función COMBINE para producir un código único para cada combinación posible de códigos de las tres variables separadas. Se ejecuta MCA con las tres variables separadas como predictores y se lleva a cabo un análisis de variancia de una entrada, con la variable de combinación como variable de control. Se excluyen los casos con datos faltantes en los predictores. Los casos con valores mayores de 90000 en la variable dependiente, también se excluyen.


     $RUN MCA
     $FILES
     DICTIN = CON.DIC              archivo Diccionario de entrada
     DATAIN = CON.DAT              archivo Datos de entrada
     $SETUP
     EXCLUDE V7=9 OR V9=9 OR V12=9
     VERIFICACION DE INTERACCIONES
     BADD=SKIP
     DEPV=(V52,90000)  CONVARS=(V7,V9,V12)
     DEPV=(V52,90000)  CONVARS=R1
     $RECODE
        R7=V7-1
        R9=BRAC(V9,1=0,3=1,5=2)
        R1=COMBINE R7(2),R9(3),V12(2)