Análisis multivariado de variancia (MANOVA)

30    Análisis multivariado de variancia (MANOVA)


30.1  Descripción general

MANOVA hace análisis de variancia y covariancia univariado y multivariado, usando un modelo lineal general. Se pueden usar hasta ocho factores (variables independientes). Si se especifica más de una variable dependiente, se hacen análisis univariados y multivariados. El programa acepta números iguales y desiguales de casos en las celdas.

MANOVA es el único programa de IDAMS para análisis multivariado de variancia. Se recomienda ONEWAY para el análisis univariado de variancia. MCA maneja problemas univariados de múltiples factores. No tiene limitaciones con relación a celdas vacías, acepta más de ocho predictores y permite más de 80 celdas. Sin embargo, el modelo básico de análisis de MCA es diferente del de MANOVA. Una diferencia importante es que MCA no es sensible a los efectos de interacción.

Modelo jerárquico de regresión. MANOVA usa aproximación de la regresión al análisis de variancia. De manera más particular, el programa emplea un modelo jerárquico. Hay una consecuencia importante para el usuario: si una ejecución de MANOVA involucra más de una variable de factor y hay un número desproporcionado de casos en las celdas construidas por la clasificación cruzada de los factores, entonces se debe considerar el orden en el cual están especificadas las variables de factores. La desproporción de los números de casos en las subclases confunde los efectos principales y el investigador debe escoger el orden en el cual se deben eliminar los efectos de confusión. Al usar MANOVA, esto se logra con el orden en el que se especifican las variables de factor: cuando se usa orden estándar, las primeras variables especificadas tienen los efectos de las variables retiradas más tarde, es decir, el primer efecto listado se probará con todos los otros efectos principales eliminados. La regla general es que cada prueba elimina los efectos listados antes en las especificaciones de nombre de prueba e ignora los efectos listados después. Para un análisis estándar de dos entradas, el término de interacción no se afecta con el orden de las variables de factor; de forma general, para un análisis estándar de n entradas, el término de la n-ésima interacción y sólo ese término, no es afectado. El problema existe para ambos análisis, unvariado y multivariado.

Opción de contraste. Hay dos opciones disponibles para definir los contrastes (ver el parámetro de factor CONTRAST). Los contrastes nominales se generan por defecto; son las desviaciones acostumbradas de las medias de fila y columna de la gran media y la generalización de las mismas para los contrastes de interacción. El programa también puede generar contrastes de Helmert.

Aumento de la suma de cuadrados dentro de las celdas. Es posible aumentar la suma de cuadrados dentro de las celdas (término de error) usando los estimativos ortogonales (ver el parámetro AUGMENT). Esto permite usar el programa para cuadrados Latinos y para reunir los términos de interacción con errores.

Reordenamiento y/o reunión de estimativos ortogonales. El programa tiene un ordenamiento convencional de estimativos de efectos ortogonales para uso estándar (media, C, B, A, BxC, AxC, AxB, AxBxC en diseño con tres factores). Sin embargo los estimativos ortogonales se pueden disponer en otro orden (ver el parámetro REORDER). Más aún, es posible reunir varios estimativos ortogonales tales como términos de interacción para pruebas simultáneas o fragmentar el cúmulo de estimativos ortogonales para un efecto dado en varios cúmulos más pequeños para hacer pruebas por separado (ver el parámetro de nombre de prueba DEGFR).


30.2  Características estándar de IDAMS

Selección de casos y variables. El filtro estándar está disponible para escoger casos para ejecución. Las variables dependientes se escogen con el parámetro DEPVARS y las covariadas con el parámetro COVARS. Las variables de factor se especifican con proposiciones especiales de factor.

Transformación de datos. Se pueden usar las proposiciones de Recode. Nótese que solamente se aceptan valores enteros (positivos y negativos) para las variables usadas como factor.

Ponderación de datos. No se aplica el uso de variables de ponderación.

Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores de datos faltantes, si los hay, se usarán para verificar datos faltantes. Se excluyen los casos con códigos de datos faltantes en cualquiera de las variables de entrada (dependientes, covariadas, o de factor). Esto puede resultar en muchos casos excluidos y constituye un problema potencial que debe considerarse cuando se planee el análisis.


30.3  Resultados

Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables usadas en la ejecución.

Medias de celda y enes (N). Para cada celda, se imprime N y la media para cada variable dependiente y cada variable covariada. Las medias no se ajustan para ninguna variable covariada. Las celdas se etiquetan consecutivamente comenzando con "1 1" (para un diseño con 2 factores) sin importar los códigos actuales de las variables de factor. Al indexar las celdas, los índices del último factor son los menores (de más rápido movimiento).

Basa de diseño. Es la matriz de diseño generada por el programa. Las ecuaciones de efectos están en las columnas comenzando con el efecto de la media en la columna 1. Si se ha especificado REORDER, se imprime la matriz después del reordenamiento.

Intercorrelaciones entre los coeficientes de las ecuaciones normales.

Matriz de correlación de errores. En un análisis multivariado de variancia, el término de error es una matriz variancia-covariancia. Este es el término de error reducido a una matriz de correlación (antes de ajustar para las variables covariadas, si las hay).

Componentes principales de la matriz de correlación de errores. Las componentes están en las columnas. Son las componentes del término de error del análisis (antes de ajustar para las variables covariadas, si las hay).

Matriz de dispersión de errores y errores estándar de estimación. Es el término de error del análisis, una matriz de variancia-covariancia. La matriz se ajusta para variables covariadas, si las hay. Cada elemento de la diagonal de la matriz es exactamente el que aparecería en una tabla de análisis convencional de variancia como el error interno cuadrático medio de la variable. Los grados de libertad se ajustan para aumento si se solicita. Los errores estándar de estimación corresponden a las raíces cuadradas de los elementos de la diagonal de la matriz.

Para análisis con variables covariadas

Matriz de dispersión de errores ajustada a las correlaciones. Es el término del error, una matriz de variancia-covariancia reducida a una matriz de correlación, después de ajustarla para variables covariadas.

Resumen del análisis de regresión.

Componentes principales de la matriz de correlación de errores después de ajustes de covariadas. Las componentes están en las columnas. Son las componentes del término de error del análisis después del ajuste para las variables covariadas.

Para análisis univariado

Una tabla anova. Grados de libertad, suma de cuadrados, medias cuadráticas y cocientes F.

Para análisis multivariado

Se imprimen los siguientes items para cada efecto. Se hacen ajustes para las variables covariadas, si las hay. El orden de los efectos es exactamente opuesto al orden de las especificaciones de nombre de prueba.

Cociente F para el criterio de razón de semejanza. Se usa aproximación de Rao. Es una prueba multivariada del significado del efecto global para todas las variables dependientes simultáneamente.

Variancias canónicas de las componentes principales de la hipótesis. Son las raíces o valores propios de la matriz de hipótesis.

Coeficientes de las componentes principales de la hipótesis. Son las correlaciones entre las variables y las componentes de la matriz de hipótesis. El número de componentes diferentes de cero para cualquier efecto será el mínimo de los grados de libertad y del número de variables dependientes.

Puntajes de contraste de componentes para efectos estimados. Son los puntajes de la hipótesis de contrastes usados en el diseño. Son análogos a las medias de columna en un análisis univariado de variancia y se pueden usar de la misma manera para ubicar variables y contrastes que producen desviaciones inusuales de la hipótesis nula.

Pruebas acumulativas de Bartlett sobre las raíces. Es una prueba aproximada para las raíces restantes después de eliminar la primera, la segunda, la tercera, etc.

Cocientes F para pruebas univariadas. Son exactamente los cocientes F que se obtendrían en un análisis convencional de variancia.


30.4  Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables deben ser numéricas. Las variables dependientes y covariadas deben medirse en escala de intervalo o deben ser una dicotomía. Las variables de factor pueden ser nominales, ordinales o intervalos pero deben tener valores enteros; se usan para designar la celda apropiada del caso.


30.5  Estructura del setup




     $RUN MANOVA

     $FILES
          Especificación de archivos

     $RECODE (opcional)
          Proposiciones de Recode

     $SETUP
          1. Filtro (opcional)
          2. Título
          3. Parámetros
          4. Especificaciones de factores
             (tantas como sean necesarias; al menos se debe suministrar un factor)
          5. Especificaciones de nombre de prueba
             (tantas como sean necesarias;
              al menos se debe suministrar un nombre de prueba)

     $DICT (condicional)
          Diccionario

     $DATA (condicional)
          Datos


     Archivos:
     DICTxxxx   diccionario de entrada (omitir si se usa $DICT)
     DATAxxxx   datos de entrada (omitir si se usa $DATA)
     PRINT      resultados (por defecto IDAMS.LST)


30.6  Proposiciones de control del programa

Referirse al capítulo "El archivo Setup de IDAMS" para una descripción más detallada de las proposiciones de control del programa, ítems 1-5, a continuación.

  1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
    
         Ejemplo:  INCLUDE V2=1-4 AND V15=2
    
  2. Título (mandatorio). Una línea que contenga hasta 80 caracteres para titular los resultados.
    
         Ejemplo:  ANALISIS DE EDAD Y SALARIO CON SEXO Y PROFESION COMO FACTORES
    
  3. Parámetros (mandatorio). Para seleccionar opciones del programa.
    
         Ejemplo:  DEPVARS=(V5,V8)  COVA=(V101,V102)
    
    INFILE=IN /xxxx
    Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
    Por defecto: DICTIN, DATAIN.

    BADDATA=STOP /SKIP/MD1/MD2

    Tratamiento de los datos no numéricos. Ver el capítulo "El archivo Setup de IDAMS".

    MAXCASES=n

    Número máximo de casos (después de filtrar) a usar del archivo de entrada.
    Por defecto: se usan todos los casos.

    MDVALUES=BOTH /MD1/MD2/NONE

    Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver el capítulo "El archivo Setup de IDAMS".

    DEPVARS=(lista de variables)

    Una lista de variables a usar como variables dependientes
    Sin valor por defecto.

    COVARS=(lista de variables)

    Una lista de variables para usar como covariadas.

    AUGMENT=(m,n)

    Para construir el término de error, la suma interna de cuadrados se aumentará por las columnas m, m+1, m+2,...,n de la matriz ortogonal de estimativos.
    Por defecto: la suma interna de cuadrados se usará como término de error.

    REORDER=(lista de valores)

    Reordena los estimativos ortogonales de acuerdo con la lista (ver parágrafo "Reordenamiento y/o reunión de estimativos ortogonales" atrás). Nótese que si se solicita el reordenamiento de estimativos, el orden de las especificaciones de nombre de prueba debe corresponder al nuevo orden.
    Ejemplo: el orden convencional de un diseño de tres factores se puede cambiar por el orden: media, A, B, C, AxB, AxC, BxC, AxBxC usando REORDER=(1,4,3,2,7,6,5,8).

    PRINT=CDICT/DICT

    CDIC 
    Imprimir el diccionario de entrada para las variables accedidas con registros C, si los hay.
    DICT 
    Imprimir el diccionario de entrada sin registros C.

  4. Especificaciones de factores (al menos se debe suministrar un factor). Se pueden especificar hasta 8 factores. Las reglas de codificación son las mismas de los parámetros. Cada especificación de factor debe comenzar en una nueva línea.
    
         Ejemplo:  FACTOR=(V3,1,2)
    
    FACTOR=(número de variable, lista de valores de código)
    Variable a usar como factor, seguida por los valores de código que se deben usar para designar la celda apropiada para el caso.

    CONTRAST=NOMINAL /HELMERT

    Especifica el tipo de contraste a usar en los cálculos.
    NOMI 
    Contrastes nominales. Medias de efectos desviadas de la gran media, i.e. M(1)-GM, M(2)-GM, etc.
    HELM 
    Contrastes de Helmer. Media de efecto desviada de la suma de medias desde 1 hasta r , donde están involucrados r niveles.

  5. Especificaciones de nombre de prueba (al menos se debe suministrar un nombre de prueba). Estas especificaciones identifican las pruebas que se deben realizar. Deben estar en el orden correcto. Ordinariamente, habrá una especificación para la gran media seguida de una especificación de nombre para cada efecto principal y una especificación de nombre para cada interacción posible. Si se reordenan los parámetros de diseño o se reagrupan los grados de libertad (ver los parámetros REORDER y DEGFR), las proposiciones de nombre de prueba deben hacerse de acuerdo con las modificaciones. Las reglas de codificación son las mismas de los parámetros. Cada especificación de nombre de prueba debe comenzar en una nueva línea.
    
         Ejemplo:  TESTNAME='gran media'
    
    TESTNAME='nombre de la prueba'
    Un nombre que tenga hasta 12 caracteres para la prueba que se va a realizar. Las comillas son mandatorias si el nombre tiene caracteres no alfanuméricos.

    DEGFR=n

    La agrupación natural de grados de libertad (o de ecuaciones de parámetros de hipótesis) se presenta cuando se usa el orden convencional de pruebas estadísticas. DEGFR se usa solamente para cambiar la agrupación; por ejemplo, cuando se quieren reunir varios términos de interacción y probarlos simultáneamente o para separar los grados de libertad de algún efecto en dos a más partes. Cuando se usa el parámetro DEGFR, asegúrese de usarlo en todos las proposiciones de nombre de prueba, incluido un grado de libertad para la gran media.
    Por defecto: se usa el agrupamiento natural de grados de libertad.


30.7  Restricciones

  1. El máximo número de variables dependientes es 19.
  2. El máximo número de covariadas es 20.
  3. El máximo número de especificaciones de factor es 8.
  4. El máximo número de valores de código en una especificación de factor es 10.
  5. El máximo número de celdas es 80.
  6. Celdas con cero frecuencias, o solamente con un caso o con múltiples casos idénticos a veces causan problemas; la ejecución puede terminar prematuramente o puede llegar hasta el final pero produce cocientes F y otras estadísticas inválidas.


30.8  Ejemplos

Ejemplo 1. Análisis univariado de variancia (V10 es la variables dependiente) con dos factores representados con A con códigos 1,2,3 y B con códigos 21 y 31; se usarán contrastes normales en los cálculos y se harán pruebas en el orden convencional.


     $RUN MANOVA
     $FILES
     PRINT   = MANOVA1.LST
     DICTIN  = CM-NEW.DIC                    archivo Diccionario de entrada
     DATAIN  = CM-NEW.DAT                    archivo Datos de entrada
     $SETUP
     ANALISIS UNIVARIADO DE VARIANCIA
     DEPVARS=v10
     FACTOR=(V3,1,2,3)
     FACTOR=(V8,21,31)
     TESTNAME='gran media'
     TESTNAME=B
     TESTNAME=A
     TESTNAME=AB

Ejemplo 2. Análisis multivariado de variancia (V11-V14 son variables dependientes) con dos factores ("sexo" codificado 1,2 y "edad" codificada 1,2,3); se usarán contrastes nominales en los cálculos y se harán pruebas en un orden convencional.

     $RUN MANOVA
     $FILES
          los mismos del ejemplo 1
     $SETUP
     ANALISIS MULTIVARIADO DE VARIANCIA
     DEPVARS=(v11-v14)
     FACTOR=(V2,1,2)
     FACTOR=(V5,1,2,3)
     TESTNAME='gran media'
     TESTNAME=edad
     TESTNAME=sexo
     TESTNAME='sexo & edad'

Ejemplo 3. Análisis multivariado de variancia (V11-V14 son variables dependientes) con tres factores (A codificado 1,2, B codificado 1,2,3, C codificado 1,2,3,4); se usarán contrastes nominales en los cálculos y se harán pruebas en orden modificado (media, A, B, AxB, C, AxC, BxC, AxBxC).

     $RUN MANOVA
     $FILES
          los mismos del ejemplo 1
     $SETUP
     ANALISIS MULTIVARIADO DE VARIANCIA - PRUEBAS EN ORDEN MODIFICADO
     DEPVARS=(v11-v14) REORDER=(1,4,3,7,2,6,5,8)
     FACTOR=(V2,1,2)
     FACTOR=(V5,1,2,3)
     FACTOR=(V8,1,2,3,4)
     TESTNAME=media
     TESTNAME=A
     TESTNAME=B
     TESTNAME=AxB
     TESTNAME=C
     TESTNAME=AxC
     TESTNAME=BxC
     TESTNAME=AxBxC