Agrupación de datos (AGGREG)

10    Agrupación de datos (AGGREG)


10.1  Descripción general

AGGREG reune registros individuales (casos) en grupos definidos por el usuario y calcula las estadísticas descriptivas de resumen para variables especificadas en cada grupo. Las estadísticas incluyen sumas, medias, variancias, desviaciones estándar, así como valores máximos y mínimos y el conteo de datos no faltantes. Se crea un dataset IDAMS como salida, es decir, el archivo de datos agrupado (agregado) y descrito por un diccionario IDAMS; el archivo de datos agrupados, contiene un registro (caso) por grupo con variables que son el resumen a nivel de grupo de cada una de las variables de entrada seleccionadas.

En el capítulo "Tablas univariadas y bivariadas" de la parte "Fórmulas estadísticas y referencias bibliográficas" se pueden encontrar fórmulas para calular media, variancia y desviación estándar. Sin embargo, deben ajustarse ya que los casos no están ponderados y el coeficiente N/(N-1) no se usa en el cálculo de la variancia y desviación estándar de la muestra. Nótese que las estadísticas se seleccionan para el conjunto total de variables agrupadas. De esta manera, si hay 2 variables agrupadas y tres estadísticas seleccionadas, entonces habrá 6 variables calculadas.

AGGREG le permite al usuario cambiar el nivel de agrupación de datos, por ejemplo, de miembros de una familia a nivel de hogares o de distrito a nivel regional, etc. Por ejemplo, supongamos que un archivo de datos contiene registros de cada individuo de un hogar y queremos analizar estos datos a nivel de hogares. AGGREG nos permite agrupar valores de las variables de registros individuales de cada hogar para crear un archivo de registros a nivel de hogares para análisis posteriores. Para ser más específicos, si el archivo de datos a nivel de individuos tiene una variable que nos da el ingreso personal, AGGREG podría crear registros a nivel de hogares con una variable que describa el ingreso total por hogar.

Agrupamiento de datos. El usuario especifica hasta 20 variables de definición de grupos (variables de identificación) que determinan el nivel de agrupamiento del archivo de salida. Por ejemplo, si se quieren agrupar datos a nivel de miembros de una familia a nivel de hogares, entonces una variable que identifique el hogar sería la variable de definición de grupo. Cada vez que AGGREG lee un registro de entrada, busca cambios en cualquiera de las variables de identificación. Cuando se encuentra un cambio, se produce un registro de salida que contiene estadísticas de resumen, calculadas con las variables agrupadas especificadas para el grupo de registros que se acaban de procesar.

Inserción de constantes dentro de los registros de grupo. Se pueden insertar constantes dentro de cada registro de grupo con los parámetros PAD1, ... , PAD5, los cuales especifican las llamadas variables pad. El valor de una variable pad es una constante.

Transferencia de variables. Se pueden transferir variables a los registros de salida. Nótese que solamente los valores del primer caso dentro del grupo son transferidos.


10.2  Características estándar de IDAMS

Selección de casos y variables. El filtro estándar está disponible para escoger un subconjunto de casos a partir de los datos de entrada. Con los parámetros, se especifican las variables de identificación que definen los grupos y las variables a ser agrupadas. Las variables de identificación se incluyen automáticamente en el dataset de salida.

Transformación de datos. Se pueden usar las proposiciones de Recode.

Tratamiento de datos faltantes. El valor de cada variable agrupada se compara con ambos códigos de datos faltantes y si se detecta que se trata de un valor faltante, se excluye automáticamente de los cálculos. Un porcentaje suministrado por el usuario, el "punto de corte" (ver el parámetro CUTOFF), determina el número de datos faltantes permitido antes de producir el valor de resumen como un código de datos faltantes. Por ejemplo, supongamos que se quiere calcular la media de una variable agrupada dentro de un grupo y éste contiene 12 registros, 6 de los cuales tienen datos faltantes, es decir, el 50%. Si el valor de CUTOFF es 75%, se calcula la media de los 6 datos no faltantes y ésta es la salida para el grupo. Si el valor de CUTOFF es de 25%, entonces no se calcula la media y se produce como salida el primer código de datos faltantes.


10.3  Resultados

Resumen de datos faltantes. (Opcional: ver el parámetro PRINT). Para cada variable en cada grupo, se imprime: el número de la variable de entrada, el número de la variable de salida, el número de registros con datos no faltantes y el porcentaje de registros con datos faltantes.

Resumen de grupos. (Opcional: ver el parámetro PRINT). El número de registros de entrada para cada grupo.

Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C si los hay, sólo para las variables usadas en la ejecución.

Diccionario de salida. (Opcional: ver el parámetro PRINT).

Estadísticas generadas. (Opcional: ver el parámetro PRINT). Se pueden imprimir todas las variables calculadas para cada registro agrupado. También se dan el número de variable de la correspondiente variable agrupada y las variables de identificación.

10.4  Dataset de salida

El dataset de los datos agrupados en la salida es un archivo Datos descrito por un diccionario IDAMS. Cada registro contiene valores de las variables de identificación, de las variables calculadas, de las variables transferidas y de las constantes pad; se produce un registro para cada grupo.

Orden y numeración de variables. Las variables de salida se encuentran en el mismo orden relativo de las variables de entrada a partir de las cuales fueron derivadas, sin importar si la variable de entrada se usó como variable de identificación, variable a ser agrupada o variable a ser transferida. De esta manera, si se utiliza la primera variable de entrada, la variable o variables que se deriven de ella, serán la primera o primeras variables de salida. Cada variable de entrada que se use como variable de identificación o variable a ser transferida, corresponde a una variable de salida; cada variable agrupada corresponde a 1-7 variables de salida, según el número de estadísticas de resumen solicitadas (estas variables salen en el orden relativo: suma, media, variancia, desviación estándar, conteo, mínimo, máximo). Las variables de salida son siempre renumeradas, a partir del número suministrado en el parámetro VSTART. Las constantes pad siempre van al final.

Nombres de variable. Las variables de salida tienen los mismos nombres de las variables de entrada de las cuales se derivaron, con la excepción de que para las variables agrupadas se codifican los caracteres 23 y 24 del campo del nombre:

S = suma
M = media
V = variancia
D = desviación estándar
CT = conteo
MN = mínimo
MX = máximo.

Las constantes pad, tienen los nombres de variable "Pad variable 1", "Pad variable 2", etc.

Tipo de variable. Las variables de identificación y las variables transferidas salen con el mismo tipo de variable que la de entrada. Las variables calculadas son siempre numéricas.

Ancho de campo y número de decimales. El ancho de campo de las variables agrupadas de salida depende de las estadísticas, el ancho de campo de entrada (FW), el número de cifras decimales de entrada (ND) y las cifras decimales extra, solicitadas por el usuario en el parámetro DEC. Los anchos de campo y el número de cifras decimales, se asignan de la manera mostrada a continuación, donde FW=ancho del campo de entrada y ND=número de cifras decimales de entrada para las variables de entrada, y FW=6 y ND=0 para las variables que vienen de Recode.

Estadística Ancho de campo Cifras decimales
SUMA FW + 3 * ND
MEDIA FW + DEC ** ND + DEC ***
VARIANCIA FW + DEC ** ND + DEC ***
DESVIACION ESTÁNDAR FW + DEC ** ND + DEC ***
MÍNIMO FW ND
MÁXIMO FW ND
COUNTEO 4 0

*  
Si el ancho de campo pasa de 9, se reduce a 9.
**  
Si el ancho de campo pasa de 9, entonces el número de decimales extra se reduce igualmente.
***  
Si el número de decimales pasa de 9, entonces DEC se reduce de la misma manera.

Códigos de datos faltantes. Los códigos de datos faltantes para las variables de identificación y para las variables transferidas se toman del diccionario de entrada. El segundo código de datos faltantes (MD2) es siempre blancos para variables calculadas. El valor del primer código de datos faltantes (MD1) se asigna de la siguiente manera:

Variable de salida MD1 de salida
FW de salida <= 7 9's
FW de salida > 7 -999999
variable CONTEO 9999

Números de referencia. Las variables calculadas reciben un número de referencia igual al de su variable de base.

Registros C. Los registros C del diccionario de entrada se transfieren al diccionario de salida para las variables de identificación y para las variables transferidas.

Nota acerca del cálculo de las estadísticas. Antes de producir la salida, los valores calculados se redondean al ancho de campo y al número de cifras decimales calculadas. Si el valor calculado excede a 999999999 o es inferior a -99999999, entonces sale como 999999999.

10.5  Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Las variables de definición de grupo (identificadoras) y las variables a ser transferidas pueden ser numéricas o alfabéticas, aunque las variables numéricas se tratan como cadenas de caracteres, es decir, un valor de '044' es diferente de ' 44'. No pueden ser variables recodificadas. Las variables a ser agrupadas deben ser numéricas y pueden ser variables recodificadas.

El archivo se procesa secuencialmente y se reunen los registros contiguos que tengan el mismo valor para las variables identificadoras. De esta manera, el archivo de entrada debe clasificarse con las variables identificadoras como llave de clasificación antes de usar AGGREG. Notar que AGGREG no verifica el orden de clasificación de los registros del archivo de entrada.

10.6  Estructura del setup


     $RUN AGGREG
   
     $FILES
          Epecificación de archivos
 
     $RECODE (opcional)
          Proposiciones de Recode
 
     $SETUP
          1. Filtro (opcional)
          2. Título
          3. Parámetros
 
     $DICT (condicional)
          Diccionario

     $DATA (condicional)
          Datos 

     Archivos:
     DICTxxxx   diccionario de entrada (omitir si se usa $DICT)
     DATAxxxx   datos de entrada (omitir si se usa $DATA)
     DICTyyyy   diccionario de salida
     DATAyyyy   datos de salida
     PRINT      resultados (por defecto IDAMS.LST)

10.7  Proposiciones de control del programa

Referirse al capítulo "El archivo Setup de IDAMS" para una descripción más detallada de las proposiciones de control del programa, ítems 1-3, a continuación.

  1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
    
         Ejemplo:  INCLUDE V1=10,20,30,50 OR V10=90-300
    
  2. Título (mandatorio). Una línea que contenga hasta 80 caracteres para titular los resultados.
    
         Ejemplo:    REUNION DE DATOS PROFESOR/ESTUDIANTE
    
  3. Parámetros (mandatorio). Para seleccionar opciones del programa.
    
         Ejemplo:  IDVARS=(V1,V2) STATS=(SUM,VARI) DEC=3 AGGV=(V5-V10,V50-V75) PAD1=80
    
    INFILE=IN /xxxx
    Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
    Por defecto: DICTIN, DATAIN.

    BADDATA=STOP /SKIP/MD1/MD2

    Tratamiento de datos no numéricos. Ver el capítulo "El archivo Setup de IDAMS".

    MAXCASES=n

    Número máximo de casos (después de filtrar) a usar del archivo de entrada.
    Por defecto: se usan todos los casos.

    IDVARS=(lista de variables)

    Hasta 20 números de variable para definir los grupos. No se permiten variables R.
    Sin valor por defecto.

    AGGV=(lista de variables)

    Variables V o R para ser agrupadas.
    Sin valor por defecto.

    STATS=(SUM, MEAN, VARIANCE, SD, COUNT, MIN, MAX)

    Parámetros para escoger las estadísticas solicitadas (se debe seleccionar al menos una de: SUM, MEAN, VARIANCE, SD). Salen para cada grupo y para cada variable AGGV.
    SUM 
    La suma.
    MEAN 
    La media.
    VARI 
    La variancia.
    SD 
    La desviación estándar.
    COUN 
    El número de casos válidos.
    MIN 
    El valor mínimo.
    MAX 
    El valor máximo.

    SAMPLE /POPULATION

    SAMP 
    Calcular la variancia y/o la desviación estándar con la ecuación de muestra.
    POPU 
    Usar la ecuación de población.

    OUTFILE=OUT /yyyy

    Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
    Por defecto: DICTOUT, DATAOUT.

    VSTART=1 /n

    Número de variable para la primera variable en el dataset de salida.

    CUTOFF=100 /n

    Porcentaje de casos con códigos MD permitidos antes de producir la salida de un código MD. Un valor entero.

    DEC=2 /n

    Para las variables calculadas que involucren media, variancia o desviación estándar: número de cifras decimales adicionales a aquellas de las correspondientes variables de entrada (ver restricción 7).

    TRANSVARS=(lista de variables)

    Las variables cuyos valores, tal como aparezcan en el primer caso de cada grupo, se van a transferir al archivo de salida. No se permiten variables R.

    PAD1=constante
    PAD2=constante
    PAD3=constante
    PAD4=constante
    PAD5=constante

    Se pueden añadir hasta 5 constantes al dataset de salida. El número de caracteres dado, determina el ancho del campo de la constante PAD.

    PRINT=(MDTABLES, GROUPS, DATA, CDICT/DICT, OUTDICT /OUTCDICT/NOOUTDICT)

    MDTA 
    Imprimir una tabla que suministre el porcentaje de datos faltantes encontrado para cada variable agrupada en cada grupo.
    GROU 
    Imprimir el número de casos por grupo.
    DATA 
    Imprimir los valores de cada variable calculada en cada registro de grupo.
    CDIC 
    Imprimir el diccionario de entrada para las variables accedidas con registros C, si los hay.
    DICT 
    Imprimir el diccionario de entrada sin registros C.
    OUTD 
    Imprimir el diccionario de salida sin registros C.
    OUTC 
    Imprimir el diccionario de salida con registros C, si los hay.
    NOOU 
    No imprimir el diccionario de salida.

10.8  Restricciones

  1. Máximo número de variables a ser agrupadas es 400.
  2. Máximo número de variables de identificación es 20.
  3. Máximo número de caracteres en las variables de identificación es 180.
  4. Máximo número de variables a ser transferidas es 100.
  5. No se permiten variables recodificadas como IDVARS o TRANSVARS.
  6. La misma variable no pueden aparecer en dos listas de variables.

10.9  Ejemplo

Producir un dataset de salida que contenga un caso agrupado para cada valor único de V5 y V7; las variables en cada caso van a ser la suma, la media y la desviación estándar de 4 variables de entrada y 1 variable recodificada, agrupadas en los casos que forman el grupo (es decir, con los mismos valores de V5 y V7); los valores de V10 y de V11 para el primer caso de cada grupo van a transferirse a los registros de salida; se requiere un listado de los valores producidos para cada caso; en el archivo de salida, las variables se numerarán a partir del número 1001.


     $RUN AGGREG
     $FILES
     PRINT   = AGGR.LST                     
     DICTIN  = IND.DIC             archivo Diccionario de entrada
     DATAIN  = IND.DAT             archivo Datos de entrada
     DICTOUT = AGGR.DIC            archivo Diccionario de salida
     DATAOUT = AGGR.DAT            archivo Datos de salida
     $RECODE
         R100=COUNT(1,V20-V29)
         NAME R100'INDICE DE SALUD'
     $SETUP
     REUNION DE 4 VARIABLES DE ENTRADA Y UNA VARIABLE RECODIFICADA
     IDVARS=(V5,V7)  AGGV=(V31,V41-V43,R100)  STATS=(SUM, MEAN, SD)   -
        VSTART=1001  PRINT=DATA  TRANS=(V10,V11)