Introducción

1    Introducción

IDAMS es un paquete de programas para la validación, manejo y análisis estadístico de datos. Consiste en un grupo de programas y facilidades que usan el mismo ambiente de manera que un solo lenguaje permite el acceso a las diferentes funciones en todos los programas. Ejemplos del tipo de datos que se pueden procesar con IDAMS son: respuestas a las preguntas de una encuesta, información acerca de los libros en una biblioteca. características personales y desempeño de los alumnos en una escuela, medidas de un experimento científico. La característica que tienen en común estos datos es que consisten en valores de variables para cada una de las colecciones de objetos/casos (por ej. en una encuesta, las preguntas corresponden a las variables y los encuestados a los casos).

Existen numerosos paquetes y programas que ayudan al análisis estadístico de tales datos. Una característica especial de IDAMS es que también suministra facilidades para hacer una validación extensa de los datos (por ej. verificación de códigos y de consistencia) antes del análisis. En lo que concierne al análisis, IDAMS realiza técnicas clásicas tales como construcción de tablas, análisis de regresión, análisis de variancia de una entrada, análisis de discriminación y conglomerados y también algunas técnicas más avanzadas tales como análisis factorial de componentes principales, análisis factorial de correspondencias, cálculo de puntajes basados en el orden parcial de casos, ordenamiento de alternativas, segmentación y tipología iterativa. Además, la versión de IDAMS para Windows (WinIDAMS) ofrece los componentes interactivos para construcción de tablas multidimensionales, exploración gráfica de datos y análisis de series de tiempo.

1.1  Interfaz del Usuario de WinIDAMS

Es una interfaz de documento múltiple (MDI). Permite trabajar simultáneamente con diferentes tipos de documentos en ventanas separadas.

Esta Interfaz suministra lo siguiente:


1.2  Facilidades para el manejo de datos

Agrupación de datos (AGGREG). Permite agrupar en un solo registro los registros que vienen de varios casos y produce a la salida un nuevo dataset con un registro por grupo, por ejemplo los miembros de una familia se reagrupan en un registro que representa la familia. Las variables en el nuevo registro son estadísticas de resumen de variables específicas de los registros individuales, por ej. la suma, media, valor mínimo/máximo.

Construcción de un dataset IDAMS (BUILD). Lee un archivo de datos primarios (que puede tener múltiples registros por caso) junto con un diccionario que describe las variables que se van a seleccionar. BUILD verifica la presencia de valores no numéricos en campos numéricos; los campos en blanco se pueden recodificar a valores numéricos especificados por el usuario y otros no numéricos se reportan y reemplazan con nueves. La salida es un dataset IDAMS que comprende un archivo Datos con un sólo registro por caso y un diccionario asociado que describe cada campo en los registros de datos.

Verificación de códigos (CHECK). Reporta casos que tengan valores inválidos en las variables. Los códigos válidos para cada variable los especifica el usuario y se toman del diccionario.

Verificación de consistencia (CONCHECK). Reporta casos con inconsistencias entre dos o más variables. Las proposiciones de Recode de IDAMS se utilizan para especificar las relaciones lógicas a verificar.

Verificación de intercalación de registros (MERCHECK). Verifica que estén presentes los registros correctos para cada caso en un archivo de múltiples registros por caso. Produce un archivo de salida que tiene un número igual de registros por caso. Se pueden eliminar registros inválidos o duplicados y se pueden insertar registros faltantes con códigos de valores faltantes especificados por el usuario.

Corrección de datos (CORRECT). Actualiza un archivo al aplicar correcciones a valores individuales de variables para casos especificados. El archivo Resultados contiene un informe escrito con la historia de las correcciones y estas se pueden archivar.

Importación/exportación de datos (IMPEX). La importación tiene por objeto crear datasets o matrices de IDAMS a partir de archivos que vienen de otro programa. La exportación pretende hacer posible el uso de archivos Datos y Matrices, almacenados o creados por IDAMS, en otros paquetes. Se pueden importar/exportar archivos de texto en formato libre y en formato DIF.

Listado de datasets (LIST). Se pueden listar los valores de variables seleccionadas (originales o recodificadas) y casos seleccionados en formato de columnas.

Intercalación de datasets (MERGE). Se pueden intercalar dos datasets emparejando casos de acuerdo con un conjunto común de variables llamadas variables de emparejamiento. Hay cuatro opciones para seleccionar casos en el dataset de salida: (1) sólo casos presentes en ambos archivos (intersección); (2) cada caso en ambos archivos (unión); (3) cada caso en el primer archivo; (4) cada caso en el segundo archivo. El usuario especifica cuales variables de cada uno de los dos archivos de entrada van a la salida. Existe una opción para encajar un caso de un archivo con más de un caso del segundo archivo, por ej. para añadir datos de hogares de un archivo al registro de cada individuo en un segundo archivo.

Clasificación e intercalación de archivos (SORMER). Es un utilitario de uso general para clasificar datos en forma ascendente o descendente hasta por 12 campos de clasificación. Se pueden intercalar hasta 16 archivos.

Subdivisión de datasets (SUBSET). Produce un nuevo dataset (archivos Datos y Diccionario) con casos y variables seleccionados del dataset de entrada. Tiene una opción para verificar casos duplicados.

Transformación de datos (TRANS). Este programa se usa para guardar las variables creadas por la facilidad Recode de IDAMS en un dataset permanente.


1.3  Facilidades para el análisis de datos

Análisis de conglomerados (CLUSFIND). Ejecuta análisis de conglomerados dividiendo un conjunto de objetos (casos o variables) en un conjunto de conglomerados determinado por uno de 6 algoritmos, 2 basados en la división alrededor de medoides, 1 basado en la lógica difusa y los otros 3 basados en una conglomeración jerárquica.

Análisis de configuración (CONFIG). Ejecuta análisis sobre una configuración de entrada, creada por ejemplo con el programa MDSCAL. Tiene la capacidad de centrar, normalizar, rotar, trasladar dimensiones, calcular distancias entre puntos y productos escalares. Se puede graficar la configuración después de cada transformación.

Análisis discriminatorio (DISCRAN). Busca la mejor función lineal de discriminación de un conjunto de variables que produce, hasta donde sea posible, una agrupación a priori de los casos. Utiliza un procedimiento por pasos, es decir, en cada paso entra la variable más poderosa. El programa distingue tres muestras de casos: la muestra básica sobre la cual se hacen los análisis discriminatorios principales, muestra de prueba sobre la cual se verifica la potencia de la función de discriminación y muestra anónima que se usa sólo para clasificar los casos. Se pueden guardar en un dataset la última asignación de grupos a los casos y valores de los dos primeros factores discriminatorios (para análisis con más de 2 grupos).

Funciones de distribución y de Lorenz (QUANTILE). Funciones de distribución con 2 a 100 subintervalos, funciones de Lorenz, curva de Lorenz y coeficientes de Gini, y la prueba de Kolmogorov-Smirnov.

Análisis factorial (FACTOR). Consiste en un conjunto de análisis factoriales de componentes principales (productos escalares, covariancias, correlaciones) y análisis factorial de correspondencias. Para cada análisis construye una matriz que representa las relaciones entre las variables y calcula sus valores propios y vectores propios. Calcula los factores para los casos y las variables dando para cada caso y cada variable su ordenada, su calidad de representación y su contribución a los factores. Estos factores se pueden guardar en el dataset y se puede obtener una representación gráfica de casos y variables en el espacio factorial. El programa distingue entre casos y variables activas y pasivas.

Regresión lineal (REGRESSN). Suministra una capacidad general de regresión múltiple para análisis de regresión lineal estándar y por pasos. Se puede usar un dataset o una matriz de correlación como entrada. Se pueden imprimir residuos con la estadística de Durbin-Watson para su correlación de primer orden, y también puede llevarse al archivo de salida, por ej. para análisis posteriores.

Escalamiento multidimensional (MDSCAL). Este es un procedimiento de escalamiento multidimensional no métrico para el análisis de similitudes. Opera sobre una matriz de medidas de similitud o disimilitud y está diseñado para hallar la mejor representación geométrica de los datos. El usuario controla la dimensión de la configuración, la métrica usada y la manera de manejar las ataduras (valores iguales) en los datos de entrada.

Análisis de clasificación múltiple (MCA). Examina las relaciones entre varias variables predictoras (control) y una sola variable dependiente y determina el efecto de cada predictor antes y después del ajuste de sus intercorrelaciones con otros predictores. Suministra información de las relaciones bivariadas y multivariadas entre predictores y la variable dependiente. Se pueden imprimir los residuos y llevarlos a un dataset.

Análisis de variancia multivariado (MANOVA). Ejecuta análisis de variancia univariado y multivariado, y análisis de covariancia, usando un modelo general lineal. Se pueden usar hasta ocho factores (variables dependientes). Cuando hay más de una variable dependiente, se ejecutan ambos análisis univariado y multivariado. El programa aplica una solución exacta con un nombre igual o diferente de casos en las celdas.

Análisis de variancia de una entrada (ONEWAY). Estadísticas descriptivas dentro de las categorías de la variable de control y estadísticas de análisis de variancia de una entrada tales como: suma total de cuadrados, suma de cuadrados entre medias, suma de cuadrados dentro grupos, eta y eta cuadrada (no ajustada y ajustada) y el valor de la prueba F.

Puntajes basados en el orden parcial de casos (POSCOR). Calcula puntajes de escala ordinales a partir de variables de intervalos u ordinales. Se calculan los puntajes para cada caso involucrado en el análisis y miden la posición relativa del caso dentro del conjunto de los mismos. Los puntajes, opcionalmente con otras variables especificadas por el usuario, salen en la forma de un dataset IDAMS.

Correlación de Pearson (PEARSON). Calcula los coeficientes r de correlación de Pearson, covariancias y coeficientes de regresión. Se puede solicitar eliminación de datos faltantes por parejas o por casos. Las matrices de correlación y de covariancias de salida se pueden guardar en un archivo.

Ordenamiento de alternativas (RANK). Determina un orden de alternativas por rangos usando datos preferenciales y tres procedimientos diferentes de asignación de rangos, uno basado en la lógica clásica y otros dos basados en la lógica difusa. Los datos preferenciales pueden representar una selección o un rango de alternativas. Se pueden especificar dos tipos de relaciones individuales preferenciales: débil y estricta. Con la asignación difusa de rangos, los datos determinan completamente los resultados obtenidos mientras que con la asignación clásica el usuario tiene la posibilidad de controlar los cálculos.

Diagramas de dispersión (SCAT). Diagramas de dispersión, estadísticas univariadas (media, desviación estándar y N), estadísticas bivariadas (r de Pearson y estadísticas de regresión: coeficiente B y constante A).

Búsqueda de estructura (SEARCH). Un procedimiento de segmentación binaria para desarrollar modelos predictivos. La pregunta "qué dicotomía y en que variable predictora se obtendrá el máximo aprovechamiento de la capacidad para predecir valores de la variable dependiente" dentro de un esquema iterativo, es la base del algoritmo usado.

Tablas univariadas y bivariadas (TABLES). Las opciones incluyen: (1) distributiones de frecuencia univariadas simples y acumulativas y de porcentajes; (2) estadísticas univariadas: media, mediana, moda, variancia, desviación estándar, asimetría, kurtosis, mínimo y máximo; (3) tablas de frecuencias bivariadas con porcentajes por fila, columna y total; (4) tablas de valores medios de una variable adicional; (5) estadísticas bivariadas: pruebas-t de medias entre pares de filas, Ji-cuadrada, coeficiente de contingencia, V de Cramer, Tau a, b, c de Kendall, Gama, Lambda, Ro de Spearman, estadísticas para la medicina basada en evidencia, y tres pruebas no parámetricas: Wilcoxon, Mann-Whitney y Fisher.

Tipología y clasificación ascendente (TYPOL). Crea una variable de clasificación como el resumen de un gran número de variables cuantitativas y cualitativas. El usuario escoge el número inicial y final de grupos, el tipo de distancia usada y la manera de comenzar la tipología inicial. Los grupos de la tipología inicial se estabilizan con un procedimiento iterativo. El número de grupos se puede reducir con un algoritmo de clasificación jerárquica ascendente. El programa distingue entre variables activas que participan en la construcción de la tipología y variables pasivas para las cuales se calculan las estadísticas principales dentro de los grupos de la tipología.

Tablas interactivas multidimensionales. El componente "Tablas multidimensionales" permite visualizar y personalizar tablas con frecuencias, porcentajes de fila, de columna y totales, estadísticas univariadas (suma, conteo, media, máximo, mínimo, variancia, desviación estádar) de variables adicionales y estadísticas bivariadas. Se pueden anidar hasta siete variables en filas y columnas. Se puede repetir la construcción de tablas para cada valor hasta tres variables de "página". También se pueden imprimir las tablas o exportarlas en formato libre (coma o carácter de tabulación como delimitador) o en formato HTML.

Exploración gráfica interactiva de los datos. Un componente separado, GraphID, está disponible en WinIDAMS para explorar datos a través de despliegues gráficos. El despliegue básico se encuentra en la forma de gráficos de dispersión múltiple para diferentes pares de variables. Se puede graficar información adicional tal como histogramas y líneas de regresión. Los gráficos se pueden manejar de varias maneras. Por ejemplo, se pueden marcar en un gráfico casos seleccionados y luego resaltarlos en todos los otros gráficos. Se pueden aumentar partes del gráfico ("zoom"). Las matrices de IDAMS se muestran como gráficos de tres dimensiones en los cuales se representan las variables/los códigos en dos de los ejes y la tercera dimensión se usa para mostrar el tamaño de la estadísitica en la matriz (por ej. coeficiente de correlación) para cada par de variables.

Análisis interactivo de series de tiempo. Otro componente separado, TimeSID, suministra la posibilidad de análisis interactivo de series de tiempo. Contiene análisis de tendencias, correlaciones auto y cruzadas, análisis gráfico y estadístico de los valores de las series de tiempo, pruebas de aleatoriedad y tendencia, predicción a corto plazo, periodogramas y estimación de densidades espectrales. Las series se pueden transformar calculando promedios, composiciones aritméticas, diferencias secuenciales, razones de cambio, se pueden suavizar con promedios móviles y se pueden descomponer usando filtros de frecuancia.


1.4  Los datos en IDAMS

Dataset IDAMS - el archivo Datos. El archivo de entrada a IDAMS puede ser cualquier archivo de caracteres (ASCII) de formato fijo, es decir, los valores de una variable ocupan la misma posición en el registro para cada caso. Las caracerísticas del archivo Datos son:

Dataset IDAMS - el archivo Diccionario. El diccionario se usa para describir los datos:

El conjunto de los dos archivos Diccionario y Datos se conoce como dataset IDAMS .

Matrices IDAMS. Algunos programas de análisis utilizan como entrada una matriz de valores rectangular o cuadrada en lugar de un archivo de datos primarios.

La matriz cuadrada se usa para arreglos simétricos de estadísticas bivariadas con una constante en la diagonal. Solamente se guarda la esquina superior derecha de la matriz, sin la diagonal.

La matriz rectangular es para arreglos no simétricos. El significado de filas y columnas varía según el programa de IDAMS.

1.5  Comandos de IDAMS y el archivo Setup

Excepto los componentes interactivos de WinIDAMS, la ejecución de un programa de IDAMS comienza con un archivo Setup. Contiene información tal como especificación de archivos, proposiciones de control de programa, instrucciones de recodificación de variables, etc. separadas por comandos de IDAMS (comienzan con un signo $) los cuales identifican la clase de información que se especifica. El primer comando de IDAMS en el archivo Setup identifica siempre el primer programa que se va a ejecutar, por ej.


     $RUN TABLES
     $FILES
     DICTIN = nombre del archivo Diccionario
     DATAIN = nombre del archivo Datos
     $SETUP
         proposiciones de control para el programa TABLES
     $RECODE
         proposiciones de transformación de variables

1.6  Características estándar de IDAMS

Selección de casos. Por defecto, en una ejecución de un programa de IDAMS se procesan todos los casos de un archivo Datos. Para escoger un subconjunto, se incluye una proposición de filtro en el setup, por ej. INCLUDE V3=1 (incluir sólo aquellos casos para los cuales la variable 3 es igual a 1).

Selección de variables. Las variables son referidas por sus números de variable asignados en el diccionario. Se especifica un conjunto de variables en una lista de variables que sigue a continuación de palabras clave tales como VARS, CONVARS, OUTVARS. Tales listas de variables también pueden incluir variables R construidas con la facilidad Recode de IDAMS (ver más adelante) por ej. VARS=(V3-V6,V129,R100,R101).

Transformación/recodificación de datos. Es una poderosa herramienta de recodificación que permite asignar nuevos códigos y construir nuevas variables. Las instrucciones de recodificación las escribe el usuario en el lenguaje Recode de IDAMS. Incluye la posibilidad de hacer cálculos aritméticos así como también el uso de varias funciones especiales para operaciones tales como agrupamiento de variables, creación de variables "ficticias", etc. También se permiten proposiciones condicionales. Los siguientes son ejemplos de proposiciones de Recode para construir tres nuevas variables R100, R101, R102:


     R100=V4+V5
     R101=BRAC(V10,0-15=1,16-60=2,60-98=3,99=9)
     IF (MDATA(V3,V4) OR V4 EQ 0) THEN R102=99 ELSE R102=V3*100/V4
Las variables R así construidas para cada caso se pueden usar temporalmente en el programa que se está ejecutando o se pueden guardar en un dataset con el programa TRANS.

Ponderación de datos. Cuando se usan procedimentos complejos de muestreo durante la recolección de datos, puede ser necesario usar diferentes ponderaciones de los casos durante el análisis. Tales ponderaciones se guardan como una variable en el archivo Datos. Se utiliza entonces el parámetro WEIGHT para invocar la ponderación en las proposiciones de control del programa, por ej. WEIGHT=V5.

Tratamiento de datos faltantes y datos "malos" . Se pueden identificar valores especiales como códigos de datos faltantes para cada variable numérica y guardarlos en el diccionario. Durante el procesamiento de los datos, el manejo de datos faltantes se hace con dos parámetros:

Normalmente se supone que los datos se han depurado antes del análisis. Si no es éste el caso entonces se dispone del parámetro BADDATA para omitir casos con valores no numéricos o con valores en blanco en campos numéricos o para tratar esos valores como datos faltantes.


1.7  Importación y exportación de datos

IDAMS no utiliza formatos internos especiales para almacenar los datos. Cualquier archivo de caracteres ASCII de formato fijo puede ser descrito con un diccionario IDAMS y luego ser leído por IDAMS. Por el contrario, los datos en formato libre separados con Tab, coma o punto y coma se pueden importar a través de la Interfaz del Usuario de WinIDAMS. Aun más, el programa IMPEX permite crear datos de IDAMS de formato fijo a partir de un archivo de texto en cualquier formato libre o en formato DIF.

Los datos creados por IDAMS son siempre archivos de caracteres de formato fijo. Los archivos pueden entrar directamente a otro programa junto con la información descriptiva apropiada para dicho programa. Los datos en formato libre separados con Tab, coma o punto y coma se pueden obtener a través de la Interfaz del Usuario de WinIDAMS. Aun más, el programa IMPEX permite a exportar un archivo IDAMS de formato fijo como archivo de texto en formato libre o formato DIF.

Las matrices IDAMS se guardan en un formato específico de IDAMS (descrito en el capítulo "Los datos en IDAMS"). Se puede usar el programa IMPEX para importar/exportar matrices con formato libre.


1.8  Intercambio de datos entre CDS/ISIS e IDAMS

Hay un programa separado, WinIDIS, el cual prepara la descripción de los datos y hace la transferencia de los mismos entre IDAMS y CDS/ISIS (programas de UNESCO para el manejo de bases de datos y recuperación de información). La transferencia es controlada por los archivos de descripción de datos de IDAMS e ISIS (el diccionario IDAMS y la tabla de definición de campos de CDS/ISIS). Para ir de ISIS a IDAMS siempre se construyen nuevos archivos de diccionario y de datos y se pueden intercalar con otros datos usando las facilidades de manejo de datos de IDAMS. Para ir de IDAMS a ISIS, hay tres posibilidades: (1) se puede construir una base de datos completamente nueva, (2) se pueden añadir los registros transferidos a una base de datos existente como nuevos registros de la base de datos, (3) se pueden actualizar los registros de una base de datos existente con los datos transferidos.


1.9  Estructura de este Manual

Todas las características generales de IDAMS, incluida la facilidad Recode, se describen en la Parte 1 de este Manual.

La Parte 2 incluye las instrucciones de instalación, la descripción de archivos y carpetas usadas en WinIDAMS, una sección titulada "Primeros pasos" la cual lleva al usuario a través de los pasos requeridos para hacer una ejecución de IDAMS y la descripción de la Interfaz del Usuario de WinIDAMS.

En las Partes 3 y 4 se dan descripciones detalladas de cada programa IDAMS. Estas documentaciones contiene las secciones siguientes:

    Descripción general. Una descripción del propósito principal del programa.

    Características estándar de IDAMS. Descripción de las posibilidades de selección de casos y de variables, transformación de datos, capacidad de ponderación y manejo de datos faltantes.

    Resultados. Detalles de los resultados destinados a ser impresos (o revisados en pantalla).

    Descripción de archivos de salida y entrada. Una sección para cada dataset de IDAMS, cada matriz y cualquier otro archivo de entrada o salida diferente, que proporciona una descripción de su contenido.

    Estructura del setup. Una designación de las definiciones de archivos, comandos de IDAMS y proposiciones de control necesarias para ejecutar el programa.

    Proposiciones de control del programa. Los parámetros y formatos de cada una de las proposiciones de control del programa con un ejemplo para cada tipo.

    Restricciones. Un resumen de las limitaciones del programa.

    Ejemplos. Ejemplos de conjuntos completos de proposiciones de control para ejecutar el programa.

La Parte 5 suministra una descripción de los componentes interactivos de IDAMS para la construcción de tablas multidimensionales, para la exploración gráfica de los datos y para el análisis de series de tiempo.

En la Parte 6 se pueden encontrar detalles de técnicas estadísticas, fórmulas y referencias bibliográficas de los programas de análisis.

Finalmente, los errores generados por los programas de IDAMS se resumen en el Apéndice.