Análisis de conglomerados (CLUSFIND)

22    Análisis de conglomerados (CLUSFIND)


22.1  Descripción general

CLUSFIND hace análisis de conglomerados mediante la separatión de un conjunto de objetos (casos o variables) en un conjunto de conglomerados según se determina por uno de seis algoritmos: dos algoritmos basados en repartición alrededor de medoides, uno basado en conglomeración difusa y tres basados en conglomeración jerárquica.

22.2  Características estándar de IDAMS

Selección de casos y variables. Si entran datos primarios, se puede utilizar el filtro estándar para escoger un subconjunto de casos de los datos de entrada. Las variables para análisis se espcifican en el parámetro VARS.

Transformación de datos. Si entran datos primarios, se pueden usar las proposiciones de Recode.

Ponderación de datos. No se aplica el uso de variables de ponderación.

Tratamiento de datos faltantes. Si entran datos primarios, el parámetro MDVALUES está disponible para indicar cuales valores de datos faltantes, si los hay, se usarán para verificar datos faltantes. Los casos en los cuales hay datos faltantes para todas las variables se eliminan automáticamente. Si no, datos faltantes se eliminan por pares. Si los datos están estandarizados, el promedio y la desviación media absoluta se calculan usando sólo valores válidos. Cuando se calculan las distancias, sólo se consideran en la suma aquellas variables para las cuales hay valores válidos presentes para ambos objetos.

Si entra una matriz, el parámetro MDMATRIX está disponible para indicar qué valor se va a usar para verificar elementos inválidos en la matriz.

22.3  Resultados

Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.

Datos de entrada después de la estandarización. (Opcional: ver el parámetro PRINT). Los valores estandarizados para todos los casos para cada variable V o R usada en el análisis, precedidos de el promedio y la desviación absoluta media para estas variables.

Matriz de disimilitudes. (Opcional: ver el parámetro PRINT). El triángulo inferior izquierdo de la matriz, tal como se leyó o fué calculado por el programa.

Resultados del análisis PAM. Para cada número de conglomerados en turno (desde CMIN a CMAX) se imprime lo siguiente:

número de objetos representativos (conglomerados) y la distancia final promedio,
para cada conglomerado: identificador del objeto representativo, número de objetos y la lista de objetos que pertenecen a ese conglomerado,
coordenandas de los medoides (valores de la variables de análisis para cada objeto repersentativo; sólo para el dataset de entrada),
vector de conglomeración (un vector de números que corresponde a los objetos e indica a qué conglomerado pertenece cada objeto) y caracteristicas de conglomeración,
representación gráfica de los resultados, es decir, un gráfico de silueta para cada conglomerado (opcional - ver el parámetro PRINT).

Resultados del análisis FANNY. Para cada número de conglomerados en turno (desde CMIN a CMAX) se imprime lo siguiente:

número de conglomerados,
valor de la función objetivo en cada iteración,
para cada objeto, su identificador y el coeficiente de pertenencia para cada conglomerado,
coeficiente de partición de Dunn y su versión normalizada,
conglomeración dura más cercana, es decir, número de objetos y la lista de objetos que pertenecen a cada conglomerado,
vector de conglomeración,
representación gráfica de los resultados, es decir, un gráfico de silueta para cada conglomerado (opcional - ver el parámetro PRINT).

Resultados del análisis CLARA. Para el número de conglomerados ensayados se imprime lo siguiente:

lista de objetos seleccionados en la muestra retenida,
vector de conglomeración,
para cada conglomerado: identificador del objeto representativo, número de objetos y la lista de objetos que pertenecen a ese conglomerado,
distancia promedio y distancia máxima a cada medoide,
representación gráfica de los resultados, es decir, un gráfico de silueta para cada conglomerado (opcional - ver el parámetro PRINT).

Resultados del análisis AGNES contiene lo siguiente:

ordenamiento final de los objetos (identificados por su identificador) y disimilitudes entre ellos,
representación gráfica de los resultados, es decir, un gráfico de "bandera" de disimilitudes (opcional - ver el parámetro PRINT).

Resultados del análisis DIANA contiene lo siguiente:

ordenamiento final de los objetos (identificados por su identificador) y diámetros de los conglomerados,
representación gráfica de los resultados, es decir, un gráfico de "bandera" de disimilitudes (opcional - ver el parámetro PRINT).

Resultados del análisis MONA contiene lo siguiente:

huella de las separaciones (opcional - ver el parámetro PRINT) para cada paso, con el conglomerado a separar, la lista de objetos (identificados por su valor de la variable identificadora) en cada uno de los dos subconjuntos y la variable usada para la separación,
el ordenamiento final de objetos,
representación gráfica de los resultados, es decir, un gráfico de separación con la lista de objetos en cada conglomerado y la variable usada para la separación (opcional - ver el parámetro PRINT).

22.4  Dataset de entrada

El dataset de entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para análisis deben ser numéricas; pueden ser enteras o con cifras decimales. La variable identificadora de caso puede ser alfabética. Las variables usadas en los análisis PAM, CLARA, FANNY, AGNES o DIANA deben tener escala de intervalo. Las variables usadas en el análisis MONA deben ser binarias (con valores 0 o 1). Nótese que CLUSFIND usa como máximo 8 caracteres del nombre de la variable como se suministra en el diccionario.

22.5  Matriz de entrada

Esta es una matriz cuadrada de IDAMS. Ver el capítulo "Los datos en IDAMS". Puede contener medidas de similitudes, disimilitudes o coeficientes de correlación. Nótese que CLUSFIND usa máximo 8 caracteres del nombre del objeto como se suministra en los registros de identificación de variables.

22.6  Estructura del setup


 
 
     $RUN CLUSFIND
   
     $FILES
          Especificación de archivos
 
     $RECODE (opcional con entrada de datos primarios; 
              no disponible con entrada matricial)
          Proposiciones de Recode
 
     $SETUP
          1. Filtro (opcional, sólo para entrada de datos primarios)
          2. Título
          3. Parámetros
 
     $DICT (condicional)
          Diccionario para la entrada de datos primarios

     $DATA (condicional)
          Datos para la entrada de datos primarios

     $MATRIX (condicional)
          Matriz para la entrada de la matriz

 
     Archivos:
     FT09       matriz de entrada 
                (si no se usa $MATRIX y se usa entrada matricial) 
     DICTxxxx   diccionario de entrada (si $DICT no se usa y INPUT=RAWDATA)
     DATAxxxx   datos de entrada (si $DATA no se usa y INPUT=RAWDATA)
     PRINT      resultados (por defecto IDAMS.LST)


22.7  Proposiciones de control del programa

Referirse al capítulo "El archivo Setup de IDAMS" para una descripción más detallada de las proposiciones de control del programa, ítems 1-3, a continuación.

  1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución. Disponible solamente con datos primarios de entrada.
    
         Ejemplo:  INCLUDE V8=5-10
    
  2. Título (mandatorio). Una línea que contenga hasta 80 caracteres para titular los resultados.
    
         Ejemplo:  PARTICION CON CONGLOMERACION DIFUSA
    

  3. Parámetros (mandatorio). Para seleccionar opciones del programa.
    
         Ejemplo:  ANALYSIS=PAM  VARS=(V7-V12)
    
    INPUT=RAWDATA /SIMILARITIES/DISSIMILARITIES/CORRELATIONS
    RAWD 
    En entrada: un archivo Datos descrito por un diccionario IDAMS.
    SIMI 
    En entrada: medidas de similitudes en la forma de una matriz cuadrada IDAMS.
    DISS 
    En entrada: medidas de disimilitudes en la forma de una matriz cuadrada IDAMS.
    CORR 
    En entrada: coeficientes de correlación en la forma de una matriz cuadrada IDAMS.

    Parámetros sólo para entrada de datos primarios

    INFILE=IN /xxxx

    Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
    Por defecto: DICTIN, DATAIN.

    BADDATA=STOP /SKIP/MD1/MD2

    Tratamiento de los datos no numéricos. Ver el capítulo "El archivo Setup de IDAMS".

    MAXCASES=100 /n

    Número máximo de casos (después de filtrar) a usar del archivo de entrada.
    Su valor depende de la memoria disponible.

    n=0 No ejecuta, sólo verifica los parámetros.
    0<n<=100 Ejecución normal.
    n>100 Sólo permite ANALYSIS=CLARA.

    MDVALUES=BOTH /MD1/MD2/NONE

    Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver el capítulo "El archivo Setup de IDAMS".

    STANDARDIZE

    Estandarizar las variables antes de calcular las disimilitudes.

    DTYPE=EUCLIDEAN /CITY

    Tipo de distancia utilizado para calcular las disimilitudes.
    EUCL 
    Distancia euclideana.
    CITY 
    Distancia en cuadra urbana ("city block").

    IDVAR=número de variable

    Variable que se imprime como identificadora de caso. Sólo se usan tres caracteres en el listado. Así, las variables enteras deben tener valores menores que 1000. Sólo se imprimen los tres primeros caracteres de una variable alfabética.
    Sin valor por defecto.

    PRINT=(CDICT/DICT, STAND)

    CDIC 
    Imprimir el diccionario de entrada para las variables accedidas con registros C, si los hay.
    DICT 
    Imprimir el diccionario de entrada sin registros C.
    STAN 
    Imprimir los datos de entrada después de la estandarización.

    Parámetros sólo para entrada matricial

    DISSIMILARITIES=ABSOLUTE /SIGN

    Para INPUT=CORR, especifica cómo se debe calcular la matriz de disimilitudes.
    ABSO 
    Considerar valores absolutos de coeficientes de correlación como medida de similitud.
    SIGN 
    Usar coeficientes de correlación con sus signos.

    MDMATRIX=n

    Tratar los elementos de la matriz iguales a n como datos faltantes.
    Por defecto: todos los valores son válidos.

    PRINT=MATRIX

    Imprimir la martiz de entrada.

    Parámetros para ambos tipos de entrada

    VARS=(lista de variables)

    Variables a usar en este análisis.
    Sin valor por defecto.

    ANALYSIS=PAM/FANNY/CLARA/AGNES/DIANA/MONA

    Especifica el tipo de análisis a hacer.
    PAM 
    Repartición alrededor de medoides.
    FANN 
    Conglomeración difusa.
    CLAR 
    Repartición alrededor de medoides (igual a PAM), pero para datasets de al menos 100 casos. CLUSFIND hará un muestreo de los casos y escogerá la mejor muestra representativa. Se extraen cinco muestras de 40+2*CMAX casos (ver el parámetro CMAX más adelante).
    Sólo para entrada de datos primarios.
    AGNE 
    Conglomeratión jerárquica acumulativa.
    DIAN 
    Conglomeratión jerárquica divisiva.
    MONA 
    Conglomeración monotética de datos con variables binarias. Requiere al menos tres variables.
    Sólo para entrada de datos primarios.
    Sin valor por defecto.

    CMIN=2 /n

    Para PAM y FANNY. Número mínimo de conglomerados a ensayar.

    CMAX=n

    Para PAM y FANNY, número máximo de conglomerados a ensayar.
    Para CLARA, número exacto de conglomerados ensayar.
    Por defecto: el mayor de 20 y el valor especificado en CMIN.

    PRINT=(DISSIMILARITIES, GRAPH, TRACE, VNAMES)

    DISS 
    Imprimir la matriz de disimilitudes.
    GRAP 
    Imprimir la representación gráfica de los resultados.
    TRAC 
    Imprimir cada paso de la separación binaria cuando se especifica MONA.
    VNAM 
    Para entrada matricial, imprimir los primeros 3 o 8 caracteres de nombres en vez de los números de las variables como identificador del objecto.


22.8  Restricciones

  1. El número máximo de casos que se pueden usar en un análisis (excepto CLARA) es 100.
  2. El número mínimo de casos requerido para análisis CLARA) es 100.
  3. El número máximo de objetos en una matriz de entrada es 100.
  4. Sólo los tres caracteres de una variable alfabética se usan en el listado.


22.9  Ejemplos

Ejemplo 1. Conglomerar los primeros 100 casos en 5 grupos usando 6 variables cuantitativas V11-V16; se estandarizan los valores de las variables y se usa la distancia euclideana en los cálculos; la conglomeración se hace con la repartición alrededor de los medoides; se solicita imprimir gráficos; los casos se identifican con la variable V2.


     $RUN CLUSFIND
     $FILES
     PRINT   = CLUS1.LST
     DICTIN  = MY.DIC              archivo Diccionario de entrada
     DATAIN  = MY.DAT              archivo Datos de entrada
     $SETUP
     ANALISIS PAM CON DATOS PRIMARIOS COMO ENTRADA
     BADD=MD1  VARS=(V11-V16)  STAND  IDVAR=V2  CMIN=5  CMAX=5  PRINT=GRAP
 
Ejemplo 2. Conglomerado jerárquico aglomerativo de 30 pueblos; la matriz de entrada contiene distancias entre los pueblos y los pueblos se numeran de 1 a 30; se solicita imprimir gráficos; los nombres de pueblo se usan en el listado.

     $RUN CLUSFIND
     $FILES
     PRINT   = CLUS2.LST
     FT09    = TOWNS.MAT           archivo Matriz de entrada
     $SETUP
     ANALISIS AGNES CON LA MATRIZ DE DISTANCIAS COMO ENTRADA
     $COMMENT     LAS DISTANCIAS ACTUALES SE DIVIDIERON POR 10.000 PARA 
     $COMMENT     ESTAR EN EL INTERVALO 0-1
     INPUT=DISS  VARS=(V1-V30)  ANAL=AGNES  PRINT=(GRAP,VNAMES)