Análise de Agrupamento (CLUSFIND)

22    Análise de Agrupamento (CLUSFIND)


22.1  Descrição Geral

CLUSFIND conduz análise de agrupamento particionando um conjunto de objetos (casos ou variáveis) em um conjunto de clusters determinado por um dos seis algoritmos: dois algoritmos baseados em partição ao redor de medoides, um baseado em agrupamento difuso e três baseados em agrupamento hierárquico.


22.2  Características Padrão do IDAMS

Seleção de casos e variáveis. Se dados brutos são usados como entrada, o filtro padrão está disponível para selecionar um subconjunto de casos dos dados de entrada. As variáveis para análise são especificadas no parâmetro VARS.

Transformando dados. Se dados brutos são usados como entrada, declarações de Recode podem ser utilizadas.

Ponderando dados. Uso de variáveis de ponderação não é aplicável.

Tratamento de dados perdidos. Se dados brutos são usados como entrada, o parâmetro MDVALUES está disponível para indicar quais valores de dados perdidos, se houverem, devem ser usados para checar a existência de dados perdidos. Os casos onde dados perdidos ocorrerem em todas as variáveis serão deletados automaticamente. Caso contrário, dados perdidos são suprimidos "aos pares". Se os dados estão padronizados, a média e o desvio absoluto médio são calculados usando apenas valores válidos. Ao calcular-se as distâncias, apenas aquelas variáveis são consideradas na soma onde valores válidos estejam presentes em ambos os objetos.

Se uma matriz é usada como entrada, o parâmetro MDMATRIX está disponível para indicar que valor deve ser usado para checar a existência de elementos de matriz inválidos.


22.3  Resultados

Dicionário de entrada. (Opcional: ver o parâmetro PRINT). Variável descritora de registros, e registros-C, se houver, apenas para variáveis usadas na execução.

Dados de entrada depois de padronização. (Opcional: ver o parâmetro PRINT).

Valores padronizados para cada variáveis-R ou -V usadas na análise, precedido pela média e o desvio absoluto médio para aquelas variáveis.

Matriz de dissimilaridade. (Opcional: ver o parâmetro PRINT). A porção triangular inferior esquerda da matriz, como entrada ou computada pelo programa.

Resultados da análise PAM. Para cada número de clusters da vez (indo de CMIN até CMAX), o seguinte é impresso:

número de objetos representativos (clusters) e a distância média final,
para cada cluster: ID do objeto representativo, número de objetos e a lista de objetos pertencentes a esse cluster,
coordenadas dos medoides (valores das variáveis de análise para cada objeto representativo; para dataset de entrada apenas),
vetor de agrupamento (vetor de números correspondentes aos objetos indicando a que cluster cada objeto pertence) e características de agrupamento,
representação gráfica dos resultados, i.e. uma plotagem da silhueta para cada cluster (opcional - ver o parâmetro PRINT).

Resultados da análise FANNY. Para cada número de clusters da vez (indo de CMIN até CMAX) o seguinte impresso:

número de clusters,
valor da função objetivo a cada iteração,
para cada objeto, a sua ID o coeficiente de filiação para cada cluster,
coeficiente de partição de Dunn e sua versão normalizada,
agrupamento duro mais próximo, i.e. o número de objetos e a lista de objetos pertencendo a cada cluster,
vetor de agrupamento,
representação gráfica dos resultados, i.e. uma plotagem da silhueta para cada cluster (opcional - ver o parâmetro PRINT).

Resultados da análise CLARA. Para o número de clusters experimentados o seguinte é impresso:

lista de objetos selecionados na amostra retida,
vetor de agrupamento,
para cada cluster: ID de objeto representativo, número de objetos e lista de objetos pertencentes a esse cluster,
distância média e máxima a cada medoide,
representação gráfica dos resultados, i.e. uma plotagem da silhueta para cada cluster pertencendo a cada cluster (opcional - ver o parâmetro PRINT).

Resultados da análise AGNES contém o seguinte:

ordenamento final dos objetos (identificados pelas suas ID) e dissimilaridades entre eles,
representação gráfica dos resultados, i.e. uma plotagem de banner de dissimilaridades (opcional - ver o parâmetro PRINT).

Resultados da análise DIANA contém o seguinte:

ordenamento final dos objetos (identificada pelas suas ID) e diâmetros dos clusters,
representação gráfica dos resultados, i.e. uma plotagem de banner de dissimilaridades (opcional - ver o parâmetro PRINT).

Resultados da análise MONA contém o seguinte:

traço de splits (opcional - ver o parâmetro PRINT) com, para cada passo, o cluster a ser separado, a lista de objetos (identificados pelas seus valores de variável de ID) em cada um dos dois subconjuntos e da variável usada para separação,
o ordenamento final dos objetos,
representação gráfica dos resultados, i.e. uma plotagem de separação com a lista de objeto sem cada cluster e a variável usada para separação (opcional - ver o parâmetro PRINT).


22.4  Dataset de Entrada

O dataset de entrada é um arquivo Dados descrito por um dicionário do IDAMS. Todas as variáveis utilizadas na análise devem ser numéricas; elas podem ser inteiras ou com valores decimais. A variável de ID do caso pode ser alfabética. Variáveis usadas na análise PAM, CLARA, FANNY, AGNES ou DIANA devem ter escalas em intervalos. Variáveis usadas na análise MONA devem ser binárias (com valores 0 ou 1). Note que CLUSFIND usa até 8 caracteres do nome da variável como dado no dicionário.


22.5  Matriz de Entrada

Essa é uma matriz quadrada do IDAMS. Ver no capítulo "Dados em IDAMS". Ela pode conter medidas de similaridades, dissimilaridades ou coeficientes de correlação. Note que CLUSFIND usa no máximo 8 caracteres do nome do objeto como dado nos registros de identificação da variável.


22.6  Estrutura de Setup




     $RUN CLUSFIND

     $FILES
          Especificações de arquivo

     $RECODE (opcional com dados de entrada brutos; indisponível com entrada de matriz)
          Declarações de Recode

     $SETUP
          1. Filtro (opcional; para dados de entrada brutos apenas)
          2. Título
          3. Parâmetros

     $DICT (condicional)
          Dicionário para dados de entrada brutos

     $DATA (condicional)
          Dados para dados de entrada brutos

     $MATRIX (condicional)
          Matriz para entrada de matriz


     Arquivos:
     FT09       matriz de entrada (se $MATRIX não é usado e entrada de matriz)
     DICTxxxx   dicionário de entrada (se $DICT não é usado e INPUT=RAWDATA)
     DATAxxxx   dados de entrada (se $DATA não é usado e INPUT=RAWDATA)
     PRINT      resultados (default IDAMS.LST)


22.7  Declarações de Controle de Programa

Referir-se ao capítulo "O Arquivo Setup do IDAMS" para descrições mais aprofundadas das declarações de controle do programa, itens 1-3 abaixo.

  1. Filtro (opcional). Seleciona um subconjunto de casos a ser usado na execução. Disponível apenas com dados brutos.
    
         Exemplo:  INCLUDE V8=5-10
    
  2. Título (mandatório). Uma linha contendo até 80 caracteres para nomear os resultados.
    
         Exemplo:  PARTITION AROUND MEDOIDS
    
  3. Parâmetros (mandatório). Para selecionar opções de programa.
    
         Exemplo:  ANALYSIS=PAM   VARS=(V7-V12)  IDVAR=V1
    
    INPUT=RAWDATA /SIMILARITIES/DISSIMILARITIES/CORRELATIONS
    RAWD 
    Entrada: arquivo Dados descrito por um dicionário do IDAMS.
    SIMI 
    Entrada: medidas de similaridades na forma de uma matriz quadrada do IDAMS.
    DISS 
    Entrada: medidas de dissimilaridades na forma de uma matriz quadrada do IDAMS.
    CORR 
    Entrada: coeficientes de correlação na forma de uma matriz quadrada do IDAMS.

    Parâmetros apenas para dados de entrada brutos

    INFILE=IN /xxxx

    Um sufixo ddname de 1-4 caracteres para os arquivos Dicionário e Dados de entrada.
    Default ddnames: DICTIN, DATAIN.

    BADDATA=STOP /SKIP/MD1/MD2

    Tratamento de valores de dados não-numéricos. Ver o capítulo "O Arquivo Setup do IDAMS".

    MAXCASES=100 /n

    O número máximo de casos (depois de filtragem) a ser usado do arquivo de entrada.
    Seu valor depende da memória disponível.

    n=0 Nenhuma execução, apenas verificação de parâmetros.
    0<n<=100 Execução normal.
    n>100 Apenas análise CLARA permitida.

    MDVALUES=BOTH /MD1/MD2/NONE

    Quais valores de dados perdidos devem se utilizados para as variáveis acessadas nessa execução. Ver o capítulo "O Arquivo Setup do IDAMS".

    STANDARDIZE

    Padronizar as variáveis antes de computar as dissimilaridades.

    DTYPE=EUCLIDEAN /CITY

    Tipo de distância a ser usada para computar dissimilaridades.
    EUCL 
    Distância euclidiana.
    CITY 
    Distância city-block.

    IDVAR=número de variável

    Variável a ser impressa como ID de caso. Apenas três caracteres são utilizados nos resultados. Portanto, variáveis inteiras devem ter valores menores que 1000. Apenas os três primeiros caracteres de uma variável alfabética são impressos.
    Não há default.

    PRINT=(CDICT/DICT, STAND)

    CDIC 
    Imprime o dicionário de entrada para as variáveis acessadas com registros-C, se houver.
    DICT 
    Imprime o dicionário de entrada sem registros-C.
    STAN 
    Imprime os dados de entrada depois da padronização.

    Parâmetros apenas para a entrada de matriz

    DISSIMILARITIES=ABSOLUTE /SIGN

    Para INPUT=CORR, especifica como a matriz de dissimilaridade deve ser computada.
    ABSO 
    Considera os valores absolutos dos coeficientes de correlação como medidas de similaridade.
    SIGN 
    Usa os coeficientes de correlação com seus sinais.

    MDMATRIX=n

    Trata os elementos da matriz iguais a n como dados perdidos.
    Default: Todas as variáveis são válidas.

    PRINT=MATRIX

    Imprime a matriz de entrada.

    Parâmetros para ambos os tipos de entrada

    VARS=(lista de variáveis)

    As variáveis a serem usadas na análise.
    Não há default.

    ANALYSIS=PAM/FANNY/CLARA/AGNES/DIANA/MONA

    Especifica o tipo de análise a ser executada.
    PAM 
    Partição ao redor de medoides.
    FANN 
    Partição com agrupamento difuso.
    CLAR 
    Partição ao redor de medoides (mesmo que PAM), mas para datasets com pelo menos 100 casos. CLUSFIND amostrará os casos e escolherá a amostra mais representativa. Cinco amostras de 40+2*CMAX casos são retiradas (ver o parâmetro CMAX abaixo).
    Apenas para dados de entrada brutos.
    AGNE 
    Agrupamento hierárquico aglomerativo.
    DIAN 
    Agrupamento hierárquico divisivo.
    MONA 
    Agrupamento monotético de dados consistindo de variáveis binárias. Requer pelo menos 3 variáveis.
    Apenas para dados de entrada brutos.
    Não há default.

    CMIN=2 /n

    Para PAM e FANNY. O número mínimo de clusters para testar.

    CMAX=n

    Para PAM e FANNY, o número máximo de clusters para testar.
    Para CLARA, o número exato de clusters para testar.
    Default: O maior número entre 20 e o valor especificado por CMIN.

    PRINT=(DISSIMILARITIES, GRAPH, TRACE, VNAMES)

    DISS 
    Imprime a matriz de dissimilaridade.
    GRAP 
    Imprime a representação gráfica dos resultados.
    TRAC 
    Imprime cada passo do split binário quando MONA é especificado.
    VNAM 
    Para entrada de matriz, imprime os primeiros 3 dos 8 caracteres dos nomes das variáveis ao invés dos números das variáveis como identificação de objetos.


22.8  Restrições

  1. O número máximo de casos que podem ser usados em uma análise (exceto CLARA) é 100.
  2. O número mínimo de casos requisitados pela análise de CLARA é 100.
  3. O número máximo de objetos em uma matriz de entrada é 100.
  4. Apenas 3 caracteres da variável de ID são utilizados nos resultados.

22.9  Exemplos

Exemplo 1. Agrupamento os primeiros 100 casos em 5 grupos usando 6 variáveis quantitativas V11-V16; valores de variáveis são padronizados e distância euclidiana é usada nos cálculos; agrupamento é feito com partição ao redor de medoides; a impressão de gráficos é requerida; casos são identificados pela variável V2.


     $RUN CLUSFIND
     $FILES
     PRINT   = CLUS1.LST
     DICTIN  = MY.DIC                        arquivo Dicionário de entrada
     DATAIN  = MY.DAT                        arquivo Dados de entrada
     $SETUP
     PAM ANALYSIS USING RAW DATA AS INPUT
     BADD=MD1  VARS=(V11-V16)  STAND  IDVAR=V2  CMIN=5  CMAX=5  PRINT=GRAP

Exemplo 2. Agrupamento hierárquico aglomerativo de 30 cidades; a matriz de entrada contém distâncias entre cidades e as cidades são numeradas de 1 a 30; impressão de gráficos é requerida; os nomes das cidades são usados nos resultados.

     $RUN CLUSFIND
     $FILES
     PRINT   = CLUS2.LST
     FT09    = TOWNS.MAT                     arquivo Matriz de entrada
     $SETUP
     AGNES ANALYSIS USING MATRIX OF DISTANCES AS INPUT
     $COMMENT  ACTUAL DISTANCES WERE DIVIDED BY 10,000 TO BE IN THE INTERVAL 0-1
     INPUT=DISS  VARS=(V1-V30)  ANAL=AGNES  PRINT=(GRAP,VNAMES)