Regresión lineal (REGRESSN)

27    Regresión lineal (REGRESSN)


27.1  Descripción general

REGRESSN suministra una capacidad general para regresión múltiple, diseñada para análisis de regresión lineal estándar o por pasos. Se pueden hacer varios análisis de regresión, con parámetros y variables diferentes en una misma ejecución.

Término constante. Si los datos de entrada son datos primarios, el usuario puede solicitar que las ecuaciónes no tengan término constante (ver el parámetro de regresión CONSTANT=0). En este caso se analiza una matriz basada en la matriz de productos cruzados en vez de una matriz de correlación. Esto cambia la pendiente de la línea ajustada y puede afectar sustancialmente los resultados. En la regresión por pasos, las variables pueden entrar a la ecuación en un orden diferente al que se hubiese requerido en caso de estimar un término constante. Si la entrada es una matriz de correlación, la ecuación de regresión contiene siempre un término constante.

Uso de variables categóricas como variables independientes. Existe una opción para crear un conjunto de variables ficticias (dicotómicas) a partir de variables categóricas específicadas (ver el parámetro CATE). Estas se pueden utilizar como variables independientes en el análisis de regresión.

Cociente F para introducir una variable en la ecuación. En la regresión por pasos, se adicionan a su turno, variables a la ecuación de regresión hasta que la ecuación sea satisfactoria. En cada paso, se selecciona la variable que tenga la correlación parcial más alta con la variable dependiente. Se calcula entonces un valor parcial de la prueba F para la variable y este valor se compara con un valor crítico suministrado por el usuario. Tan pronto como la F parcial para la proxima variable que va entrar sea menor que el valor crítico, se termina el análisis.

Cociente F para retirar una variable de la ecuación. Una variable que puede haber sido la mejor variable individual para entrar en una etapa inicial de un análisis de regresión por pasos, en una etapa posterior, puede no ser la mejor debido a la relación actual con otras variables en la regresión. Para detectar ésto, el valor parcial F de cada variable en la regresión en cada paso del cálculo, es calculado y comparado con un valor crítico suministrado por el usuario. Cualquier variable cuyo valor parcial F se presente por debajo del valor crítico, se retira del modelo.

Regresión por pasos. Si se pide regresión por pasos, el programa determina qué variables o cuales conjuntos de variables ficticias dentro del conjunto especificado de variables independientes se van a usar en la regresión y en que orden se van a introducir, se comienza con las variables forzadas y se continúa con las demás variables y los conjuntos de variables ficticias, una a una. Después de cada paso, el algoritmo escoge entre las variable predictoras restantes, la variable o el conjunto de variables ficticias que produzcan la reducción más grande en la variancia residual (no explicada) de la variable dependiente, a menos de que su contribución al cociente F total para la regresión permanezca por debajo de un umbral especificado. Igualmente, el algoritmo evalúa después de cada paso, si la contribución de alguna variable o de algún conjunto de variables ficticias ya incluidas, se presentan o no se presentan por debajo de un umbral especificado, caso en el cual se elimina de la regresión.

Regresión descendente por pasos. Igual que en la regresión por pasos, excepto que el algoritmo comienza con todas las variables independientes y luego elimina variables y conjuntos de variables ficticias por pasos. En cada paso el algoritmo selecciona a partir de las variables predictoras que quedan, la variable o el conjunto de variables ficticias que produzcan la reducción más baja en la variancia explicada de la variable dependiente, a menos que ésta exceda un umbral especificado. Igualmente, el algoritmo evalúa en cada paso si la contribución de alguna variable o conjunto de variables ficticias previamente suprimidas de la regresión, se ha elevado por encima de un umbral especificado, caso en el cual, se vuelve a incluir en la regresión.

Generación de un dataset de residuos. Con datos primarios como entrada, se pueden calcular residuos y llevarlos como un archivo Datos de salida descrito por un diccionario IDAMS. Ver la sección "Datasets de residuos de salida" para detalles del contenido. Nótese que para cada ecuación, se genera un dataset de residuos separado. También, como REGRESSN no tiene la capacidad de transferir variables de interes específico en un análisis de residuos a partir de los datos primarios de entrada al dataset de residuos, puede ser necesario usar el programa MERGE para crear el dataset que contenga todas las variables deseadas. Una variable de identificación de caso (ID) del dataset de entrada se lleva al dataset de residuos para hacer posible el encaje.

Generación de una matriz de correlación. Si entran datos primarios, el programa calcula coeficientes de correlación que pueden salir en el formato de una matriz cuadrada de IDAMS y ser usados para análisis posteriores. Las correlaciones de REGRESSN incluyen todas las variables de todas las ecuaciones de regresión y se basan en casos con datos válidos en todas las variables de la matriz. De esta manera, las correlaciones serán generalmente diferentes de las correlaciones obtenidas con el programa PEARSON cuando se ejecuta con la opoción MDHANDLING=PAIR. Cuando la eliminación de datos faltantes en REGRESSN deja un tamaño de muestra aceptablemente grande, REGRESSN es una alternativa de PEARSON para generar matrices de correlación (ver parágrafo "Tratamiento de datos faltantes").

27.2  Características estándar de IDAMS

Selección de casos y variables. Si entran datos primarios, se puede usar el filtro estándar para escoger un subconjunto de casos a partir de los datos de entrada. Si se utiliza una matriz de correlación como entrada al programa, no se puede usar la selección de casos. Las variables para la ecuación de regresión se especifican en los parámetros DEPVAR y VARS.

Transformación de datos. Si entran datos primarios, se pueden usar las proposiciones de Recode.

Ponderación de datos. Si entran datos primarios, se puede usar una variable para ponderar los datos de entrada; esta variable de ponderación puede tener cifras enteras o decimales. El programa forzará la suma de las ponderaciones para que sea igual al número de casos de entrada. Cuando el valor de la variable de ponderación para un caso es cero, negativo, dato faltante o no numérico, entonces el caso siempre se omite; se imprime el número de casos así tratados.

Tratamiento de datos faltantes.

  1. Entrada. Si entran datos primarios, el parámetro MDVALUES está disponible para indicar cuales valores de datos faltantes, si los hay, se usarán para verificar los datos faltantes. Los casos en los cuales haya datos faltantes para cualquier variable de regresión en cualquier análisis se eliminan (eliminación de datos faltantes "por casos"). Una opción (ver parámetro MDHANDLING) permite al usuario especificar el máximo número de casos con datos faltantes que puede tolerarse antes de terminar la ejecución. Advertencia: si se llevan a cabo análisis múltiples en una ejecución de REGRESSN, se calcula una sola matriz de correlación para todas las variables utilizadas en los diferentes análisis. Por causa del método de eliminación de casos con datos faltantes "por casos", el número de casos usado y por lo tanto las estadísticas de regresión producidas pueden ser diferentes si los análisis se llevan a cabo separadamente.

    Si entra una matriz, los casos con datos faltantes se han debido acomodar al crear la matriz. Si una celda de la matriz de entrada tiene un código de dato faltante (es decir, 99.999) cualquier análisis que involucre dicha celda, se omite.

  2. Residuos de salida. Si se piden residuos, se calculan para todos los casos que pasen el filtro (opcional) valores predichos y residuos. Si un caso tiene datos faltantes en cualquiera de las variables requeridas para estos cálculos, se generan códigos de datos faltantes en la salida.

  3. Matriz de correlación de salida. El algoritmo de REGRESSN para el manejo de datos faltantes en la entrada de datos primarios no puede resultar en valores de datos faltantes en la matriz de correlación.

27.3  Resultados

Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.

Estadísticas univariadas. (Sólo datos primarios). Se imprime la suma, el promedio, la desviación estándar, el coeficiente de variación, el valor máximo y el valor mínimo para todas las variables dependientes e independientes utilizadas.

Matriz de sumas totales de cuadrados y productos cruzados. (Sólo datos primarios. Opcional: ver el parámetro PRINT).

Matriz de sumas de cuadrados residuales y productos cruzados. (Sólo datos primarios. Opcional: ver el parámetro PRINT).

Matriz de correlación total. (Opcional: ver el parámetro PRINT).

Matriz de correlación parcial. (Opcional para cada regresión: ver el parámetro de regresión PARTIALS). El elemento ij-ésimo es la correlación parcial entre la variable i y la variable j, manteniendo constantes las variables especificadas en la lista de variables de PARTIALS.

Matriz inversa. (Opcional para cada regresión: ver el parámetro PRINT).

Estadísticas de resumen del análisis. Las siguientes estadísticas se imprimen para cada regresión o para cada paso de un regresión por pasos:

error estándar de estimación,
cociente F,
coeficiente de correlación múltiple (ajustado y no ajustado),
fracción de variancia explicada (ajustada y no ajustada),
determinante de la matriz de correlación,
grados de libertad de residuos,
término constante.

Estadisticas de análisis para predictores. Las siguientes estadísticas se imprimen para cada regresión o para cada paso de un regresión por pasos:

coeficiente B (coeficiente de regresión parcial no estandarizado),
error estándar (sigma) de B,
coeficiente beta (coeficiente de regresión parcial estandarizado),
error estándar (sigma) de beta,
R cuadrada parcial y marginal,
cociente t,
cociente de covariancia,
valores de la R cuadrada marginal para todos los predictores y cocientes t para todos conjuntos de las variables ficticias (para la regresión por pasos).

Diccionario de residuos de salida. (Para entrada de datos primarios solamente. Opcional: ver el parámetro de regresión WRITE).

Datos de residuos de salida. (Para entrada de datos primarios solamente. Opcional: ver el parámetro de regresión PRINT). Si hay menos de 1000 casos, los valores calculados, los valores observados y los residuos (diferencias) se pueden listar en orden ascendente por el valor del residuo. Se puede listar cualquier número de casos en el orden secuencial de entrada de los mismos. La estadística de Durbin-Watson para la asociación de residuos se imprime para los residuos impresos en el orden secuencial de los casos.

27.4  Matriz de correlación de salida

Se puede producir la matriz de correlación calculada (ver el parámetro WRITE). Se escribe en la forma de una matriz cuadrada de IDAMS (ver el capítulo "Los datos en IDAMS"). El formato es 6F11.7 para las correlaciones y 4E15.7 para las medias y desviaciones estándar. Además, en las columnas 73-80 de los registros se escriben títulos para la información así:

registro descriptor de matriz N=nnnnn
registros de correlación REG xxx
registros de media MEAN xxx
registros de desviación estándar SDEV xxx

(nnnnn es el tamaño de la muestra de REGRESSN. Las xxx corresponden a un número secuencial que comienza con 1 para el primer registro de correlación y se incrementa de uno en uno para cada registro sucesivo hasta el último registro de desviación estándar).

Los elementos de la matriz son r de Pearson. Estas r, así como las medias y las desviaciones estándar se basan en casos que tienen datos válidos en todas las variables especificadas en cualquiera de las listas de variables de regresión. Las correlaciones son para todos los pares de variables de toda la lista de variables de análisis, tomadas a la vez.

27.5  Dataset de residuos de salida

Se puede pedir un dataset de residuos para cada análisis (ver el parámetro de regresión WRITE). Este tiene la forma de un archivo Datos descrito por un diccionario IDAMS. Contiene cuatro o cinco variables por caso, según los datos sean o no sean ponderados: una variable de identificación (ID), una variable dependiente, una variable dependiente predicha (calculada), un residuo y una ponderación, si la hay. El archivo de salida de los residuos tiene el mismo orden de los casos de entrada. Las caracetrísticas del archivo son:

Número de Ancho de Número de Código
variable Nombre campo decimales MD1
(identificador) 1 igual a entrada * 0 igual a entrada
(variable dependiente) 2 igual a entrada * ** igual a entrada
(variable predicha) 3 Predicted value 7 *** 9999999
(residuo) 4 Residual 7 *** 9999999
(ponderación - si hay) 5 igual a entrada * ** igual a entrada

*  
transferido del diccionario de entrada para variables V o 7 para variables R
**  
transferido del diccionario de entrada para variables V o 2 para variables R
***  
6 + Nr. de decimales para la variable dependiente menos el ancho de la variable dependiente; si ésta es negativa, entonces este valor es cero.

Si el valor calculado o el residuo exceden el ancho de campo asignado, se reemplazan por código MD1.

27.6  Dataset de entrada

El dataset de entrada de datos primarios es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para análisis deben ser numéricas; pueden ser enteras o con decimales. La variable identificadora de casos puede ser alfabética.

27.7  Matriz de correlación de entrada

Es una matriz cuadrada de IDAMS. Una matriz de correlación generada por PEARSON o por una ejecución anterior de REGRESSN resulta apta como matriz de entrada a REGRESSN.

El diccionario de la matriz de entrada debe contener números y nombres de variables. La matriz debe contener correlaciones, medias y desviaciones estándar. Se usan ambas, las medias y las desviaciones estándar.


27.8  Estructura del setup


 
     $RUN REGRESSN
   
     $FILES
          Especificación de archivos
 
     $RECODE (opcional con datos primarios como entrada; 
              no se usa con entrada matricial)
          Proposiciones de Recode
 
     $SETUP
          1. Filtro (opcional)
          2. Título
          3. Parámetros
          4. Definición de variables ficticias (condicional)
          5. Especificaciones de regresión (tantas como sean necesarios)
 
     $DICT (condicional)
          Diccionario para entrada de datos primarios

     $DATA (condicional)
          Datos primarios de entrada

     $MATRIX (condicional)
          Matriz de correlación de entrada

 
     Archivos:
     FT02       matriz de correlación de salida
     FT09       matriz de correlación de entrada 
                (si no se usa $MATRIX e INPUT=MATRIX)
     DICTxxxx   diccionario de entrada (omitir si se usa $DICT)
     DATAxxxx   datos de entrada (omitir si se usa $DATA)
     DICTyyyy   diccionario de residuos de salida  ) un conjunto por cada
     DATAyyyy   datos de residuos de salida        ) archivo de residuos
     PRINT      resultados (por defecto IDAMS.LST)
  

27.9  Proposiciones de control del programa

Referirse al capítulo "El archivo Setup de IDAMS" para una descripción más detallada de las proposiciones de control del programa, ítems 1-3 y 5, a continuación.

  1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución. Disponible sólo con datos primarios de entrada.
    
         Ejemplo:  INCLUDE  V3=5
    
  2. Título (mandatorio). Una línea que contenga hasta 80 caracteres para titular los resultados.
    
         Ejemplo:  ANALISIS DE REGRESION
    
  3. Parámetros (mandatorio). Para seleccionar opciones del programa.
    
         Ejemplo:  IDVAR=V1  MDHANDLING=100
    

    INPUT=RAWDATA /MATRIX

    RAWD 
    Los datos de entrada vienen en la forma de un archivo Datos descrito por un diccionario IDAMS.
    MATR 
    Los datos de entrada son coeficientes de correlación en la forma de una matriz cuadrada de IDAMS.

    Parámetros sólo para datos primarios de entrada

    INFILE=IN /xxxx

    Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
    Por defecto: DICTIN, DATAIN.

    BADDATA=STOP /SKIP/MD1/MD2

    Tratamiento de los datos no numéricos. Ver el capítulo "El archivo Setup de IDAMS".

    MAXCASES=n

    Número máximo de casos (después de filtrar) a usar del archivo de entrada.
    Por defecto: se usan todos los casos.

    MDVALUES=BOTH /MD1/MD2/NONE

    Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver el capítulo "El archivo Setup de IDAMS".

    MDHANDLING=0 /n

    Número de casos con datos faltantes admitido antes de terminar. Un caso se considera faltante si éste contene datos faltantes en cualquiera de las variables de las ecuaciones de regresión.

    WEIGHT=número de variable

    Número de la variable de ponderación, si se van a ponderar los datos.

    CATE

    Se especifica CATE si se suministra una definición de variables ficticias.

    IDVAR=número de variable

    Variable que se lleva a la salida o se imprime como identificadora de casos si se han solicitado dataset de residuos. La variable de identificación no se debe incluir en ninguna lista de variables.

    WRITE=MATRIX

    Escribir la matriz de correlación calculada a partir de los datos primarios de entrada en un archivo de salida.

    PRINT=(CDICT/DICT, XMOM, XPRODUCTS, MATRIX)

    CDIC 
    Imprimir el diccionario de entrada para las variables accedidas con registros C, si los hay.
    DICT 
    Imprimir el diccionario de entrada sin registros C.
    XMOM 
    Imprimir la matriz de sumas residuales de cuadrados y productos cruzados.
    XPRO 
    Imprimir la matriz de sumas totales de cuadrados y de productos cruzados.
    MATR 
    Imprimir la matriz de correlación.

    Parámetros para entrada de la matriz de correlación

    CASES=n

    Haga CASES igual al número de casos usados para la creación de la matriz de entrada. Este número se utiliza en el cálculo del nivel F.
    No admite valor por defecto; debe suministrarse cuando entra la matriz de correlación.

    PRINT=MATRIX

    Imprimir la matriz de correlación.

  4. Definición de variables ficticias (condicional: si se ha especificado CATE como un parámetro). El programa REGRESSN puede transformar una variable categórica en un conjunto de variables ficticias. Para tener un tratamiento de variables como categóricas, el usuario debe: a) incluir el parámetro CATE en la lista de parámetros y b) especificar cuales variables se van a considerar como categóricas y los códigos a usar. Cada variable categórica a transformar está seguida de los códigos a usar entre paréntesis cuadrados. Para cada variable, los códigos no listados se excluyen de la construcción. Nota: la lista de códigos no debe ser exahustiva, es decir, no se deben imprimir todos los códigos existentes o de lo contrario, resultará una matriz singular.
    
         Ejemplo:  V100(5,6,1), V101(1-6)
    

    Los códigos 5, 6 y 1 de la variable 100 se representarán en la regresión como variables ficticias, así como también los códigos 1 a 6 de la variable 101.

    Una variable especificada en la definición de variables ficticias, cuando se use en listas de variables predictoras (VARS), variables parciales (PARTIALS) o variables forzadas (FORCE) para regresión por pasos, se referirán al conjunto de variables ficticias creado a partir de esa variable. En regresiones por pasos, los códigos de esa variable entrarán o se excluirán ambos a la vez, las R cuadradas marginales y los cocientes-F se calculan para todos los códigos de las variables conjuntamente así como para los códigos individualmente. Una variable usada en la definición de variables ficticias no se puede usar como variable dependiente.

  5. Especificaciones de regresión. Las reglas de codificación son las mismas de los parámetros. Cada conjunto de parámetros de regresión debe comenzar en una nueva línea.
    
         Ejemplo:  DEPV=V5  METH=STEP  FORCE=(V7) VARS=(V7,V16,V22,V37-V47,R14)
    
    METHOD=STANDARD /STEPWISE/DESCENDING
    STAN 
    Se hace regresión estándar.
    STEP 
    Se hace regresión por pasos.
    DESC 
    Se hace una regresión descendente por pasos.

    DEPVAR=número de variable

    Número de la variable dependiente.
    Sin valor por defecto.

    VARS=(lista de variables)

    Las variables independientes que se van a usar en el análisis.
    Sin valor por defecto.

    PARTIALS=(lista de variables)

    Calcular e imprimir una matriz de correlación parcial con las variables eliminadas de la lista de variables independientes.
    Por defecto: no hay parciales.

    FORCE=(lista de variables)

    Forzar las variables listadas a entrar en la regresión por pasos (METHOD=STEP) o a permanecer en la regresión descendente por pasos (METHOD=DESC).
    Por defecto: no hay forzamiento.

    FINRATIO=.001 /n

    El valor del cociente F por debajo del cual una variable no entra al procedimiento por pasos; este es el cociente F para entrar. Debe darse el punto decimal.

    FOUTRATIO=0.0 /n

    El valor del cociente F por encima del cual una variable se debe mantener para permanecer en el procedimiento por pasos; este es el cociente F para retirar. Debe darse el punto decimal.

    CONSTANT=0

    Sólo para la entrada de datos primarios.
    El término constante debe ser igual a cero y no se estimará término constante.
    Por defecto: se calcula un término constante.

    WRITE=RESIDUALS

    Los residuos se escriben en un dataset IDAMS.

    OUTFILE=OUT /yyyy

    Se aplica solamente cuando se ha especificado WRITE=RESI.
    Un sufijo de ddname de 1-4 caracteres para los archivos del diccionario y de los datos de residuos de salida. Si se llevan los residuos al archivo de salida para más de un análisis, el nombre por defecto OUT, sólo puede utilizarse una sola vez.

    PRINT=(STEP, RESIDUALS, ERESIDUALS, INVERSE)

    STEP 
    Se aplica solamente a una regresión por pasos: imprimir R cuadradas marginales para todos los predictores en cada paso.
    RESI 
    Imprimir los residuos en el orden de los casos de entrada y la estadística de Durbin-Watson.
    ERES 
    Imprimir los residuos, excepto para datos faltantes, en orden de magnitud del error, siempre que haya menos de 1000 casos.
    INVE 
    Imprimir la matriz de correlación inversa.

27.10  Restricciones

  1. Con datos primarios como entrada, puede haber hasta 99 o 100 variables distintas, (dependiendo de si hay o no hay una variable de ponderación) para utilizar en una sóla ecuación de regresión; el número total de variables en todo el análisis, incluidas las variables de Recode, la variable de ponderación y la variable de identificación, no puede ser mayor de 200.
  2. Cuando la entrada es una matriz, ésta puede ser de 200 x 200 y se pueden usar hasta 100 variables en una sóla ecuación de regresión.
  3. FINRATIO debe ser mayor o igual a FOUTRATIO.
  4. Los residuos se pueden listar en orden ascendente por valor de residuo si hay menos de 1000 casos.
  5. Una variable especificada en la definición de variables ficticias, no puede usarse como variable dependiente.
  6. Máximo se pueden definir 12 variables ficticias a partir de una variable categórica.
  7. Si la variable de identificación es alfabética con ancho > 4, sólo se usan los primeros cuatro caracteres.

27.11  Ejemplos

Ejemplo 1. Regresión estándar con cinco variables independientes con una matriz de correlación IDAMS como entrada.


     $RUN REGRESSN
     $FILES
     FT09  =  A.MAT                     archivo Matriz de entrada
     SETUP
     REGRESION ESTANDAR - USA MATRIZ DE ENTRADA
     INPUT=MATR  CASES=1460
     DEPV=V116  VARS=(V18,V36,V55-V57)

Ejemplo 2. Regresión estándar con seis variables independientes y dos variables cada una con 3 categorías transformadas a 6 variables ficticias; se usan datos primarios de entrada; se van a calcular residuos y se escriben en un dataset de salida (los casos se identifican con la variable V2).

     $RUN REGRESSN
     $FILES
     PRINT   = REGR2.LST
     DICTIN  = STUDY.DIC                archivo Diccionario de entrada
     DATAIN  = STUDY.DAT                archivo Datos de entrada
     DICTOUT = RESID.DIC                archivo Diccionario de los residuos
     DATAOUT = RESID.DAT                archivo Datos para residuos
     $SETUP
     REGRESION ESTANDAR - USA DATOS PRIMARIOS DE ENTRADA Y ESCRIBE RESIDUOS
     MDHANDLING=50  IDVAR=V2  CATE
     V5(1,5,6),V6(1-3)
     DEPV=V116  WRITE=RESI	-
        VARS=(V5,V6,V8,V13,V75-V78)

Ejemplo 3. Dos regresiones: una estándar y una por pasos con datos primarios como entrada.

     $RUN REGRESSN
     $FILES
     DICTIN  = STUDY.DIC                archivo Diccionario de entrada
     DATAIN  = STUDY.DAT                archivo Datos de entrada
     $SETUP
     DOS REGRESIONES
     PRINT=(XMOM,XPROD)
     DEPV=V10  VARS=(V101-V104,V35)  PRINT=INVERSE
     DEPV=V11  METHOD=STEP  PRINT=STEP VARS=(V1,V3,V15-V18,V23-V29)

Ejemplo 4. Regresión en dos etapas; la primera usa las variables V2 - V6 para estimar los valores de la variable dependiente V122; en la segunda etapa, dos variables adicionales V12, V23 se usan para estimar los valores predichos de V122, es decir V122 sin los efectos de V2 - V6.

En la primera regresión, los valores predichos para la variable dependiente (V122) se calculan y se escriben en el archivo de residuos (OUTB) como la variable V3. Después se usa el programa MERGE para intercalar esta variable con las variables del archivo original que se necesitan en la segunda etapa. El dataset de salida de MERGE (un archivo temporal y por lo tanto no es necesario definirlo) tendrá cinco variables de la lista de construcción, numeradas V1 a V5, donde A12 y A23 (para usar como predictores de la segunda etapa) se convierten en V2 y V3, A122, la variable dependiente original, se convierte en V4 y B3, la variable que da los valores predichos de V122, se convierte en V5. Este archivo de salida se utiliza entonces como entrada de la segunda etapa.


     $RUN REGRESSN
     $FILES
     PRINT    = REGR4.LST
     DICTIN   = STUDY.DIC               archivo Diccionario de entrada
     DATAIN   = STUDY.DAT               archivo Datos de entrada
     DICTOUTB = RESID.DIC               archivo Diccionario de los residuos
     DATAOUTB = RESID.DAT               archivo Datos para residuos
     $SETUP
     REGRESION EN DOS ETAPAS - PRIMERA ETAPA
     MDHANDLING=100  IDVAR=V1
     DEPV=V122  WRITE=RESI  OUTF=OUTB  VARS=(V2-V6)
     $RUN MERGE
     $SETUP
     INTERCALACION DE LOS VALORES PREDICHOS (V3 EN ARCH.DE RES.) EN ARCH DE DATOS
     MATCH=INTE  INAF=IN  INBF=OUTB
     A1=B1
     A1,A12,A23,A122,B3
     $RUN REGRESSN
     $SETUP
     REGRESION EN ETAPAS - SEGUNDA ETAPA
     MDHANDLING=100  INFI=OUT
     DEPV=V5  VARS=(V2,V3)