Analyse discriminante (statistiques)

44     Analyse discriminante

Notation

x
=
valeurs des variables
k
=
indice pour l¢observation
i,j
=
indices pour les variables
g
=
indice supérieur pour le groupe
q
=
indice pour le pas
p
=
nombre de variables
w
=
valeur du poids
xkg
=
vecteur de p éléments correspondant à l¢observation k dans le groupe g
yqg
=
vecteur de moyennes des variables sélectionnées dans le pas q pour le groupe g
Ng
=
nombre d¢observations dans le groupe g
Wg
=
somme des poids pour le groupe g
Iq
=
sous-ensemble des indices pour les variables sélectionnées dans le pas q.

44.1  Statistiques univariées

Ces statistiques, pondérées si le poids est spécifié, sont calculées pour chaque groupe et pour chaque variable d'analyse, en utilisant l'échantillon de base. La moyenne est calculée aussi pour l'ensemble de l'échantillon de base (moyenne globale).
a)   Moyenne.

x
 
g
i 
= æ
è
Ng
å
k=1 
wkg xkig ö
ø
 /  Wg
Note : la moyenne globale est calculée selon la même formule.
b)   Écart-type.
sig =   æ
Ö

æ
è
Ng
å
k=1 
wkg (xkig)2 ö
ø
 /  Wg  -  (

x
 
g
i 
)2
 

44.2  Discrimination linéaire entre 2 groupes

La procédure est basée sur la fonction discriminante de Fischer et utilise la matrice de covariance totale pour calculer les coefficients de cette fonction. Le classement des observations s'effectue en utilisant les valeurs de cette fonction, et non les distances en tant que telles. Le critère utilisé pour sélectionner la variable suivante est le D2 de Mahalanobis (distance de Mahalanobis entre 2 groupes). Après chaque pas, le programme fournit la fonction discriminante linéaire, le tableau de classement et le pourcentage d'observations correctement classées pour l'échantillon de base et l'échantillon test.
a)   Fonction discriminante linéaire. Soit la fonction calculée dans le pas q, telle que
fq(x) =
å
i Î Iq 
bqi  xi   + aq
Les coefficients bqi de cette fonction pour les variables i incluses dans le pas q correspondent aux éléments du vecteur propre unique de la matrice
(yq1 - yq2)¢  Tq-1
et le terme constant est calculé comme suit :
aq = - 1

2
(yq1 - yq2)¢  Tq-1   (yq1 + yq2)
Tq représente la matrice de covariance totale (calculée pour les observations provenant des 2 groupes) pour les variables incluses dans le pas q, avec les éléments
tij = æ
è

å
k 
wk ( xki -

x
 

i 
) (xkj -

x
 

j 
) ö
ø
 /  (W1 + W2)
b)   Tableau de classement pour l'échantillon de base.
Une observation est affectée :
au groupe 1 si fq (x) > 0 ,
au groupe 2 si fq (x) < 0 .
Une observation n'est pas affectée si fq (x) = 0 .
Le POURCENTAGE DES OBSERVATIONS CORRECTEMENT CLASSéES est calculé comme le ratio entre le nombre d'observations en diagonale et le nombre total d'observations dans le tableau de classement.
c)   Tableau de classement pour l'échantillon test.
Fait de la même manière que pour l'échantillon de base (voir point 2.b ci-dessus).
d)   Critère pour sélectionner la variable suivante. La distance de Mahalanobis entre les 2 groupes est utilisée à cette fin. La variable sélectionnée dans le pas q est celle qui maximise la valeur de Dq2.
Dq2 = (yq1 - yq2)¢  Tq-1   (yq1 - yq2)
e)   Affectation et valeur de la fonction discriminante linéaire pour les observations. Celles-ci sont calculées et imprimées pour le dernier pas, ou lorsque le pas précède une diminution du pourcentage des observations correctement classées. La valeur de la fonction est calculée selon la formule décrite au point 2.a ci-dessus ; les variables utilisées dans le calcul sont celles retenues dans le pas. L'affectation des observations aux groupes est faite comme décrit au point 2.b ci-dessus.
On utilise la même formule et les mêmes règles d'affectation pour l'échantillon de base, les moyennes de groupe, l'échantillon test et l'échantillon anonyme.

44.3  Discrimination linéaire entre plus de 2 groupes

La procédure pour la discrimination dans le cas de 3 ou plusieurs groupes utilise non seulement la matrice de covariance totale, mais aussi la matrice de covariance inter-groupes. Le critère pour sélectionner la variable suivante utilisé ici est la trace d'un produit de ces deux matrices (généralisation de distance de Mahalanobis pour 2 groupes). Après avoir sélectionné la nouvelle variable à entrer, l'analyse factorielle discriminante est effectuée et le programme fournit le pouvoir discriminant global et le pouvoir discriminant des trois premiers facteurs. Les observations sont classées selon leurs distances par rapport aux centres des groupes. À chaque pas, le programme calcule et imprime le tableau de classement et le pourcentage des observations correctement classées pour l'échantillon de base et l'échantillon test.
a)   Tableau de classement pour l'échantillon de base. La distance d'une observation x par rapport au centre du groupe g au pas q est définie comme la fonction linéaire
vyqg (x) = (yqg)¢  Tq-1   (yqg - 2x)
Tq, comme décrit au point 2.a ci-dessus, est la matrice de covariance totale (calculée pour les observations de tous les groupes) pour les variables incluses au pas q, avec les éléments
tij = æ
è

å
k 
wk ( xki -

x
 

i 
) ( xkj -

x
 

j 
) ö
ø
 /  W
Une observation est attribuée au groupe pour lequel vyqg (x) a la plus petite valeur (plus petite distance).
Le POURCENTAGE D'OBSERVATIONS CORRECTEMENT CLASSéES est calculé comme le ratio entre le nombre d'observations en diagonale et le nombre total d'observations dans le tableau de classement.
b)   Tableau de classement pour l'échantillon test.
Fait de la même manière que pour l'échantillon de base (voir point 3.a ci-dessus).
c)   Critère pour sélectionner la variable suivante. La variable sélectionnée au pas q est celle qui maximise la valeur de la trace de la matrice Tq-1   Bq, où Tq est la matrice de covariance totale utilisée au pas q (voir point 3.a ci-dessus), et Bq la matrice de covariance inter-groupes, avec les éléments
bij = æ
è

å
g 
Wg ( yig -

x
 

i 
) ( yjg -

x
 

j 
) ö
ø
 /  W
La prochaine étape de l'analyse (points 3.d - 3.h ci-dessous) est effectuée dans l'une des trois circonstances suivantes :
d)   Affectation et distances des observations dans l'échantillon de base. Les distances par rapport à chaque groupe sont calculées comme décrit au point 3.a ci-dessus ; les variables utilisées dans le calcul sont celles retenues à ce pas. L'affectation des observations aux groupes est faite comme décrit au point 3.a ci-dessus.
e)   Analyse discriminante factorielle. La matrice Tq-1   Bq décrite sous 3.c ci-dessus est analysée. Les deux premiers vecteurs propres correspondant aux deux plus hautes valeurs propres de cette matrice constituent les deux axes factoriels discriminants. Le pouvoir discriminant des facteurs est mesuré par les valeurs propres correspondantes. Comme le programme fournit le pouvoir discriminant pour les trois premiers facteurs, la somme des valeurs propres permet d'estimer le niveau des valeurs propres restantes, càd celles qui n'ont pas été imprimées.
f)   Valeurs des facteurs discriminants pour toutes les observations et les moyennes de groupe.
Pour une OBSERVATION, la valeur du facteur discriminant est calculée comme le produit scalaire du vecteur d'observation contenant les variables retenues à ce pas et du vecteur propre correspondant au facteur. Il faut noter que ces valeurs ne sont pas imprimées, mais elles sont utilisées pour la représentation graphique des observations dans l'espace des deux premiers facteurs.
Pour une MOYENNE DE GROUPE, la valeur du facteur discriminant est calculée de la même façon en remplaçant le vecteur d'observation par le vecteur de la moyenne de groupe.
g)   Affectation et distances des observations dans l'échantillon test. Les distances par rapport à chaque groupe sont calculées de la même façon, et l'affectation des observations aux groupes est effectuée selon les mêmes règles que pour l'échantillon de base (voir point 3.d ci-dessus).
h)   Affectation et distances des observations dans l'échantillon anonyme. Les distances par rapport à chaque groupe sont calculées de la même façon, et l'affectation des observations aux groupes est effectuée selon les mêmes règles que pour l'échantillon de base (voir point 3.d ci-dessus).

44.4  Références

Romeder, J.M., Méthodes et programmes d'analyse discriminante, Dunod, Paris, 1973.