Annexe A : Les Méthodes d'analyse de données

 
 
5.1 Les méthodes multi-dimentionnelles

Les différentes méthodes sont présentées d'une façon pratique, l'objectif étant de vous donner les clés pour présenter, expliquer et justifier vos résultats d'analyse. Si une étude mathématique plus poussée vous intéresse, nous vous conseillons de vous reporter à un manuel spécialisé.

5.1.1 L'ACP

Dans cette annexe, nous allons présenter la méthode d'analyse de données, ACP (Analyse en Composantes Principales), dans son contexte d'utilisation.

5.1.1.1 Objet de la méthode :

La méthode a pour objet de décrire les données contenues dans un tableau d'individus et de caractères. Ce tableau s'appelle matrice des données. Il se compose :

- de lignes d'individus : des personnes, des entreprises, des journaux, etc.,
- de colonnes de variables : quantitatives (age, taille, nombre d'employés, etc.).

Pour obtenir une meilleur représentation des données, on prend les premières composantes principales. L'ACP peut être faite sur des données brutes ou sur des données réduites.

L'ACP, par une réduction des caractères, permet des représentations géométriques des individus et des caractères. Les caractères principaux doivent être indépendants (coefficient de corrélation nuls) et complémentaires au sens de l'information.

5.1.1.2 L'ACP est une méthode factorielle :

La réduction du nombre de caractères ne se fait pas par une sélection de certains, mais, par une construction de nouveaux caractères obtenus en combinant les caractères initiaux au moyen de facteurs. C'est une méthode linéaire traitant des caractères numériques jouant tous le même rôle.

Son but est d'obtenir une représentation d'un nuage N(I) des individus de Rp dans un espace de dimension réduite. Il faut déterminer les axes qui prennent le mieux en compte la dispersion du nuage. Ces axes sont les axes factoriels qui permettent de représenter au mieux les points du nuage.

Par exemple, on obtient une représentation plane du nuage en projetant orthogonalement au sens de la métrique M tous les points sur le plan principal d'inertie (espace 2D).

 

5.1.1.3 Formulation mathématique du problème de l'ACP :

 

Il faut trouver le sous-espace Ek de dimension k (k < p dimension de Rp) tel que l'inertie du nuage des individus N(I) soit maximum. L'inertie (=l'équilibre) est la plus forte sur l'axe principal et la plus faible sur l'axe complémentaire .

Ek est l'espace tel que l'inertie du nuage projeté sur Ek soit maximum. D'après le théorème de Huygens, Ek contient nécessairement le centre de gravité du nuage.

Conjointement, deux théorèmes mathématiques sont appliqués pour traiter le problème en plusieurs étapes :

 

 

- 1 . Théorème d'inclusion : Si E k-1 est un sous espace vectoriel optimal de dimension k-1, alors la recherche d'un sous-espace vectoriel optimal de dimension k peut se faire parmi l'ensemble des sous-espaces vectoriels de dimension k contenant Ek-1.

-2 . Théorème de recherche d'un sous-espace vectoriel E de dimension k contenant un sous espace vectoriel F de dimension k-1 maximisant IE est équivalente à la recherche d'un axe orthogonal D minimisant I .

 

5.1.1.4 Représentation des individus :

 

L'espace des individus est représenté par des vecteurs, où chacun des individus est un vecteur. Vous vous posez la question évidente de la mesure de la distance entre deux individus, cette distance s'appelle "métrique".

Dans le cas d'une ACP réduite, les métriques les plus utilisées sont les métriques diagonales des inverses des variances qui reviennent à diviser chaque caractère par son écart type (= pondération : donner à chaque caractère la même importance). La métrique est M=D 1/S2rend la distance entre individus invariante par transformation linéaire. Cette métrique est intéressante quand les variables sont hétérogènes. La distance ne dépend plus des unités de mesures car xi/si est sans dimension. De plus, elle donne à chaque caractère la même importance quelque soit leur dispersion car la même variance de 1 est donnée aux caractères.

Dans le cas d'une ACP non réduite, la métrique est M=I elle revient à utiliser le produit scalaire usuel, elle conduit à privilégier les variables les plus dispersées pour lesquels les différences entre individus sont les plus fortes.

L'inertie totale du nuage de points est la moyenne pondérée des carrés des distances des n points au centre de gravité. Cette quantité mesure l'éloignement des points par rapport à leur centre de gravité, c'est-à-dire la dispersion globale du nuage. Cette inertie nulle signifie que tous les individus sont identiques ou presque et confondus avec leur centre de gravité g.

Les coordonnés des individus sur un nouvel axe s'obtiennent en projetant un individu sur une droite quelconque D. On crée un nouveau caractère c (ces valeurs sont les mesures algébriques des projections des points sur cette droite). Cette droite passe par l'origine qui est le centre de gravité du nuage, c est centré.

5.1.1.5 Représentation des caractères :

 

L'espace des caractères est représenté aussi par des vecteurs, chaque caractère est un vecteur. La métrique choisit est sans hésitation une matrice diagonale car :

- Le produit scalaire de deux caractères est la covariance,

- La longueur d'un caractère est égale à son écart type,

- Le cosinus de l'angle entre deux caractères est le coefficient de corrélation linéaire.

Concrètement :

 

 

Il nous faut définir ce qu'est un individu, un caractère et comment s'effectue la recherche des composantes principales. On résume chacun des caractères par sa moyenne et son écart type. L'individu dont les caractères auraient pour valeurs leurs moyennes respectives, s'appelle le centre de gravité du nuage.

centre de gravité (g) =

matrice des individus X *

matrice diagonale des poids (ou fréquences) associés à chaque tirage


Les liaisons entre les p caractères pris deux à deux sont résumées par leurs covariances, ou plutôt leurs coefficients de corrélation (soit (p(p-1))/2 coefficients à calculer).

Les covariances sont regroupées dans une matrice V, et réciproquement, les corrélations dans une matrice de corrélation R dont la diagonale est égale à 1 (matrices carrées d'ordre p symétrique). La matrice résume la structure des dépendances linéaires entre les p variables :

R=D1/s V D 1/s

5.1.1.6 Recherche des facteurs, axes et composantes principaux :

Nous recherchons la droite passant par le centre de gravité g et maximisant l'inertie du nuage de points projeté sur cette droite.

Les axes et les facteurs principaux v1, v2,...,vn (dans le cas simplifié où M est la matrice Identité) sont les vecteurs propres de la matrice associée aux valeurs propres. Le nombre de valeurs propres non nulles (car sinon il y a une relation linéaire entre les caractères initiaux) donne la dimension de l'espace dans lequel sont réellement faites les observations.

Les composantes principales sont définies par les variables c. Les variances d'une composante principale sont les valeurs propres. L'ACP remplace les p caractères initiaux par des caractères non corrélés de variance maximale et d'importance décroissante. Les premières composantes principales c sont les combinaisons linéaires des variables centrées et réduites ayant une variance maximale.

Afin de donner une signification aux résultats, on considère les corrélations et les individus typiques. On repère aisément les caractères liés entre eux ou opposés.

5.1.1.7 Interprétation des résultats

 

L'ACP construit de nouvelles variables artificielles et des représentations graphiques permettant de visualiser des relations entre variables ainsi que l'existence éventuelle de groupes d'individus et de groupes de variables.

- Les corrélations, elles sont synthétisées dans un cercle imaginaire à deux axes ou plus. Chaque axe représente une composante principale. On regarde la position des variables par rapport à cet axe.

- Si les variables sont proche de la direction positive de l'axe alors elles sont corrélées,

- Si les variables sont proche de la direction négative de l'axe alors elles sont anti-corrélées,

- Si les variables sont proches d'un autre axe, alors elles sont non corrélées,

- Pour comparer des points entre eux on ne le fera que si ils sont proche de la circonférence du cercle,

- Par contre, on ne peut rien dire quand les variables sont agglomérées au centre du cercle, ou de la sphère unité,

- Les corrélations avec la métrique M choisie, s'observent dans un espace sphérique.

 

5.2 L'AFC


Dans cette annexe, nous allons présenter les points clés de la méthode d'analyse de données l'AFC (Analyse Factorielle des Correspondances), ses fondements mathématiques, sa problématique et son appréciation d'un point de vue analytique.

5.2.1 Objet :

L'AFC revient à chercher les valeurs propres et les vecteurs propres du produit de deux tableaux de profils, c'est-à-dire la quantification optimale des deux caractères qualitatifs (au sens où ils sont le plus corrélés). L'analyse en correspondance revient à faire l'analyse en composantes principales de deux nuages N(I) et N(J). Le parallèle avec l'analyse canonique nous permet de situer l'AFC.

- L'analyse canonique revient à chercher des couples de caractères les plus corrélés possible. Elle permet la transformation d'un caractère qualitatif en un caractère quantitatif (= mécanisme de quantification).

- L'AFC revient à chercher la quantification optimale de deux caractères qualitatifs en ce sens qu'ils sont le plus corrélés possible (corrélation = prévision mutuelle).

 

5.2.1 Formulation mathématique du problème de l'AFC :

Soit un tableau de contingence obtenu par croisement de deux variables qualitatives, on indicera l'ensemble des n modalités de I et des p modalités de J. On obtient (s = S S nij) et on définit le tableau des fréquences (fij=nij/s).

Les nuages des points sont les nuages des profils. On définit le poids de ces profils en fonction de l'apparition des modalités sachant que N(I) est le nuage de n points et N(J) est le nuage de p points. Chaque nuage a un centre de gravité et les matrices diagonale sont D = 1/f.

On précise l'axe trivial qui indique que le nuage est contenu dans un hyperplan passant par f, il est associé à la valeur propre 0. Le vecteur f est orthogonal à l'hyperplan. Les axes non triviaux sont associés aux valeurs propres non nulles. Les valeurs propres de l'analyse de correspondance sont comprises entre 0 et 1.

Les formules de transition qui indiquent que les nuages sont égaux à la constante l 1/2 près aux composantes principales, nous permettent à la fois de représenter simultanément les deux nuages et d'appliquer les principes de représentation et les indices de qualité associés au cadre de l'ACP. Ces représentations simultanées dans la même carte factorielle, qui sont un élément intéressant de l'AFC, indiquent une tendance et sont à interpréter avec prudence car elles sont relatives aux proximités.

Concrètement :

Il y a une dualité entre les deux analyses (AFC et ACP) du fait de l'égalité à une constante près de leurs facteurs et composantes principales. L'AFC se présente notamment pour un tableau de contingence (= tableau N croisé d'effectifs nij ) qui représente la ventilation d'individus selon des caractères qualitatifs.

Les facteurs de l'analyse des correspondances sont donc les vecteurs propres du produit des deux tableaux de profils X1 et X2..

Les valeurs propres sont les carrés des coefficients de corrélation canonique (= les variances). La somme des valeurs propres possède une propriété intéressante qui est la mesure de la dépendance du c 2. La métrique du c 2 mesure l'indépendance entre deux caractères qualitatifs divisés par n (= la métrique euclidienne est définie par l'inverse du profil marginal des colonnes).

Les représentations graphiques constituent le résultat le plus significatif, il est cependant possible en appliquant des techniques de tri matriciel sur des valeurs pondérées d'obtenir des résultats intéressants (par exemple "tri de connexité" qui permet d'identifier des groupes de travail sur un thème commun). Ces possibilités sont présentées dans une autre annexe.

 

Remarque :

 

Nous ne nous limitons pas à observer les relations entre les premières composantes principales. Le système de "glissement d'axes" nous permet d'obtenir des vues faisant ressortir des relations entre les termes inattendues.

Nous pouvons choisir d'observer le nuage de point autour des premiers axes principaux ou bien d'aller plus loin et de regarder d'autres aspects. Les relations entre caractères n'apparaissent pas forcément à la première vue. Il faut changer d'axes pour faire ressortir des relations intéressantes, un autre point de vue sur les données. L'information endogène résulte de l'observation de relations cachées et non pas évidente. C'est dans cet esprit que nous avons choisi de pouvoir glisser vers d'autres axes ou même de choisir ses axes manuellement.

5.2 Les méthodes de classification

5.2.1 La CAH

Nous présentons la méthode de classification ascendante la CAH (Classification Ascendante Hiérarchique).

5.2.1.1 Objet :

L'objet des méthodes de classification hiérarchique est de rechercher à chaque étape les deux classes les plus proches, on les fusionne, on continue jusqu'à qu'il n'y ait qu'une classe. Elle consiste à fournir un ensemble de partitions plus ou moins fines obtenues par regroupements successifs de parties. Dans la classification ascendante hiérarchique, on regroupe les individus les plus proches et ainsi de suite de proche en proche.

 

5.2.1.2 Concrètement :

La CAH est une méthode de classification permettant une construction de hiérarchies indicées. On parle de classification hiérarchique, car chaque classe d'une partition est incluse dans une classe de la partition suivante. Un menu de sélection associe plusieurs métriques pour passer d'un groupement à l'autre. Ce que l'on peut dire c'est que chaque niveau de hiérarchie représente une classe et que des individus appartiennent à ces classes. La représentation visuelle est beaucoup plus explicite.

Formulation mathématique du problème de la CAH :

 

Le principal problème des méthodes de classification hiérarchique consiste à définir le critère de regroupement de deux classes, c'est-à- dire une distance entre classes. La construction d'une hiérarchie est liée à la connaissance d'une mesure de ressemblance entre groupes.

Les indices utilisés sont principalement l'indice d'agrégation du lien minimum (cas euclidien), l'indice de l'augmentation d'inertie. Un indice ou niveau d'agrégation est le niveau ou l'on trouve agrégé tous les constituants d'un ensemble. L'indice de l'augmentation d'inertie est l'un des plus utilisé, on prend la distance entre les deux centres de gravité avec une pondération. Par l'indice d'agrégation du lien minimum, on cherche à obtenir un minimum local de l'inertie intraclasse.

On construit à l'aide de l'indice d'agrégation choisi, une suite de partitions de moins en moins fines dont les classes forment la hiérarchie H cherchée. On part de la partition Pinitiale dont les classes sont réduites à un élément. On construit une nouvelle classe à partir des deux classes de la partition précédente qui minimise l'indice choisi. On réitère le procédé jusqu'à ce que les classes soient réunies en une seule.

On peut distinguer deux cas :

- Cas où les individus sont les points d'un espace euclidien : On réunit les deux classes les plus proches en prenant comme distance entre deux classes la perte d'inertie que l'on encourt en les regroupant. La méthode utilisée est la méthode de Ward qui consiste à agréger les individus qui font le moins varier l'inertie intraclasse, on cherche à obtenir à chaque pas un minimum local.

- Cas où les distances ne sont pas euclidienne : on ne dispose pas de critères objectifs pour calculer la distance entre deux classes. On utilise diverses formules de distances comme la distance moyenne, distance du saut minimal...Les résultats sont comparés pour s'assurer que les variations de résultats soient faibles.

5.2.2 La CPP

Dans cette annexe, nous allons présenter les points clés de la méthode de classification par partition la CPP, ses fondements mathématiques, sa problématique et son appréciation d'un point de vue analytique. Si une étude mathématique plus poussée vous intéresse, nous vous conseillons de vous reporter à un manuel spécialisé, l'objectif de cette annexe est de vous donner les clés pour la présenter, l'expliquer et justifier vos résultats de classification.

5.2.2.1 Objet :

L'objet des méthodes de classification non hiérarchique est de produire une partition en un nombre k fixé de classes. Il s'agit de regrouper n individus en k classes. Les individus doivent se ressembler et les classes doivent être séparés. Elle permet de traiter des ensembles d'effectifs assez élevés en optimisant des critères pertinents.

5.2.2.2 Concrètement :

Les individus sont les points d'un espace euclidien, classifier revient à rechercher une partition en remplaçant des points pris au hasard par les centres de gravité des classes jusqu'à une converge, c'est-à-dire une stabilité des résultats. La méthode des centres mobiles est implantée avec succès. La CPP est représentée par une carte graphique dans Tétralogie.

Formulation mathématique du problème de la CPP :

Pour comprendre ce qu'est une classification par partition, il faut savoir comment interpréter une partition. Les partitions sont fondées pour la plupart sur la décomposition de l'inertie de la population en inertie interclasse et intraclasse. On distingue des indices :

- L'indice de part d'inertie conservée en assimilant les individus aux centres de gravité,