4- Fonctionnement détaillé de Tétralogie



 

 

4.1 "Menu global"

Il est le premier menu visible quand on lance le logiciel Tétralogie. Il donne les noms des répertoires de travail.

Chemin:/"racine"/donnees

Fig : Présentation de la fenêtre du menu global

Chaque répertoire est indépendant, il renferme les différents fichiers nécessaires à l'analyse d'une base d'information. Chaque utilisateur peut ainsi travailler sur son propre répertoire, et conserver les analyses faites.

Il est possible de se déplacer dans l'arborescence des répertoires en cliquant sur les icônes situées au-dessus de la barre du chemin d'accès (vous pouvez remonter vers les répertoires ou descendre vers les fichiers).

Pour créer une nouvelle application, vous cliquez sur le bouton correspondant. Sur la nouvelle fenêtre, vous sélectionnez avec la souris la zone affectée pour inscrire le nom de l'application. Vous avez aussi la possibilité de choisir des structures préexistantes au sein de certaines applications. Dans ce cas, elles se colorent en bleu et le logiciel copie directement le corpus et les "basededonnees" correspondantes dans la nouvelles application.

4.2 "Menu général"

Dans le menu général, nous sommes positionnés dans notre répertoire de travail, il suffit de vérifier le chemin :

Chemin:/"racine"/donnees/nom_répertoire_analyse

A partir de ce menu, on lance les opérations d'analyse. Il est composé de :

- Traitements
- Filtres
- Comptages
- Présence/Absence
- Cooccurrence simple
- Cooccurrence multiple
- Synonymie
- Multi termes

Fig : Présentation de la fenêtre du menu général

Pour accéder à ces commandes, il faut se placer sur le fichier concerné par l'analyse. Le répertoire concerné contient à l'origine, le fichier "basededonnees" et le fichier de la "base_d'information_analysée.not" (".not" pour les notices bibliographiques). Automatiquement, l'analyse va se porter sur cette base.

Nous précisons dans le chapitre.3 "Principes Généraux" quelle fonction choisir (cooccurrence simple, comptage...) dans quel ordre et pourquoi. Nous décrirons comme suit, hors contexte d'analyse, le contenu de la fonction.

4.2.1 Traitements

"Dos2UNIX" : Convertit le corpus issu du monde DOS au format UNIX ( c'est le cas de corpus déchargés depuis des CD_ROM ou des serveurs en ligne).

"Compression" et "Décompression" : Permet de compresser un répertoire. Les répertoires compressés prennent alors la couleur rouge.

 

"Nettoyage" : Permet de supprimer automatiquement les fichiers de sauvegarde (exemple : fichier~, fichier.bak, fichier% ) et eventuellement un fichier core.

4.2.2 Comptage simple

Les opérations de comptage se réalisent soit pendant la phase de préparation de la base, soit pendant la phase d'analyse (application de critères restrictifs sur une partie des données). Pour réaliser un comptage, il faut cliquer sur "Comptage simple" une fois que l'on est positionné dans son répertoire d'analyse.

Elles génèrent des fichiers du type :

- Champ .ind : fichier principal qui présente les termes par fréquence d'apparition décroissante. Il sert à générer des filtres par extraction,
- Champ .indF : classement des termes par fréquence d'apparition décroissante,
- Champ .indA : classement des termes par ordre alphabétique.
Ces fichiers sont accessibles dans le gestionnaire de fichiers, ils sont utilisés pour créer des dictionnaires.

4.2.3 Cooccurrence simple / Multiple

Cet écran se compose des différents champs de "basededonnees" présentés sous une forme matricielle champ_colonne et champ_ligne. Il permet de créer des croisements champs à champs.

Fig : Présentation de la fenêtre de calcul des cooccurrences simples

Deux colonnes sont adjointes à cette matrice pour y ajouter les filtres et les fichiers de synonymes. Le calcul de cooccurrence se fait en tenant compte des informations incluses dans ces fichiers. Par exemple, il est important de créer des dictionnaires de mots composés spécifiques à un type de bases (données informatiques, médicales, astronomiques...) ; dans le cas contraire, on passe à côté de la sémantique. Ce programme génère une matrice de contingence contenant le nombre d'apparition conjointe des termes.

4.2.4 Présence/absence

Elle ressemble à la procédure de coocurrence simple mais génère des matrices booléennes (0,1). On ne tient pas compte de la fréquence d'apparition des termes. Ceci est utilisé, par exemple, pour les co-citations. On regarde si un auteur se croise avec lui-même ; S'il se cite lui-même et qui le cite

4.3 "Menu Présentation des résultats"

Nous vous présentons ci-dessous une copie d'écran du menu principal. Ensuite nous décrirons chacun des boutons du menu et les sous-menus associés à ces boutons.

Fig : Présentation de la fenêtre du menu présentation des résultats

4.3.1 "Tableur1" 2D et "Tableur2" 3D

Toutes les opérations de calcul, telles que les fréquences d'apparition sont archivées dans un fichier. Il suffit de se positionner sur le fichier que l'on souhaite voir apparaître dans le tableur et de cliquer sur "Tableur1". C'est une matrice qui est visualisée dans un tableau. Le contenu de fichier généré (calcul de cooccurence, de résultats d'ACP...) est automatiquement placé dans un tableau, le traitement informatique est rendu transparent à l'utilisateur.

Le "Tableur1" est utilisé quand on veut visualiser un fichier important au niveau des colonnes (nombre de colonnes compris entre 200 et 3000). Le "Tableur2" est utilisé quand on veut visualiser un fichier moins important au niveau des lignes mais pouvant comporter plusieurs plan (Tableur 3D). Il est possible de créer de nouveaux fichiers à partir du tableur courant. Il suffit de le sauvegarder sous un autre nom.

Les menus accessibles du tableur sont :

- "Opération sur le champ sélectionné",
- "Opérations générales sur les données".

Il est possible de créer de nouveaux fichiers à partir du tableur courant. Il suffit de le sauvegarder sous un autre nom et éventuellement dans un sous répertoire.

Toutes les opérations de calcul de fréquence d'apparition sont archivées dans un fichier. Il suffit de se positionner sur le fichier que l'on souhaite voir apparaître dans le tableur et de cliquer sur "Tableur1" ou "Tableur2". C'est une matrice de 200 x 3000 ou de 3000 x 3000 qui est visualisée.

On distingue deux types de menus accessibles :

- Un menu disponible après une sélection de champs avec la souris permettant de manipuler les données sélectionnées,

- Un menu général d'opération portant sur tout le tableur.

4.3.1.1 Menu accessible après une sélection de champ

 

Annule lignes

On sélectionne la ligne et on la supprime

Annule colonnes

On sélectionne la colonne et on la supprime

Annule Ligne/colonne

Annule les deux

Annule le reste

Annule tout ce qui n'est pas sélectionné

Changer classes

Donner un identifiant à une classe d'objets, cela peut être intéressant quand on veut visualiser les classes avec des couleurs différentes

Changer poids

Donne un poids spécifique à la valeur sélectionnée

Changer valeurs

Met une valeur différente

Détail lignes

Donne le détail des labels des lignes sélectionnées.

Détail colonnes

Donne le détail des labels des colonnes sélectionnées.

Insérer Sigma_ligne

Calcul la somme des valeurs associées à chaque ligne

Insérer Sigma_colonne

Calcul la somme des valeurs associées à chaque colonne

 

Dans le tableur, il y a deux colonnes, (les deux dernières) qui sont consacrées aux valeurs des classes et aux valeurs des poids. Par défaut, une valeur identique leur est attribuée mais on peut jouer sur ces valeurs.

 

4.3.1.2 Menu d'opérations générales sur le tableur

Gestion L/C *

Toutes les opérations permettant de modifier les lignes et les colonnes du tableur, sont regroupées dans ce menu. Elles comprennent à la fois des manipulations mais également, des facilités de calcul pour optimiser la qualité des résultats.

Effectivement dans certains cas, les données brutes ne suffisent pas. Il faut relativiser l'importance d'une donnée par rapport à une autre, afin de pouvoir comparer des données comparables et éviter de graves erreurs d'interprétation.

Les analyses sur des fichiers de données sont parfois lourdes de conséquence et peuvent engager notre responsabilité. Ces erreurs n'ont pas de caractère exceptionnel, elles sont faites au quotidien, il ne faut pas les négliger.

Insérer ligne

Pour celà, se positionner à l'endroit désiré comme dans un tableur traditionnel.

Insérer colonne

Pour celà, se positionner à l'endroit désiré comme dans un tableur traditionnel.

Annule ligne

Sélectionner avec la souris la ligne à supprimer.

Annule colonne

Sélectionner avec la souris la colonne à supprimer.

Insérer marginale_li

Il est possible d'insérer le résultat numérique du calcul de la marginale de la ligne, qui est la somme des colonnes (et de ne pas oublier de l'enlever avant de visualiser les résultats). Par exemple, cela permet de donner une idée du nombre d'auteurs en relation avec un auteur (regarder la présence / absence).

Insérer marginale_co

Opération complémentaire à la précédente mais réalisée sur les colonnes.

Il est possible d'insérer le résultat numérique du calcul de la marginale de la colonne (et de ne pas oublier de l'enlever avant de visualiser les résultats).

Insérer MA_LI_AB

C'est une variante en valeur absolue

Insérer MA_CO_AB

C'est une variante en valeur absolue

 

Fig : Présentation du tableur et de la fenêtre sur les opérations générales

Option Saisie*

Ligne/ligne

Saisie par ligne

Colonne/colonne

Saisie par colonne

Saisie normale

Mode affichage*

Modifie le format de l'affichage. Il existe différentes possibilités :

- Format entier,
- Format *.x : à une décimale,
- Format *.xx : avec deux décimales,
- Format *.xxx : avec trois décimales,
- Format *.xxxx : avec quatre décimales.

Insertion avant

Insère une ligne après, relativement à la position courante

Insertion après

Insère une ligne avant, relativement à la position courante

Masquer zéro

Les champs du tableur contenant des zéros sont masqués

Démasquer zéro

Les champs du tableur contenant des zéros sont démasqués

 

 

Tris

Toutes les opérations de tris sont très utiles au niveau de l'analyse...Nous présentons dans cette partie uniquement le contenu des opérations de chacun des boutons. Ces tris sont associés à des opérations de calcul de valeurs marginales assorties de multiplications par des coefficients. Ils sont également utilisés seuls pour observer des tendances dans les associations de données.

Vous découvrirez au fur et à mesure de l'analyse l'intérêt de chacun de ces tris combinés ou non combinés.

Alpha_sur_ligne

Tri sur les lignes en fonction des noms

Alpha_sur_Colonne

Tri sur les colonnes en fonction des noms

Consistance_LI

Il trie selon la marginale des lignes

Consistance_CO

Il trie selon la marginale des colonnes

Consistance_C_A

Tri qui s'applique uniquement sur une colonne et non sur l'ensemble du tableau.

Consistance_L_A

Tri qui s'applique uniquement sur une ligne et non sur l'ensemble du tableau.

Connexité

Tri intéressant au niveau de l'analyse. Il permet de faire apparaitre des groupes (clusters) indépendants.

Bloc

L'idée est de faire apparaitre plus efficacement des "blocs", des groupes, des relations entre les individus lorsque le tri précédent ne fonctionne pas.

 

Import classes

Permet d'importer des classifications d’une vue sur une autre vue.

Différentiel

Cette fonction permet de faire la différence entre plusieurs plans du tableur dans le cas de l’utilisation du tableur en 3 dimensions.

Somme

Cette fonction permet de faire la somme entre plusieurs plans du tableur dans le cas de l’utilisation du tableur en 3 dimensions.

Transformation *

On peut être amené à modifier les données numériques c’est pourquoi nous avons intégré différentes fonctions de calcul.

Addition

addition à un coefficient près

Multiplication

multiplication par un coefficient

Division

division par un coefficient

Puissance

"Cas d'utilisation de données statistiques"

Logarithme

"Cas d'utilisation de données statistiques"

Exponentiel

"Cas d'utilisation de données statistiques"

Sinus

"Cas d'utilisation de données statistiques"

Cosinus

"Cas d'utilisation de données statistiques"

Tangente

"Cas d'utilisation de données statistiques"

Réduction var

"Cas d'utilisation de données statistiques"

Valeur absolue

"Cas d'utilisation de données statistiques"

Mettre des valeurs marginales revient à normaliser les valeurs en les rendant égale à 1. Toutes les données ont ainsi le même poids et la même marginale. Cette fonction est intéressante quand on veut pouvoir comparer qualitativement des données.

Par exemple, le calcul de la valeur marginale ou relative d'une ligne ou d'une colonne est très utile quand on veut extraire des groupes d'individus. Dans ce cas, on calcule les marginales et on effectue un "tri de connexité". Dans tous les cas, cette opération est complémentaire à une opération de tri (à un coefficient multiplicateur près).

Tij< - Tij/Mj

Divise la colonne par la marginale

Tij<- Tij/Mi

Divise la ligne par la marginale

Tij<-Tij/Mi*M

Divise chaque cellule par la racine carré des marginales de la ligne et de la colonne

Mode global

Mode par défaut, les transformations appliquées concernent alors tout le tableau.

Mode local

Mode optionnel, le champ d'application des transformations est alors restreint à la zone sélectionnée.

 

Historique :

Quand l'analyse s'intensifie, il est important de garder une trace des différentes opérations réalisées sur le fichier. C'est la fonction de la touche historique.

Enregistrer :

Permet de sauvegarder les données dans le même fichier après modification.

Enregistrer sous :

Permet d'enregistrer les données sous un autre nom, il suffit de rentrer le nouveau nom du fichier modifié et intègre la possibilité de créer un sous répertoire.

Nettoyage *
Doublons

Enlève les lignes identiques

Ligne monoval

Enlève les lignes contenant une seule valeur

Colonne monoval

Enlève les colonnes contenant une seule valeur

Erosion de seuil

Fixe un seuil mininal de prise en compte des apparitions de termes

 

Edition :

Ce sont des opérations d'édition associées aux données. Dans le tableur, les données sont présentées de façon simplifiée, on peut alors accéder au nom complet.

Identification

Donner le nom complet associé au nom sélectionné.

Sélection

Sélectionne une rangée (ligne ou colonne).

Recherche

Réalise la recherche d’un nom.

Doubles

Détermine les doubles associés à une ligne.

 

 

Zoom :

Cette fonction est très utile pour visualiser la structure du nuage de points (diffuse, concentrée le long d'une diagonale...). En observant simplement le nuage, nous savons si l'analyse en cours fait ressortir des résultats intéressants.

Fig : Présentation de l'infographie zoom

 

Nous vous donnons quelques indications pour savoir ce qu'il vous faut observer :

- Les points sont agglomérés le long d'une diagonale partant du coin supérieur gauche allant vers le coin inférieur droit.

* Les clusters situés vers le haut représentent les mots apparaissant avec une fréquence très importante dans le texte. Ce sont les mots de la requête. Ils ne présentent pas grand intérêt.

* Par contre, les clusters centrés le long de la diagonale font apparaître des liens plus intéressants qu'il faut étudier de plus près.

* Généralement, on élimine les extrêmes sauf si ce sont eux précisément qui nous intéressent.

- Les points sont dispersés, dans ce cas les données ne sont pas suffisamment traitées, il faut faire apparaître des points signifiants.
 
 
 
 
 

4.3.2 Analyse en Composantes Principales : "ACP"

4.3.2.1 La méthode ACP

 

Ce que peut nous apporter la méthode au niveau de l'analyse :

Elle nous permet de représenter un tableau de données comprenant des individus et des variables quantitatives. Elle éclaire l'analyse en partant des données les plus grandes quantitativement en allant vers les plus petites. Tout dépend de ce que l'analyste doit mettre en évidence. L'ACP est proposée en parallèle de l'AFC, chacune présentant une réalité commune d'un point de vue différent.

Par exemple, si on souhaite faire une étude comparée sur des pays en s'intéressant aux pays les plus grands on choisira l'ACP.

Présentation sommaire de la méthode :

L'Analyse en Composantes Principales (ACP) est une méthode d'analyse de données basée sur la recherche des axes principaux d'un nuage de points. Il est nécessaire dans un premier temps de rechercher les plus grandes valeurs propres. Les axes sont déterminés par les vecteurs propres qui sont les axes de plus forte inertie.

Le but de l'ACP est d'obtenir une carte factorielle, qui est une représentation lisible basée sur la représentation réduite d'un espace.

Dans l'annexe n°1, nous tenons à votre disposition des références et une présentation plus formelle de la méthode.

Utilisation concrète avec Tétralogie :

Le click sur la touche "ACP" (confirmé par un "OK") génère des fichiers du type carte factorielle :

fichier de type : ACPR_I_1.x

 

ACPR_V_1.x

L'un correspond au nuage associé au champ1 (I pour individus) dans l’espace des axes principaux du champ2 (V pour variables) associés aux valeurs propres. Le second correspond au cercle des corrélations des axes initiaux du champ2 avec les axes principaux.

Ces fichiers sont stockés sous le répertoire du croisement réalisé, dans le gestionnaire de fichier. Le croisement peut être fait entre deux champs (individu-variables avec x=1), mais aussi entre trois champs (individu-variables-référence x=1,..,4). On ne peut pas croiser plus de trois champs.

Il suffit de se positionner dans le menu Tétralogie sur le fichier d'ACP accessible de Tétralogie et de demander de visualiser les résultats dans un tableur associé ou bien dans une vue en plusieurs dimensions.

Histogrammes associés

Les résultats visant à évaluer la qualité d'une ACP sont visualisables dans des histogrammes de 6 types différents :

- Histogramme de représentation des valeurs propres,
- Histogramme de densité des individus,
- Histogramme de corrélation des individus,
- Histogramme de cumul (cumul des valeurs en rouge, sur 100% à atteindre en jaune),
- Histogramme de densité des variables,
- Histogramme de corrélation des variables.
En jaune, on retrouve les valeurs réelles et en rouge le pourcentage relatif à la plus grande valeur.

Fig : Présentation de la fenêtre des histogrammes associés

Quand on lance la méthode ACP, après confirmation de l'analyse, il apparaît une fenêtre nommée "observatoire ACP fichier : champ1-champ2". Dans cette fenêtre , si vous appuyez sur le bouton de droite, un menu historique apparaît. Vous pouvez ainsi garder une trace de toutes les opérations réalisées.

Il est aussi possible de tenir au fur et à mesure des commentaires en validant "OUI" dans remarque. L'éditeur de texte fait apparaître un fichier. Le fichier histogramme n'apparaît pas directement à l'écran. Il est accessible dans le gestionnaire de fichiers dans le répertoire : "racine" / résultats.

Edition de compte rendu :

Un gestionnaire de compte rendu permet de conserver une trace écrite de la démarche suivie et des étapes marquantes de l'étude (éliminations, simplifications, résultats numériques, cartes factorielles, etc.).

 

4.3.2.2 Les menus associés

Le fichier ACP est un fichier de données comme les autres. On peut afficher les résultats dans un tableur, les visualiser en plusieurs dimensions. Dans la description des vues en xD, nous présenterons les fonctions permettant de donner du sens à des analyses (les "liens").

Tétralogie a été conçu pour présenter chaque analyse dans un ou plusieurs fichiers standards.

4.3.3 Analyse Factorielle des Correspondances : "AFC"

4.3.3.1 La méthode AFC

Ce que peut nous apporter la méthode au niveau de l'analyse :

 

Elle nous permet d'étudier les liens existant entre les lignes et les colonnes d'un tableau. Les champs d'application sont les tableaux de contingence, de fréquences, de notes et plus généralement d'intensités, les tableaux binaires et surtout les tableaux de données qualitatives. Elle éclaire l'analyse en considérant tout d’abord les plus petits éléments (les plus typés, ne ressemblant pas aux autres) pour aller vers les plus grands éléments. C'est une analyse qui s'avère plus riche que l'ACP car :

- Les résultats sont peu sensibles aux perturbations des données (Méthodes robustes),
- Elle permet une représentation simultanée,
- Elle opère sur des profils et non des données brutes (évite les difficultés liées à la taille).

Présentation sommaire de la méthode :

L'Analyse Factorielle de Correspondances (AFC) ressemble à l'ACP. Elle est son équivalent pour les variables qualitatives. Elle permet de visualiser les paramètres et les individus dans le même espace, de sorte qu'on obtient une correspondance entre les deux sur une même carte.

Le but de l'AFC est d'obtenir une carte factorielle qui offre une représentation lisible basée sur la représentation conjointe des individus et des variables (lignes et colonnes).

Fig : Présentation de la fenêtre d'une AFC

Dans l'annexe n°1, nous tenons à votre disposition une présentation plus formelle de la méthode.

Utilisation concrète :

Le click sur la touche "AFC" génère des fichiers du type carte factorielle:

- fichier de type : AFC_V_1.x

AFC_I_V_1.x

L'un correspond au croisement du champ2 avec les axes associés aux valeurs propres. Le second correspond au croisement du champ1 et champ2 avec les axes associés aux valeurs propres. Ces fichiers sont stockés sous le répertoire associé au croisement réalisé, dans le gestionnaire de fichier. Le croisement peut être fait entre deux champs (x=1), mais aussi entre trois champs (x=1,..,3). On ne peut pas croiser plus de trois champs.

Il suffit de se positionner dans le menu Tétralogie sur le fichier d'AFC accessible et de demander la visualisation des résultats dans un tableur associé ou bien dans une vue en plusieurs dimensions.

Deux fichiers sont accessibles, l'un avec le premier champ uniquement, l'autre avec les deux champs simultanés. Il suffit de se positionner dans le menu Tétralogie sur un de ces fichiers et de demander de visualiser les résultats dans un tableur associé ou bien dans une vue en x Dimensions.

Le fait d'avoir deux types de fichiers est intéressant car on sélectionne les données signifiantes sur les individus, et, par le mécanisme d'importation et d'exportation de vue, il suffit d'exporter les résultats de l'une sur l'autre vue (cf présentation des fonctions import et export dans la description du menu).

Histogrammes associés :

Les résultats d'une AFC sont visualisables dans des histogrammes de 6 types différents :

- Histogramme de représentation des valeurs propres,
- Histogramme de densité des individus,
- Histogramme de corrélation des individus,
- Histogramme de cumul (cumul des valeurs en rouge, sur 100% à atteindre en jaune),
- Histogramme de densité variables,
- Histogramme de corrélation de variables.

En jaune, on retrouve les valeurs réelles et en rouge le pourcentage relatif

Quand on lance la méthode AFC, après confirmation de l'analyse, il apparaît une fenêtre nommée "observatoire AFC fichier : champ1-champ2". Dans cette fenêtre, si vous appuyez sur le bouton de droite, un menu histogramme apparaît. Vous pouvez ainsi garder une trace de toutes les opérations réalisées.

Il est même possible de tenir au fur et à mesure des commentaires en validant "oui" dans remarque. L'éditeur de texte fait apparaître un fichier. Le fichier histogramme n'apparaît pas directement à l'écran. Il est accessible dans le gestionnaire de fichiers dans le répertoire /résultats.

Edition de compte rendu :

Un gestionnaire de compte rendu permet de conserver une trace écrite de la démarche suivie et des étapes marquantes de l'étude (éliminations, simplifications, résultats, numériques, cartes factorielles, etc.).

Les menus associés

Le fichier AFC est un fichier de données comme les autres. On peut afficher les résultats dans un tableur, les visualiser en plusieurs dimensions.

Tétralogie a été conçu pour présenter chaque analyse dans un ou plusieurs fichiers standard (concept de modularité).

4.3.4 Classification Ascendante Hiérarchique : "CAH"

4.3.4.1 La méthode CAH


Ce que peut nous apporter la méthode au niveau de l'analyse :

La méthode génère un arbre représentant les différentes classes. Cet arbre est analogue de par sa forme à l'organigramme d'une entreprise. Chaque palier de l'arbre est la réunion d'autres paliers. Pour les visualiser par un graphique, on associe une hauteur à chaque palier.

La représentation adoptée par le logiciel Tétralogie rend cet arbre accessible. On peut couper à différents niveaux afin de déterminer des classes plus ou moins significatives.

Fig : Présentation de la fenêtre d'une CAH

Présentation sommaire de la méthode :

La méthode utilise des algorithmes de classification ascendante hiérarchique qui consistent à regrouper de façon itérative la population. On doit trouver un élément qui minimise un critère donné pour l’agrégation de deux classes. On recommence successivement sur les partitions obtenues.

On construit à l'aide d'une mesure de ressemblance nommée "'indice ou niveau d'agrégation" notée d une trace de l'arbre hiérarchique associé.

=>" Plus les individus se regroupent bas dans l'arbre, plus ils se ressemblent".

La hiérarchie est indicée car à chaque partition correspond une valeur numérique qui représente le niveau auquel ont lieu les regroupements. Plus l'indice est élevé, plus les parties regroupées sont hétérogènes.

Dans l'annexe n°1, nous tenons à votre disposition une présentation plus formelle de la méthode.

Utilisation concrète :

Après avoir lancé une analyse d'ACP et d'AFC, en se positionnant sur les fichiers générés dans le menu de Tétralogie, un menu de choix apparaît. Vous appuyez sur CAH. Le click sur la touche "CAH" génère un arbre hiérarchique.

- Au fichier de CAH est associé un arbre avec les axes de l'analyse en paramètre,
- Au fichier d'AFC est associé un arbre avec les termes analysés.

Dans cet arbre, nous pouvons couper à au niveau hiérarchique voulu et agrandir les branches grâce au bouton de gauche de la souris. Le bouton de droite fait apparaître un menu "histo" et "expo_c" (pour historique et exporte classifications vers tableur ou vers cartes factorielles)

Edition de compte rendu :

Un gestionnaire de compte rendu permet de conserver une trace écrite de la démarche suivie et des étapes marquantes de l'étude (éliminations, simplifications, résultats, numériques, cartes factorielles, etc.).

Dans le fichier : "racine"/resultat/histogramme, est indiqué le nom du fichier qui contient les résultats de la CAH. Ce fichier donne :

- Le nombre d'occurrences,
- Le nombre d'analyses,
- Le nombre de lignes,
- Le nombre de colonnes,
- Le nombre de classes,
- Pour chaque classe, l'effectif, le contenu de la classe et les mots clés.

4.3.4.2 Les menus associés

Le fichier analysé par CAH est un fichier de données comme les autres. On peut afficher les résultats dans un tableur, les visualiser en plusieurs dimensions. Dans la visualisation 4D du fichier de CAH, les classes sont alors représentées par des couleurs d'icônes différentes. Pour les séparer, il suffit de trouver un azimuth. Tétralogie a été conçu pour présenter chaque analyse dans un ou plusieurs fichiers standards (concept de modularité).

4.3.5 Classification Par Partition : "CPP"

4.3.5.1 La méthode CPP

 

Ce que peut nous apporter la méthode au niveau de l'analyse :

A la différence de la CAH, la méthode n’est pas hiérarchique. Il y a ni classe imbriquée, ni arbre. Elle décompose l'ensemble en un nombre de classes fixé à priori et initialisé par un ou plusieurs représentants de chacune des classes (un représentant : méthode des centres mobiles; plusieurs représentants : méthode des nuées dynamiques).

Présentation sommaire de la méthode :

La méthode utilise donc des algorithmes de classification non hiérarchique. Ces algorithmes sont basés sur le calcul de l'inertie interclasse, intraclasse et sur le regroupement autour des centres mobiles ou des nuées dynamiques. Les résultats sont présentés sous forme de cartes factorielles.

Cette méthode est basée sur l'existence d'un critère global qui mesure la distance entre les individus et par là même la qualité d'une partition.

Dans l'annexe n°1, vous trouverez une présentation plus approfondie de la méthode.

Utilisation concrète :

Le click sur la touche "CPP" amène dans une vue 3D du nuage pour sélectionner les classes à rechercher. Vous accédez à un sous menu permettant de faire tourner la carte factorielle, de sélectionner des points, de faire apparaître des classes différenciées par des couleurs.

 

"Vue 3D" : Les projections sont réalisées en trois dimensions mais avec la possibilité de faire tourner les axes pour observer des points particuliers.

Import

Permet d’importer une autre vue et de la substituer à la vue présente

zoom

Pour agrandir la vue

R_1_2

Rotation suivant les axes 1 et 2.

R_1_3

Rotation suivant les axes 1 et 3.

R_2_3

Rotation suivant les axes 2 et 3.

Option

couleur

 

icônes

 

identificateurs

 

trajectoires

 

reduction nuage

 

reduction point

 

selection axes

histo

Enregistre les opérations réalisées dans un fichier historique.

exp_ro

Permet d'exporter cette vue et de la substituer à la vue présente

 

"Vue 4D" :

Import

Un mécanisme d'exportation de vues permet à des groupes de travail d'exporter leurs vues, de communiquer les vues intéressantes qu'ils ont observées. Si vous sélectionnez le mode importation dans le menu alors vous pouvez recevoir un vue exportée par un autre analyste.

Zoom

Permet d'agrandir la représentation. Vous sélectionnez Zoom et vous cliquer sur la vue avec la souris (un bouton sert à agrandir l'autre à rétrécir la vue).

R_1_2

Rotation de la vue dans le plan des axes 1 et 2.

R_1_3

Rotation de la vue dans le plan des axes 1 et 3.

R_1_4

Rotation de la vue dans le plan des axes 1 et 4.

R_2_3

Rotation de la vue dans le plan des axes 2 et 3.

R_2_4

Rotation de la vue dans le plan des axes 2 et 4.

R_3_4

Rotation de la vue dans le plan des axes 3 et 4.

Option

Sous menu Option *

Histo

C'est une fonction de mémorisation du travail en cours.

Exp_ro

C'est la fonction complémentaire à l'importation de vues, elle signifie exporte la rotation. Il suffit de sélectionner ce mode pour transmettre un point de vue ou une autre vue du même nuage à un utilisateur distant ou bien en local .

Edit *

Sous menu Edit *

Liens

Une signalétique fondée sur la couleur exprime la notion de liens.

Cela identifie les liens entre les points. Les liens les plus clairs sont les plus forts et les liens les plus foncés sont les plus faibles.

Exp_cl

Elle signifie exporte la classification. Ce sont les classes associées aux vues, c'est-à-dire les couleurs. On peut ainsi communiquer les résultats d'une classification.

 

 

Sous menu Option :

Vous avez la possibilité d'observer l'espace tout entier en visualisant les groupes les plus forts présents sur les premiers axes et en glissant ensuite vers des groupes contenus dans les sous espaces. Le plus souvent les analyses se contentent d'observer un espace à une ou deux dimensions sans prospecter les vues intéressantes issues des autres espaces.

Au fur et à mesure, les vues deviennent de moins en moins significatives et les "items" sont de plus en plus amalgamés. Vous pouvez, en utilisant les boutons de votre souris, glisser ou bien revenir en arrière. Les axes de représentation sont numérotés par ordre décroissant.

Couleur

Une palette séparée en deux parties permet de changer les couleurs en correspondance avec les classes.

Glissement d'axes

- Le bouton de gauche de la souris sert à glisser vers les jeux d'axes,
- Le bouton central permet de revenir vers les vues précédentes (ou bien les deux boutons pressés simultanément, les deux boutons des PCs).

Identificateurs

Enlève les noms associés aux items.

Trajectoires

Dans les vues faisant intervenir plusieurs plans (4 au maximum) cette fonction permet de choisir des items dont on veut obtenir les trajectoires.

Réduction nuage

Joue sur une sélection en pourcentage de la réduction du nuage.

Réduction point

Sélection par des "oui" ou des "non" des items à sélectionner.

Sélection axe

Indiquer "oui" ou "non" à côté des axes numérotés à prendre en compte pour afficher la vue (il faut en sélectionner 4).

 

Sous menu Edit * :

Vous pouvez grâce à ces fonctions qui sont disponibles dans la plupart des environnements, accéder au contenu de tout ou partie d'une sélection. On peut visualiser le contenu associé à chaque item repéré et valider par conséquent les hypothèses émises lors de l'analyse des vues.

Cette possibilité est couramment utilisée pour accéder aux documents liés aux termes identifiés, ou bien visualiser un groupe de mots corrélés mis en évidence lors de l'analyse. Surtout, elle est intéressante car constamment on peut se ramener à des données concrètes, baser ses résultats sur des faits. Il est important que l'analyste reste maître de ses choix. Les notices contenant les termes sélectionnés sont constamment disponibles.

Identification

Identifie un élément sélectionné avec accès aux doublons et aux notices.

Sélection

Sélectionne uniquement le contenu d'un "item". Cette fonction donne la liste des synonymes et les notices associées.

Recherche

Recherche des doublons.

Doubles

Les "items" identiques sont cumulés sur un seul dont le poids est habituellement celui de l'ensemble qu'il représente. Un nom est donné à l'ensemble mais ce n'est pas forcement le plus représentatif. En cas de doute, on peut vérifier les groupes de mots représentés par ce thème.

Menu.

Multi selection

Elle permet grâce à une "fonction crayon" d'isoler un groupe "d'item" très significatif. Le contenu de la sélection apparaît avec un sous menu :

- "reste" : ne garde que la sélection dans la vue,
- "identification" : retour aux notices,
- "identification" : collaboration du groupe sélectionné.

 

Autres commandes :

"Edition" : Possibilité d'imprimer.

"Destruction" : Possibilité de détruire le fichier sélectionné.

"Règles" : Cette fonction donne les caractères prédominants par classes. Ils permettent de retrouver les classes ou bien d'associer un type à une classe donnée.