3- Les scénarios : principes généraux




 

 

3.1 Prétraitement

Nous allons présenter dans le détail les différentes opérations de préparation de la base de données. Nous détaillerons et donnerons en annexes différents exemples de fichiers associés.

3.1.1 Le descripteur de la base de données

3.1.1.1 Intérêt du fichier" basededonnees"

 

Les bases de données documentaires possèdent une structure particulière. Souvent, l'analyste se heurte à un problème de reconnaissance des champs de données et se pose la question inévitable :

Où se trouve l'information pertinente?

On peut penser à tort qu'elles sont souvent suffisamment indexées, et qu'il suffit d'interroger par mot-clés pour en retirer des documents significatifs. Cette technique est qualitativement aléatoire et assez décevante.

C'est pourquoi, notre méthode consiste à extraire du sens d'une certaine quantité de documents. Le fichier descripteur de la base a été pensé dans cette esprit. Il est conçu suivant un principe, une forme mais il est propre à la structure de chaque base d'information. Vous n'avez pas besoin de reformater une base, vous l'utilisez telle qu'elle est conçue. Nous vous présentons comment construire le fichier "basededonnées".

3.1.1.2 Création du fichier "basededonnees"

Chaque base a un format de données spécifique, son contenu et sa structure dépendent du support de diffusion. Le descripteur est nommé "basededonnees", il est reconnu par le système sous ce nom. Il est à positionner dans le répertoire d'analyse, à côté de la base de document considérée.

Il se conçoit de la façon suivante :

Nom du champ

Abréviation

Champ

Visible

Séparateurs

Nom complet du champ de données

Choix de l'abréviation

Champs correspondant dans la base

Tous les champs de la base doivent être représentés

TRUE = actif

FALSE = passif

Le choix dépend de l'ordonnance-ment interne des données.

On isole les groupes de mots intéressant

Ainsi pour une notice bibliographique de la base Biosis ayant la structure suivante :

Fig : Exemple d'une notice bibliographique de la base Biosis.

Le fichier "basededonnees" prend la forme suivante :

Fig : Exemple du contenu du fichier "basededonnes" correspondant

A chaque champ est associée une structure d'extraction, appelée séparateur. Celle-ci décrit l'ensemble des informations élémentaires que l'utilisateur désire sélectionner. On appelle "forme" l'élément bibliométrique pouvant être considéré comme unité minimale significative. Une forme peut être caractérisée par différents aspects, suivant les besoins : un mot, un code, une affiliation… Le découpage est fondé sur des séparateurs comme les caractères de ponctuation ou l'espace existant entre deux mots (symbolisé par la lettre "b" comme blanc). Tout dépend ensuite du niveau de découpage désiré. Pour détecter le début d'une nouvelle notice, on inscrit en tout début du fichier les premiers mots apparaissant sur la première ligne de la notice. Pour cet exemple, la présence d'une ligne vide entre la dernière ligne d'une notice et la première ligne de la notice suivante devient l'indicateur; et est symbolisée par le mot "Vide".

Par l'expérience, vous apprécierez vous-même comment concevoir ces fichiers. Pour vous donner des idées, des modèles de "basesdedonnees" sont joints en annexe n°2.

Nous vous donnons des indications pour vérifier simplement si vous n'avez pas commis d'erreurs.

3.1.1.3 Contrôle de sa validité

Après la création de ce fichier, vous lancez un comptage des champs à analyser. Il peut se produire différents cas de figure :

  • Le comptage échoue : il y a une erreur dans la conception du fichier. Il faut revenir dans le gestionnaire de fichier et vérifier.

  • Le comptage se déroule normalement dans ce cas vous visualisez les fichiers "champ.ind" :


    * si le comptage par mot n'a pas isolé tous les mots rencontrés alors vous avez commis des erreurs dans le choix des séparateurs : il faut revérifier !

    * si les mots sont bien tous isolés alors vous pouvez continuer la préparation de la base en vérifiant un autre champ.

    Dans l'annexe n°2, vous trouverez des fichiers du type "nom.ind", "nom. indF" et "nom.indA".
  • 3.1.2 Le premier comptage

    Après avoir créé le fichier "basededonnees", on réalise un premier calcul des fréquences d'apparition de chaque terme sur l'ensemble du corpus par la procédure de comptage pour les champs qui nous intéressent. Il suffit pour cela de cliquer sur le bouton qui se trouve à l’intersection de la ligne individu et de la colonne des variables.

    Fig : Présentation de la fenêtre de calcul des fréquences

    Ces champs sont alors découpés mot à mot ou item par item en fonction des séparateurs définis précédemment. Il y a création de trois fichiers pour chaque champ sélectionné :

  • Champ.indF comme par exemple TI.ind pour le champ titre: ce fichier contient la liste des items trouvés dans le champ analysé. Ces items sont précédés de leur fréquence d'apparition au sein de l'ensemble du corpus et sont classés par ordre de fréquence décroissante.

  • Champ.indA: compte les mêmes mots classés par ordre alphabétique toujours suivis de leur fréquence d'apparition.

  • Champ.ind: ce fichier est identique au fichier XX.ind, sans les fréquences.

    Le fichier Champ.ind va parfois servir de référence pour effectuer par la suite les croisements. Aussi est-il recommandé auparavant de le "nettoyer" des mots vides, des synonymes ainsi que des mots ayant une faible fréquence d'apparition.
  • 3.1.3 Création des dictionnaires

    Dans une analyse, il est recommandé d'extraire les termes de plus grand sens. Cette extraction se réalise méthodiquement après une utilisation par défaut de divers "dictionnaires" ou corpus de mots signifiant par leur sens ou leur non-sens. L'utilisation de fonctions UNIX est très commode.

    Les dictionnaires permettent d'extraire du même champ des informations de caractères différents (année, ville, pays...). Ils jouent un rôle important notamment dans le traitement de textes libres en typant les données.

    Nous allons vous indiquer les grands principes; il n'empêche que ces conseils ne sont pas limitatifs, vous pouvez les enrichir de votre propre expérience d'analyste. Nous vous proposons quelques indications pour construire des dictionnaires.

    3.1.3.1 Mots vides

    Le dictionnaire des mots vides regroupe les mots utilisés communément dans la structuration d'une langue mais n'ayant pas grand intérêt pour analyser une base documentaire. Il s'agit, par exemple, des articles, des adverbes, des pronoms ou des verbes auxiliaires. Ce dictionnaire se construit au fur et à mesure du temps et s'enrichit avec de nouveau corpus. Il est donc réutilisable au moment des opérations de comptage.

    Par défaut, nous pouvons vous fournir un dictionnaire des mots vides qu'il vous suffira d'adapter à vos besoins. Ce dictionnaire s'utilise en filtre négatif afin d’éliminer leur contenu de la base.

    3.1.3.2 Les synonymes

    Plusieurs mots peuvent avoir le même sens. Il est utile de construire par champ analysé un dictionnaire de synonyme. Vous pouvez essayer de les construire manuellement, ce qui est par expérience assez aléatoire. L'oeil humain est moins sûr qu'un algorithme bien construit pour trier efficacement.

    Prenons par exemple le fichier des auteurs, les auteurs signent avec leur nom, leur(s) prénom(s), les prénoms sont tronqués plus ou moins. Il est important de trouver toute la production d'articles propres à un seul auteur. Il faut donc synonymer efficacement.

    Grâce au menu de synonymage, vous créez automatiquement à partir des "champ.ind" des synonymes par champ obtenu après l'opération de comptage simple. Il vous faudra relancer de nouveaux comptage en tenant compte des fichiers de synonymes. Il est préférable de faire vérifier le synonymage par un expert du domaine.

    Fig : Présentation de la fenêtre de synonymie

    3.1.4 Le second comptage

    Fig : Représentation schématique des opérations du second comptage

    Muni d'un dictionnaire de mots vides et du fichier de synonymes, vous devez réaliser un second comptage afin d'obtenir les fichiers "champ. ind", "champ.indA" et "champ.indF" avec des termes à des fréquences correctes. A partir du dernier fichier cité, vous créez les filtres positifs.

    3.1.5 Les filtres

    Les champs significatifs de la base de données peuvent être découpés mot à mot pour en extraire les mot-termes ayant le plus de sens. Grâce au fichier "champ.indA", vous voyez aisément les noms qui ne présentent aucun intérêt (chiffres isolés, lettres isolés, références...). Vous pouvez les enlever manuellement par exemple.

    En utilisant efficacement le dictionnaire des fréquences ("champ.indF"), vous éliminez les termes qui n'apparaissent que une fois ou deux. Cela permet de réduire le volume des fichiers et d'éviter de noyer les informations importantes (typologies dues à l’unicité).

    Dans la dernière version de Tétralogie, il vous est possible de réaliser automatiquement des filtres et de choisir le seuil de fréquences d'apparition des termes.

    Fig : Présentation de la fenêtre de création de filtres

    Le fichier repensé, peut être sauvegarder en "nom.Filtre". Ce fichier sera utilisé au moment du comptage. Ces filtres sont utilisés en filtres positifs afin de limiter le nombre de variables.

    Les principaux filtres portent sur les champs : Journal, Pays, Année, Société, Auteur_colonne, Descripteur, Code.

    En fonction de votre analyse, vous pouvez créer un filtre sur chaque champ ou bien au fur et à mesure de vos besoins.

    3.2 Comment utiliser ces dictionnaires pour réaliser le croisement ?

    3.2.1 Utilisation pratique

     

    Le croisement est la base de l'analyse. Il faut utiliser à bon escient les différents dictionnaires et les filtres. De la qualité de la préparation de la base de données dépend la qualité de l'analyse. Il ne faut rien laisser au hasard. En principe si vous avez suivi rigoureusement notre méthode, vous devez obtenir un premier résultat. L'analyse d'un corpus est délicate, elle s'opère par raffinage successif de l'information ainsi qu'avec astuce et intelligence.

    Vous avez deux possibilités soit :

  • Le croisement terme à terme : "cooccurrence simple",

  • Le croisement terme à terme avec un troisième champ : "cooccurrence multiple" pour étudier les différences de comportement (sur des annuités par exemple).

    Dans chacun de ces cas, vous avez une vue avec des boutons situés aux croisements des champs. Vous cliquez sur le bouton situé à l'intersection.

    Dans le tableau suivant, nous présentons le contenu des champs actifs :

    Nom du champ

    Fréquence minimale d'apparition des termes

    %

    liste de mots

    .Filtre

    Synonymes

    .Syn

    Nom du champ

    matrice de croisement

    au choix (0 à tous)

    les basses fréquences

    à éliminer

    les filtres positfs ou négatifs

    les dictionnaires de synonymes

    opération à réaliser

    cliquer

    modifier en entrant la valeur choisie

    modifier en entrant la valeur choisie

    insérer uniquement le nom avec un moins si le filtre est négatif

    insérer uniquement le nom avec un moins si le filtre est négatif

    3.2.2 Intérêt de la méthode
  • Les informations présentes dans les titres, les résumés et les textes sont presque systématiquement ignorées. La reconnaissance des limites de techniques telles que les co-citations a conduit à envisager des méthodes qui traitent directement le contenu des publications. Un texte mobilise des notions qu'il partage avec d'autres textes. Une spécialité peut être identifiée par son propre vocabulaire, par les associations singulières qu'elle établit entre les mots.

    Il faut rendre compte à la fois du contenu du texte et des connexions avec d'autres textes. Plus des mots cooccurrents apparaissent dans des textes différents, plus les connexions entre ces textes se renforcent. L'analyse des cooccurrences est utilisée dans Tétralogie en amont, elle est complétée par d'autres méthodes d'analyse ACP, AFC ... et des tris pour extraire des groupes ou des liens logiques.

    3.3 Comment utiliser les tris combinés avec les transformations ?

    Une fois une analyse réalisée par l'intermédiaire d'une méthode du type ACP, AFC, les données ne sont pas directement exploitables. L'idée première est de faire apparaître des groupes homogènes. Grâce à la fonction zoom du tableur, vous pouvez savoir rapidement si ces groupes sont bien distincts. Les valeurs non nulles du tableau (points du nuage) doivent être concentrées le long d'une ligne (la diagonale) partant du coin gauche en haut et allant vers le coin droit en bas.

    Seulement, ce n'est pas toujours évident même avec une préparation soigneuse de la base d'obtenir ce résultat. Il faut encore appliquer des méthodes de traitement (menu transformation) et de tri (menu tri) sur les données. Pour éviter de compliquer les choses, nous allons vous présenter dans un tableau en fonction de ce que vous visualisez et du résultat que vous souhaitez obtenir.

    Nous vous donnons quelques idées des principales questions que vous pouvez vous poser au moment d'observer les données croisées :

    Ce que vous observez

    Méthode

    - Opération n°1 :

    Vous n'obtenez pas des groupes homogènes le long de la diagonale par un simple tri de connexité ou de bloc :

    - Transformation en divisant les cellules par la racine carrée des marginales,
    - Multiplication par au moins 100 ou 1000 de tout le tableau,
    - Erosion à partir d'un seuil de 2 et plus si nécessaire,
    - Tri de connexité (vous pouvez rediriger le résultat du tri de connexité en lançant Tétralogie > fichier, vous pourrez ainsi visualiser les groupes de mots). N'oubliez pas de sortir de Tétralogie.

    - Opération n°2 :

    La première opération a peu de résultat

    - Choisir de préférence des tris par blocs plutôt que des tris de connexité.

    - Opération n°3 :

    J'obtiens des groupes vers le bas de ma diagonale mais le reste est toujours lié :

    Procéder de façon récursive :

    - Isoler la partie toujours liée en la sauvegardant sous un autre nom,
    - Utiliser la méthode n°1 en augmentant le seuil progressivement et à chaque itération ne garder que la partie non triée.

    Quelques soient les tris toutes mes informations sont liées

    Regardez le synonymage et vérifiez vos filtres ainsi que le Thésaurus créé. Il doit y avoir une erreur quelque part. Avez-vous pensé au seuil d'érosion ?

    J'ai fait une AFC, ai-je besoin de triér mes données ?

    Non, l'AFC et l'ACP s'observent d'elles-mêmes. Par contre, pour vérifier les résultats, il est intéressant de trier récursivement en utilisant les outils mis à votre disposition.

     

     

    3.4 Mots composés de la spécialité : les multi-termes

    A partir du milieu des années 80, on constate que de nombreux auteurs associent deux mots, et plus, par des traits d’union. On les désigne alors mots composés. Les auteurs désirent exprimer ainsi de nouvelles idées. La fonction Multi terme de Tétralogie découle de cette hypothèse. L’objectif est, alors, d’extraire de tous les titres, uniquement les mots composés et à la suite d’une succession d’étapes, de réaliser une cooccurrence simple entre ces mots composés.

    Fig : Représentation schématique des premières étapes de la cooccurrence de multi-termes.

    Cette procédure débute par :

    - un comptage des mots du titre avec le filtre négatif des mots vides,
    - la création du fichier de synonymie
    - un nouveau comptage sur les mots du titre avec le filtre négatif des mots vides et le fichier de synonymie

    Du fichier Champ.ind ainsi généré, on extrait les mots composés. Pour cela, vous devez utiliser des commandes Unix à l'aide du terminal.

    1. grep -v Champ.ind > dico1
    Dans le fichier Champ.ind, Extrait tous les mots comprenant un tiret pour les mettre dans le fichier dico1.

    2. sed "s / - / / g" dico1 > Thésaurus
    Remplace les tirets par des blancs et réenregistre cette nouvelle liste dans le fichier Thésaurus

    3 . rm dico1
    Supprime le fichier dico1

    Après ces manipulations, vous obtenez le dictionnaire de la spécialité qui constitue un nouveau fichier : le thésaurus. Remarquez que ce fichier ne doit contenir que des mots composés sans tirets. Un expert du domaine doit valider et ajouter éventuellement de nouveaux mots.

    Quelquefois cette opération n'est pas suffisante. Nous avons implanté un algorithme d'analyse statistique sur la fréquence d'apparition des termes. Il s'utilise pour les mots composés de la façon suivante :

    - Cliquer sur la fonction Multi-termes
    - Mettre en entrée le fichier des mots vides et une liste des mots composés avec tirets extraite des titres et des abstracts,
    - Choisir un indice de fréquence d'apparition faible (au moins deux ou trois)

    Le logiciel va comparer les mots du champ choisi à ceux inscrits dans le thésaurus. Il ne gardera que les mots composés qui ne sont pas en commun et qui ont une fréquence d'apparition supérieure ou égale à un seuil imposé par l’utilisateur.

    Il y a alors création de deux fichiers. L'un d'eux, Champ.mul, restitue une liste de nouveaux mots composés. Après une vérification manuelle des propositions, ces mots composés sont intégrés dans le fichier thésaurus, en prenant soin auparavant de supprimer les doublons. Pour cela il faut taper sur le terminal les commandes Unix suivantes :

    - sed " s / - / / g " Champ.mul > dico1

    - cat Thésaurus dico1 > dico2
    Fusionne les fichiers Thésaurus et dico1 dans le fichier : dico2

    - sort -u dico2 > THESAURUS2
    Dédoublonne et dispose la liste des mots par ordre alphabétique

    - rm dico1 dico2

    Le second fichier, Champ.MTM, remanie les notices du corpus en y ajoutant un nouveau champ, nommé "MTM" au dessus de celui du titre. L'information qui s'y trouve est assimilable à celle d'une indexation automatique du titre. Celle-ci s’est faite à partir du fichier thésaurus. A chaque fois qu’un mot du titre se trouve dans le thésaurus et / ou que sa fréquence est ³ 2, le logiciel l’intègre dans le nouveau champ.

    Fig : Présentation d'une notice comprenant le nouveau champ MTM

    Remarque :

    L'intérêt de cette première opération est d'obtenir de nouveaux mots composés qui nous auraient échappés. Par contre, elle indexe le champ à partir de mots apparaissant à de faible fréquence. Or l'indexation n'est pertinente qu'à partir d'un seuil de fréquence bien plus élevé. C'est pourquoi, à l'aide d'un thésaurus complet, il faut réaliser une seconde cooccurrence sur les multi-termes avec un seuil d'au moins égal au nombre total de notices présentes dans le corpus.

    A partir de cette nouvelle structure de notice, on réalise les mêmes procédures que pour tout autre champ. Auparavant, il faut notifier sur le fichier "basededonnees" l'existence de ce nouveau champ. De plus, il faut renommer le premier corpus et baptiser le nouveau corpus avec l'extension ".not". On réalise par la suite sur ce champ :

    - un comptage avec le filtre négatif des mots vides
    - la création du fichier de synonymie
    - un nouveau comptage avec le filtre négatif des mots vides et le fichier de synonymie
    - la constitution d’un filtre positif de 3000 lignes au maximum à partir du MTM.ind.
    - la cooccurrence simple ou multiple sur ce champ

    Fig : Opérations nécessaires pour le comptage de mots composés

    3.4.1 Contrôle de la validité

    Chacun des fichiers créés doit être observé et trié minutieusement par l'observation ou par des algorithmes. Nous essayons constamment de vous faciliter la tâche et d'intégrer au maximum des outils de traitement des corpus de mots. Ils nécessitent une mise au point délicate aussi bien au niveau du choix des algorithmes que du degré de performance. Il sont également propre à une langue. Contactez-nous pour nous faire part de vos suggestions.

    3.5 Les multi-Bases

    Tétralogie offre aussi la possibilité d’analyser un ensemble de notices provenant de différentes bases et possédant par conséquent des structures différentes.

    Vous devez pour cela constituer un corpus pour chaque télédéchargement de notices provenant d’une nouvelle base. Il faut leur approprier l’extension " not.1 ou not.2 etc… ". A chacun de ces corpus, vous lui associez un fichier " basededonnees " qui prendra la même extension. Ainsi pour un corpus nommé " art.not.1 ", le descripteur se nommera " basededonnees.1 ". Vous devez faire attention de donner le même intitulé pour chaque champ commun d’un corpus à d’autre. En dernier lieu, il faut créer le descripteur sur lequel s’effectuera tous les comptages et qui mettra en commun les descripteurs de chaque corpus. Vous le dénommer " basededonnees " sans aucune extension.

    Remarque :

    Cette performance unique sur l’ensemble des logiciels commercialisés, soulève cependant la question de l'existence de doublons. En effet, en télédéchargeant des notices provenant de plusieurs bases différentes à partir d’une équation de recherche sensiblement identique, il est fortement probable que vous obteniez plusieurs fois la même notice. Tétralogie ne dédoublonne pas systématiquement le corpus car l'équipe de recherche de l’IRIT émet le principe suivant : si un article se trouve au sein de deux ou plusieurs bases, cela signifie qu'il a une plus grande reconnaissance scientifique qu’un article présent dans une seule base. La valeur ajoutée de cet article est par conséquent traduite par le nombre de fois qu’il est présent dans la corpus. Ainsi les mots qui lui sont propres sont comptés autant de fois que la notice est présente et lui attribue ainsi un poids plus fort. Cette démarche est discutable ; mais elle révèle le cadre dans lequel Tétralogie est conçu.

    Fig : Constitution des descripteurs pour une analyse multi-base

    A ce stade de l'analyse, les opérations qui suivent sont identiques à celles effectuées à partir d'un étude monobase.

    3.6 Modèles d'analyse

    Une analyse est dépendante du type de données et de son objectif. Il est impossible de proposer une méthode universelle, par contre nous vous proposons une démarche.

    On peut différencier plusieurs classes de croisements :

    - Classe 1 : les croisements de cooccurrence (deux champs identiques),
    - Classe 2 : les croisements temporels (vision dans le temps des données),
    - Classe 3 : les croisements spatiaux (vision mondiale ou locale),
    - Classe 4 : les croisements de données différentes.

    Les trois premières classes sont plus faciles à appréhender, conceptuellement on compare facilement une donnée à elle-même, dans le temps et l'espace.

    La quatrième doit induire une idée précise du sens que l'on veut extraire. Par exemple comparer des journaux à des articles, idée à en retirer : Si les bibliographies collent trop à certains journaux cela induit une faible ouverture. On peut également vérifier l'indexation en comparant les mots clés des auteurs et l'index de la base, ou bien les mots clés et les journaux, ou encore les titres et les auteurs ...

    3.7 Perspectives

    Il peut être intéressant de traiter du texte provenant du Web. Aussi une équipe de l'IRIT oriente ses recherches sur les possibilités d'analyser les documents Multimedia via Tétralogie.

    Fig : Représentation schématique des perspectives en pré-traitement de document Web

    L'agent 1 pose une requête à un moteur de recherche dont Altavista. Celui-ci va nous remettre une base d'URLs. Ces adresses vont être consultées par l'agent 2 qui alors récupére tous les documents sous format HTML. L'agent 3 les transforme en un format adapté pour Tétralogie.