le module de manipulation du corpus

LE MODULE DE MANIPULATION DU CORPUS

Il permet, dans un premier temps, d'interfacer chaque base de données bibliographiques ou chaque source d'information avec un utilitaire unique qui effectue, à la demande, les croisements entre les renseignements significatifs (exogènes ou endogènes) contenus dans le corpus. Cet outil fait intervenir un certain nombre de notions que nous allons maintenant détailler.

La gestion des applications en cours
Les modes d'accès aux bases de données
Les structures des bases de données
Le format du descripteur de structure
L'élaboration de filtres et de thésaurus
L'élaboration de dictionnaires de synonymes
Les techniques de croisement des informations
Les stratégies d'épuration des matrices

La gestion des applications en cours

TETRALOGIE permet à une équipe de chercheurs ou à un ingénieur en information de gérer, en parallèle, un grand nombre de sujets eux mêmes décomposés en sous ensembles correspondant, soit à plusieurs bases interrogées, soit à différentes stratégies de croisement de l'information ou à différents niveaux d'affinage. De plus, les analyses conduisent très souvent à des simplifications successives dont l'historique doit être conservé et commenté en vue de l'élaboration d'un rapport final. Une structure arborescente, comparable à celle d'UNIX, a donc été adoptée pour organiser au mieux cette gestion.

Les modes d'accès aux bases de données

Les bases de données ou les sources d'information sont presque toutes compatibles avec TETRALOGIE, qu'elles soient accessibles par le réseau commuté, les réseaux spécialisés ou disponibles sur CD/Rom. Lorsque les formats ne sont pas directement compatibles, les utilitaires UNIX permettent leur transcodage immédiat (PC, MAC).

Les structures des bases de données

Chaque base de donnée possède sa propre structure et nous avons dû nous adapter, de façon très souple, aux différents formats rencontrés. De plus, la structure et le contenu d'une même base dépendent de son mode de diffusion et du support sur lequel elle est implantée (en ligne, sur CD/Rom). Aussi, avons nous conçu un descripteur paramétrable de la structure des bases qui s'adapte fidèlement à chaque cas.

Le format du descripteur de structure

Ce descripteur définit les différents champs de la base, en identifiant leur bannière, leurs séparateurs, leur utilité et les divers types d'information qu'ils contiennent. Il permet aussi de repérer le début de chaque notice ainsi que la structure physique de l'enregistrement (format et nombre d'occurrences des bannières).

L'élaboration de filtres et de thésaurus

Afin de récupérer l'information utile de champs non codés (titre, résumé,...) ou de limiter les recherches d'information à un sous domaine (auteurs, revues , mots clés, codes, années, pays,...), il est utile de disposer de filtres ou de thésaurus qui dépendent bien évidemment de l'ensemble des informations disponibles. Nous avons donc écrit un module d'aide à la consti- tution de ces outils, qui permet de générer des fichiers triés, soit par ordre alphabétique, soit par ordre décroissant de fréquence et qui, par l'intermédiaire des éditeurs, facilitent grandement cette tâche préliminaire mais essentielle.

L'élaboration de dictionnaires de synonymes

Certaines informations sont sémantiquement équivalentes ou hiérarchisées, aussi est-il très utile de disposer de dictionnaires de synonymes, si nécessaires hiérarchiques, afin de regrouper des éléments jugés par l'utilisateur comparables ou imbriqués ou alors codés de façon anarchique par les concepteurs de la base (ex: années, pays, sources, ...). Des dictionnaires de synonymes à plusieurs niveaux (cf :Medline) sont utilisables dans TETRALOGIE pour retrouver des informations difficilement déchiffrables ou pour plus ou moins affiner les analyses.

Les techniques de croisement des informations

Les informations peuvent être croisées entre deux champs, sous champs ou groupes de champs afin d'obtenir des matrices de fréquence, de présence-absence ou de co-occurrence sur lesquelles porteront ensuite les analyses. Pour les données biparties ou évolutives, il est possible de faire intervenir un troisième champ afin d'éclater la matrice en deux, trois ou quatre plans afin d'analyser les différences induites (absolues , relatives, vitesses, accélérations, implosions, explosions,...).

Les stratégies d'épuration des matrices

Des niveaux de coupure portant sur la fréquence ou le taux d'information peuvent être appliqués automatiquement afin de réduire le volume des tableaux obtenus et ainsi de simplifier le travail d'analyse et de diminuer, de façon significative, les temps de calcul et la complexité des cartes factorielles et des arbres de classification associés.