La
gestion des applications en cours
Les
modes d'accès aux bases de données
Les
structures des bases de données
Le
format du descripteur de structure
L'élaboration
de filtres et de thésaurus
L'élaboration
de dictionnaires de synonymes
Les
techniques de croisement des informations
Les
stratégies d'épuration des matrices
TETRALOGIE permet à une équipe de chercheurs ou à un ingénieur en information de gérer, en parallèle, un grand nombre de sujets eux mêmes décomposés en sous ensembles correspondant, soit à plusieurs bases interrogées, soit à différentes stratégies de croisement de l'information ou à différents niveaux d'affinage. De plus, les analyses conduisent très souvent à des simplifications successives dont l'historique doit être conservé et commenté en vue de l'élaboration d'un rapport final. Une structure arborescente, comparable à celle d'UNIX, a donc été adoptée pour organiser au mieux cette gestion.
Les modes d'accès aux bases de données
Les bases de données ou les sources d'information sont presque toutes compatibles avec TETRALOGIE, qu'elles soient accessibles par le réseau commuté, les réseaux spécialisés ou disponibles sur CD/Rom. Lorsque les formats ne sont pas directement compatibles, les utilitaires UNIX permettent leur transcodage immédiat (PC, MAC).
Les
structures des bases de données
Chaque base de donnée possède sa propre structure et nous avons dû nous adapter, de façon très souple, aux différents formats rencontrés. De plus, la structure et le contenu d'une même base dépendent de son mode de diffusion et du support sur lequel elle est implantée (en ligne, sur CD/Rom). Aussi, avons nous conçu un descripteur paramétrable de la structure des bases qui s'adapte fidèlement à chaque cas.
Le format
du descripteur de structure
Ce descripteur définit les différents champs de la base, en identifiant leur bannière, leurs séparateurs, leur utilité et les divers types d'information qu'ils contiennent. Il permet aussi de repérer le début de chaque notice ainsi que la structure physique de l'enregistrement (format et nombre d'occurrences des bannières).
L'élaboration de filtres et de thésaurus
Afin de récupérer l'information utile de champs non codés (titre, résumé,...) ou de limiter les recherches d'information à un sous domaine (auteurs, revues , mots clés, codes, années, pays,...), il est utile de disposer de filtres ou de thésaurus qui dépendent bien évidemment de l'ensemble des informations disponibles. Nous avons donc écrit un module d'aide à la consti- tution de ces outils, qui permet de générer des fichiers triés, soit par ordre alphabétique, soit par ordre décroissant de fréquence et qui, par l'intermédiaire des éditeurs, facilitent grandement cette tâche préliminaire mais essentielle.
L'élaboration de dictionnaires de synonymes
Certaines informations sont sémantiquement équivalentes ou hiérarchisées, aussi est-il très utile de disposer de dictionnaires de synonymes, si nécessaires hiérarchiques, afin de regrouper des éléments jugés par l'utilisateur comparables ou imbriqués ou alors codés de façon anarchique par les concepteurs de la base (ex: années, pays, sources, ...). Des dictionnaires de synonymes à plusieurs niveaux (cf :Medline) sont utilisables dans TETRALOGIE pour retrouver des informations difficilement déchiffrables ou pour plus ou moins affiner les analyses.
Les techniques de croisement des informations
Les informations peuvent être croisées entre deux champs, sous champs ou groupes de champs afin d'obtenir des matrices de fréquence, de présence-absence ou de co-occurrence sur lesquelles porteront ensuite les analyses. Pour les données biparties ou évolutives, il est possible de faire intervenir un troisième champ afin d'éclater la matrice en deux, trois ou quatre plans afin d'analyser les différences induites (absolues , relatives, vitesses, accélérations, implosions, explosions,...).
Les stratégies d'épuration des matrices
Des niveaux de coupure portant sur la fréquence ou le taux d'information peuvent être appliqués automatiquement afin de réduire le volume des tableaux obtenus et ainsi de simplifier le travail d'analyse et de diminuer, de façon significative, les temps de calcul et la complexité des cartes factorielles et des arbres de classification associés.