Copyright (c) Memodata 1998-2005

Web Memodata 

 
       

III] Les applications du sémiographe

III.1] Les applications OFF-LINE

Nous considérons "off-line" les applications qui n'ont pas de contraintes temps réel.

  • Le routage de textes, la diffusion sélective d'informations (DSI), les réponses aux Emails

    Les opérations de routage ont pour but de retourner un ou plusieurs identifiants de traitement à la suite de la lecture d’un document électronique.

routage de production, routage décisionnel     En fonction des résultats obtenus, le programmeur pourra enchaîner différentes actions :
* faire parvenir le document à un service destinataire qui s’intéresse à cette problématique
* retourner le texte enregistré de la réponse quand le document a été bien compris par la machine (les scores d’activation et de distance fournissent des éléments pour prendre cette décision)
* faire parvenir le document à un service humain de routage de message quand le système n’arrive pas à décider par lui-même.

    Le caractère homogène des opérations de routage ne signifie pas nécessairement qu’une application de routage soit, sur le plan linguistique, quelque chose de totalement standard.     En particulier, des différences de traitement ou de connaissances à utiliser dans le système sont à prévoir selon que :
* on accepte ou non une vitesse de traitement faible : si l’on souhaite avoir une grande vitesse de traitement, une approche par lexique-domaine peut être préférable, avec comme corollaire un important travail préalable sur le lexique.
* le Dictionnaire Intégral est considéré comme étant déjà assez compétent dans son investigation du domaine, ou non.
* le genre narratif des documents à router est connu ou non du sémiographe : une dépêche " REUTER " ne doit pas être exactement gérée de la même façon qu’un courrier électronique personnel ou qu’un site WEB.

    Un routeur électronique de documents textuels peut être à la source d'une grande augmentation de la productivité d'une entreprise et lui fournir des avantages concurrentiels importants.
    Sur le plan de la production, l'augmentation considérable des besoins en matière de réponse aux courriers électroniques ne peut pas être traitée aujourd'hui avec des moyens strictement humains.
    Sur le plan de la décision, une première étape importante de l'extraction de connaissances depuis un corpus consiste précisément à établir ce corpus textuel. Dans cette mesure, le routage participe à l'informatique décisionnelle.

  • L’indexation sur un plan de classement

    Ce cas ressemble beaucoup à un cas particulier de routage : il s’agit ici de diriger un document, comme une page Web, vers un plan de classement de documents. Des sociétés comme " Yahoo " effectuent ce travail encore manuellement, en y incorporant, il est vrai, nombre de critères qualitatifs et esthétiques.

  • L'indexation sémantique

    Les différentes sorties sémantiques du Sémiographeä ont pour objet central la désambiguïsation sémantique des mots en contexte (détermination du lemme, du " part of speech " sémantiquement significatif, du contexte conceptuel...). En effectuant cette opération, le Sémiographe fournit une information concernant la représentativité d'un mot-sens dans un contexte précis.
    Par exemple, " acheter un chausson à la boulangerie pour le goûter des enfants " aboutit à une représentation-score du mot " chausson " bien différente de celle obtenue pour " acheter une paire de chaussons chez CHAUSSTOUS pour les mettre devant la cheminée ".
    Le premier énoncé considère " chausson " comme une viennoiserie. C’est déjà très important pour la recherche d’informations, qui pourra interroger la base de données textuelles (indexée à travers les données du Sémiographe par un moteur de recherche), à l’aide de " chausson " et de certains éléments de sa signature textuelle d’indexation (une signature textuelle d’indexation est composée de la trace de plusieurs éléments sémantiques du Sémiographe).
    Si le texte se poursuit par "la plupart des autres viennoiserie contiennent du chocolat. Au moins les chaussons aux pommes comportent de la compote ", une nouvelle information apparaît : le texte est centré sur le mot "chausson".

    Nous estimons à environ 30 points la diminution du silence et à environ 20 points la diminution du bruit lié à une indexation sémantique à l'aide du Sémiographe (ces chiffres sont donnés en référence à des moteurs comportant déjà des outils linguistiques)

  • L’extraction automatique de mots clés

    Ce cas ressemble à celui de l’indexation dans le contexte où l’on souhaite extraire de la base les vocabulaires thématiques retenus : les vocabulaires thématiques retenus sont ceux qui réussissent à atteindre un score minimal fixé.
    Nous donnons deux exemples d'utilisation de l'extraction automatique de mots clés :
* La vérification de la pertinence des mots-clés présents dans une page Web pour limiter les manœuvres de "spamming". Le "spamming" consiste à essayer d'obtenir le meilleur classement possible dans une page Web en utilisant des techniques d'enrichissement artificiel du contenu lexical des pages.
* La préparation d'un plan de classement des documents.

  • L'extraction des connaissances et des faits

    Les API du Sémiographe permettent de réaliser assez facilement les travaux des conférences TREC et MUC.
    Par exemple, avec un jeu d’API proche de celui qui existe aujourd’hui, et qui est commercialisé, nous avons réalisé il y a déjà de nombreuses années, des travaux d’extraction de connaissances et de classements automatiques à partir de gros corpus. Il s’agissait, en 1993, d’extraire d’une encyclopédie d’histoire d’environ 20.000 pages, les faits significatifs et datés des carrières des 10.000 personnes célèbres contenues dans cette encyclopédie.
    Aujourd’hui, ce type de travaux, qui comporte encore un large part de développement plus ou moins spécifique, peut être effectué pour :
* constituer une base de compétences à partir de Curriculum Vitae, puis pour l’exploiter
* constituer une base d’articles à vendre, et de leur prix, à partir de petites annonces
* constituer une base de connaissances sur tel aspect spécifique des choses, comme la performance d’un matériel...

III.2] Les applications ON-LINE

    Nous considérons "off-line" les applications qui ont d'importantes contraintes temps réel.
    Les applications on-line concernent essentiellement la recherche d’informations. Nous y trouvons le pendant du routage vers des boîtes à lettres, à savoir l’accès à une nomenclature, ainsi que le pendant de l’indexation, à savoir l’accès à des bases indexées.

  • L'accès à une nomenclature

    En France, la nomenclature la plus souvent consultée, est celle des Pages Jaunes de France-Télécom.
    Il s’agit dans cette application de retourner un élément de nomenclature (EDN) à partir d’une question formulée librement par un utilisateur.
    Ce type d’application, assez simple sur le plan linguistique et logique pour le Sémiographe, pose toutefois une difficulté spécifique : celles du temps de traitement quand le nombre d’utilisateurs simultanés est élevé.
    Dans ce cas, une compilation spécifique peut s’avérer nécessaire et aboutir à une spécialisation, voire à une simplification des mécanismes du Sémiographe.

  • La recherche d'un texte dans une base indexée par un système tiers

    Le Sémiographe permet de réaliser des expansions sémantiques des requêtes utilisateurs centrées sur la signification de la requête initiale. Selon les besoins de l’application, l’expansion sémantique peut avoir pour but d’augmenter la pertinence (diminuer le bruit) ou de diminuer le silence. L'expansion peut utiliser des synonymes, des dérivés, des méronymes...

  • Expansion pour diminuer le bruit

    Cette expansion reformule la requête utilisateur en associant aux termes de cette requête des éléments de contexte.
    Par exemple, pour une requête comme " compétition de billard " il s’agit d’ajouter au contexte du premier mot les termes de " concours, gagner, perdre, sélection, tournoi....), et au contexte du deuxième mot, ceux de " boule, bille, table, queue, académie, jeu, jouer... ".
    Ce type de requête enrichie, éloigne des premières réponses le sens " table d’opération " pour " billard ", par exemple.

  • Expansion pour diminuer le silence

    Il peut s’agir ici d’ajouter des synonymes, des formes dérivées et des formes fléchies aux mots-sens identifiés de la requête utilisateur.
    En reprenant le même exemple, nous pourrions générer " compétitions, tournois, tournoi "...
    Par ailleurs, les mécanismes de traduction d’une requête vers une langue cible rentre, sur le plan technique, dans cette catégorie " expansion pour diminuer le silence ".

  • La recherche d'un document dans une base comportant les signatures du Sémiographe

    Pour ces bases, les expansions par synonymes et dérivations peuvent ponctuellement s’avérer nécessaires. La faiblesse de l’expansion sémantique confère à ces bases un potentiel important de recherche quand il y a un grand nombre d’utilisateurs simultanés.

Copyright (c) Memodata 1998-2004. Alexandria, Le Sémiographe, Dicologique, Bibliotexte et Ideoptima sont des marques déposées de la société Memodata. Voir le dictionnaire Sensagent