Copyright (c) Memodata 1998-2005

Web Memodata 

 
       

III] Anwendungen des Sémiographe

III.1] Die OFFLINE-Anwendungen

Als "offline" bezeichnen wir Anwendungen ohne "realtime"-Anforderungen.

  • Die Sortierung von Texten , die selektive Informations-Verbreitung, automatische Beantwortung von Emails

    Die Sortierungs-Funktionen sollen nach dem Einlesen eines elektronischen Dokuments einen oder mehrere Bearbeitungs-Deskriptoren zurueckgeben.

    Der Programmierer kann in Abhaengigkeit dieser Deskriptoren verschiedene Aktionen vorsehen:
* das Dokument zur Bearbeitung an eine fuer den jeweiligen Betreff zustaendige Stelle (menschlicher Bearbeiter oder elektronisches System) weiterleiten
* eine vorbereitete Standardantwort zurueckschicken, wenn der Text verstanden wurde (hier kann das Aktivierungs- bzw. Distanzmaß zur Entscheidung herangezogen werden)
* das Dokument an einen menschlichen Bearbeiter zur Klassifizierung weiterleiten, wenn das System keine Entscheidung treffen kann.

    Der homogene Charakter der Sortierungs(Klassifizierungs)-Operationen elektronischer Dokumente besagt nicht, dass es sich bei den entsprechenden Anwendungen (aus linguistischer Sicht) um reine Standard-Programme handelt. Insbesondere sind unterschiedliche Behandlungsmethoden und/oder Wissensbasen vorzusehen, je nachdem ob:
* man bereit ist, eine geringe Verarbeitungsgeschwindigkeit zu akzeptieren: wenn man eine schnelle Verarbeitung wuenscht, kann es nuetzlich sein, einen Ansatz mit einem Domaenen-Lexikon zu waehlen, dessen vorherige Erstellung allerdings einen betraechtlichen Aufwand darstellt.
* man der Meinung ist, dass das Gesamtwoerterbuch fuer die zu behandelnde Domaene bereits reichhaltig genug ist
* dem Sémiographe die Textart bekannt ist: eine "REUTER"-Meldung kann nicht auf die gleiche Weise wie eine persoenliche Mail oder eine Webseite behandelt werden.

    Eine automatisches Leitsystem fuer elektronische Dokumente kann fuer eine große Produktivitaets-Steigerung einer Firma sorgen und ihr bedeutende Vorteile gegenueber der Konkurrenz verschaffen.
    Auf der Produktionsebene kann die Beantwortung des betraechtlich steigenden Aufkommens an elektronischer Post heute nicht mehr ausschließlich durch menschliche Mitarbeiter erfolgen.
    Auf der Entscheidungsebene besteht der erste wichtige Schritt bei der Wissens-Extrahierung aus einem Korpus aus dem Aufbau dieses Korpus. In dieser Hinsicht ist die Klassifizierung ein Bestandteil der "entscheidungsorientierten Informatik".

  • Indexierung auf der Klassifizierungs-Ebene

    Dieser Fall kann als Spezialfall der Sortierung angesehen werden: hierbei geht es darum, ein Dokument (wie eine Webseite) in ein Klassifizierungsschema einzuordnen. Unternehmen wie " Yahoo " erledigen diese Arbeit noch manuell, wobei sie (tatsaechlich!) zahlreiche qualitative und aesthetische Kriterien vermengen.

  • Die semantische Indexierung

    Die unterschiedlichen Ausgaben des Sémiographeä dienen hauptsaechlich der Aufloesung von Mehrdeutigkeiten der Woerter in ihrem Kontext (Bestimmung der Grundform, des semantisch signifikanten "part of speech", des konzeptuellen Kontextes,...). Als Ergebnis dieser Operation liefert der Sémiographe eine Information ueber die Repraesentativitaet eines Wort-Sinn-Paares in einem exakten Kontext.
    Zum Beispiel erhaelt man fuer das Wort "Zunge" im Ausdruck "200 Gramm Zunge in der Metzgerei kaufen" ein voellig anderes Ranking der Wort-Sinn-Paare als in dem Satz "Die Kueste ragte an dieser Stelle in Form einer langen Zunge mindestens 1 km ins Meer hinein.".
    Im ersten Ausdruck wird "Zunge" im Sinn des Organes eines Rinds verwendet. Diese Information ist bereits sehr wertvoll, zum Beispiel fuer die Beantwortung einer Suchanfrage (mit dem Wort "Zunge" und einigen Elementen seiner textuellen Indexierungs-Signatur) gegen den von einer Suchmaschine unter Verwendung der Daten des Sémiographe indexierten Textkorpus.
    Geht der Text mit den Saetzen "Zunge ist extrem proteinhaltig. In Bayern wird Zunge als Delikatesse betrachtet.", wird daraus die neue Information abgeleitet, dass der Text sich um das Wort "Zunge" dreht.

    Wir schaetzen die durch eine semantische Indexierung mit Hilfe des Sémiographe zu erreichende Erhoehung des "call-back" und der "precision" auf 30% bzw. 20% (Werte fuer Suchmaschinen, die bereits mit linguistischen Werkzeugen arbeiten).

  • Automatische Extrahierung von Stichwoertern

    Dieser Fall aehnelt der Indexierung in dem Sinne, dass man aus der Text-Basis das thematisch relevante Vokabular extrahieren will, d.h. die Woerter, die eine gewisse, festzulegende Punkte-Grenze erreichen.
    Es folgen zwei Anwendungs-Beispiele:
* die Verifizierung des inhaltlichen Bezugs der im Kopfteil einer Webseite angegebenen Schlagwoerter, um gaengige Versuche zu unterbinden, durch Angabe falscher Schlagwoerter das Ranking einer Website zu verbessern
* die Vorbereitung eines Klassifizierungs-Schemas fuer eine Dokumenten-Sammlung

  • Wissens-Extrahierung

  •     Die APIs des Sémiographe erlauben es relativ einfach die Arbeiten der Konferenzen TREC und MUC zu realisieren.
        Beispielsweise haben wir bereits vor vielen Jahren mit einem kommerzialisierten Paket von APIs, aehnlich dem heutigen, Arbeiten auf dem Gebiet der Wissensextrahierung und der automatischen Klassifizierung durchgefuehrt. Es handelte sich damals (1993) um die Extrahierung der mit Datum versehenen Stationen der Lebenslaeufe von 10000 bekannten Persoenlichkeiten, aus einer Geschichts-Enzyklopadie von 20000 Seiten.
        Heute kann diese Art von Arbeit, die immer auch einen großen Teil mehr oder weniger spezifischer Entwicklungsarbeit bedeutet, dazu dienen:
    * aus Lebenslaeufen eine Datenbank der Faehigkeiten (potentieller) Mitarbeiter zu erstellen
    * aus Kleinanzeigen eine Datenbank von Artikeln und deren Preisen zu erstellen
    * eine Datenbank ueber spezifische Eigenschaften bestimmter Dinge zu erstellen, z.B. die Leistungsdaten bestimmter Hardware

    III.2] ONLINE-Applikationen

        Als "ONLINE" bezeichnen wir Applikationen, die wesentliche "realtime"-Anforderungen stellen.
        Das betrifft vor allem die Anwendungen zur Informations-Suche. Hier findet sich eine Entsprechung der Postsortierung in unterschiedliche "Briefkaesten", naemlich der Zugriff auf eine Nomenklatur, sowie eine Entsprechung der Indexierung, naemlich der Zugriff auf einen indexierten Korpus.

    • Zugriff auf eine Nomenklatur

        In Deutschland sind wohl die "Gelben Seiten" (Online-Ausgabe) die am haeufigsten konsultierte Nomenklatur.
        Bei dieser Anwendung geht es darum, ein Nomenklatur-Element zurueckzugeben, als Antwort auf eine vom Benutzer frei formulierte Anfrage.
        Diese auf linguistischer und logischer Ebene fuer den Sémiographe an sich ziemliche einfache Aufgabe stellt trotzdem ein spezielles Problem dar: jenes der Antwortzeit, bei einer hohen Anzahl gleichzeitiger Anfragen.
        In diesem Fall kann eine spezifische Kompilierung notwendig sein, die zu einer Spezialisierung, oder sogar Vereinfachung der Mechanismen des Sémiographe fuehrt.

    • Suche eines Textes in einem Korpus, der von einem Fremdsystem indexiert wurde

        Der Sémiographe ermoeglicht die Realisierung der semantischen Expandierung von Benutzer-Anfragen, unter Beibehaltung des Bedeutungskerns der Original-Anfrage. Hierfuer koennen Synonyme, Ableitungen, Meronyme, etc. verwendet werden.

    Die Expandierung kann zur Erhoehung von "precision" oder "recall" dienen, je nach den Beduerfnissen der Anwendung.
    • Expandierung zur Erhoehung der "precision"

        Hier erweitert die Expandierung die Benutzer-Anfrage um Elemente des Kontexts.
        Fuer eine Anfrage "Anhaenger des SC Freiburg", wuerden beispielsweise zum Kontext des 1. Wortes die Ausdruecke (Fußball, Stadion,...) hinzugefuegt werden. So kann z.B. verhindert werden, dass gaenzlich irrelevante Dokumente ueber KFZ-Anhaenger zum Transport von Booten zurueckgegeben werden.

    • Expandierung zur Erhoehung des "recall"

        Hier koennen zum Beispiel Synonoyme oder abgeleitete und gebeugte Formen der identifizierten Wort-Sinn-Paare der Benutzer-Anfrage hinzugefuegt werden.
        Im obigen Beispiel koennte z.B. "Fans, Fan, Anhaengerschaft" erzeugt werden.
        Darueber hinaus faellt (technisch gesehen) auch die Uebersetzung in eine andere Zielsprache in diese Kategorie der Expandierung.

    • Suche eines Dokumentes in einem Korpus, der die Signaturen des Sémiographe enthaelt

        Fuer diese Korpora kann sich die Expandierung mit Synonymen und Ableitungen punktuell als notwendig erweisen. Die Schwaeche der semantischen Expansion bei einer hohen Anzahl von parallelen Zugriffen laesst diesen Korpora eine große Bedeutung zukommen.

    Copyright (c) Memodata 1998-2004 English/deutsch : Sensagent.com