AUTINDEX-DFG

 

Beschreibung:

Ziel des DFG-Projekts AUTINDEX ist eine automatische Verarbeitung von Volltexten im Bereich der Wirtschaftswissenschaften, die nicht nur Buchstabenfolgen untersucht, sortiert und statistisch auswertet, sondern mit sprachlicher Intelligenz ausgestattet ist. Thesaurusbegriffe (und Verweise auf diese Begriffe) sollen im Text identifiziert und zur Auswahl vorgeschlagen werden, der Indexierer wird bei der Unterscheidung von Unter- und Oberbegriffen geführt, auf Synonyme hingewiesen und erhält eine Vorschlagsliste von möglichen freien Deskriptoren.

Der Vorteil eines solchen Verfahrens liegt in der größeren Konsistenz, vor allem bei mehreren Indexierern, sowie in der erheblichen Zeitersparnis gegenüber einem manuellen oder datenbankgestützten Nachschlagen im Thesaurus.
Die Ergebnisse der automatischen Vor-Indexierung können auch zum Zeitgewinn für eine erste Archivierung verwendet und später vom Spezialisten überprüft werden.

Für das Projekt wurden ca. 250 ausgesuchte, bereits manuell indexierte Dokumente in einer ersten Testrunde zunächst ohne jede Vorbearbeitung automatisch indexiert.

Zum Vergleich von manueller und automatischer Indexierung wurde ein Web-Interface erstellt, in dem die manuell vergebenen den automatisch ermittelten Deskriptoren gegenüber gestellt wurden. Zum einen wurde verglichen, wie viele der manuell vergebenen Deskriptoren auch durch die automatische Indexierung gefunden wurden (= Recall). Zum anderen wurde die Sinnhaftigkeit der automatisch ermittelten Deskriptoren in Bezug auf die Beschreibung des Dokumenteninhaltes von einem menschlichen Indexierer beurteilt (= Precision).

Die Ergebnisse des ersten Testlaufs sowie ein Eingabefenster zur Indexierung unter Benutzung des noch unbearbeiteten Standard Thesaurus Wirtschaft (STW) wurden für die Projektpartner zum Vergleich zugänglich gemacht. Im Laufe des Projekts wurden insgesamt 5 Testläufe nach den jeweils durchgeführten Verbesserungsarbeiten am Programm und vor allem am maschinellen Thesaurus durchgeführt.

Bei den Ergebnissen des letzten Testlaufes sieht man die deutlichen Verbesserungen gegenüber dem ersten Lauf; ebenso finden sich hier die Ergebnisse von ein paar ausgewählten Dokumenten, bei denen probeweise nur Inhaltsverzeichnis oder Zusammenfassung bzw. beides zur automatischen Indexierung herangezogen wurden.

Zur Demonstration kann man in einem weiteren Fenster Texte frei eingeben und - unter Benutzung des entsprechend angepassten STW - automatisch indexieren lassen.

Dauer:

01.09.2002 - 31.08.2004

Partner:

  • Hamburgisches Weltwirtschaftsarchiv – HWWA Hamburg
  • Deutsche Zentralbibliothek für Wirtschaftswissenschaften – ZBW Kiel

Links:


Hamburgisches Weltwirtschaftsarchiv – HWWA Hamburg
Deutsche Zentralbibliothek für Wirtschaftswissenschaften – ZBW Kiel

Berichte:

Zwischenbericht zum 31.08.2003
Abschlussbericht zum 31.09.2004

Hinweis:

Gefördert von der DFG im Rahmen des Bibliotheksförderungsprogramms Verteilte Digitale Forschungsbibliothek Modernisierung und Rationalisierung in wissenschaftlichen Bibliotheken (Förderkennzeichen GZ: 554 922 (1) UV)