LinSearch Projekt (Linguistisches Indexieren und Suchen)

 

Beschreibung:

Das LinSearch-Projekt hat am 1. Januar 2007 begonnen. Teilnehmer des vom Bundesministerium für Wirtschaft und Technologie geförderten Projekts sind das Fachinformationszentrum-Technik GmbH, Frankfurt am Main, das Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes (IAI), die Technische Informationsbibliothek TIB und das Forschungszentrum L3S, Hannover.

Fachinformationseinrichtungen wie das FIZ-Technik bieten qualitativ hochwertige Informationen an. Ziel dieser Einrichtungen ist es, umfassende Informationssammlungen bereitzustellen und angemessene Zugänge zu ermöglichen. Dazu müssen qualitativ hochwertige Verfahren und Prozesse zur Produktion der Informationsangebote eingesetzt werden. Ziel des LinSearch-Projekts ist es, Teile dieser intellektuellen Arbeit durch automatisierte Verfahren zu ersetzen oder wenigstens zu unterstützen.

Im Rahmen von LinSearch sollen Algorithmen verbessert werden, die auf der intelligenten Verarbeitung natürlicher Sprache beruhen und auf technisch-naturwissenschaftliche Dokumentation adaptiert werden. Es soll einerseits ein Indexierungs- und Invertierungssystem bereitgestellt werden und andererseits ein auf diesen Methoden basierendes Information Retrieval System aufgesetzt und evaluiert werden. Die Grundlage für die zu entwickelnden Module ist die Sprachtechnologie des IAI.

Die Ziele des Projekts etwas detaillierter: Es geht um die Entwicklung, Erprobung und Einsatz eines integrierten Systems für die Indexierung (das am IAI schon vorliegt) und die natürlich-sprachliche Suche in technischen und naturwissenschaftlichen Texten unter Einsatz eines automatischen Indexierungssystems auf der Basis des vorhandenen Vokabulars im Thesaurus Technik und Management des FIZ Technik.

  • Zunächst soll der Einsatz des Indexierungssystems für deutsche und englische Texte aus Naturwissenschaften und Technik unter Einsatz des FIZ-Technik-Thesaurus erprobt und evaluiert werden.
  • Die bestehenden NLP-Funktionalitäten sollen um Information-Extraction-Methoden, insbesondere Named-Entity-Recognition, zur Erfassung, Nutzung und Darstellung der wichtigsten Begriffe der Dokumente eingesetzt werden.
  • Indexierungs-Ergebnisse / Präsentation der Ergebnisse durch den ergänzenden Einsatz statistischer Methoden und Clustering in der Software des IAI sollen optimiert werden, die Nutzung von Clustering-Methoden zur Disambiguierung / thematischen Fokussierung von Suchprozessen sollen eingeführt werden.
  • Entsprechende Weiterentwicklung der dem System zugrundeliegenden Wörterbücher insbesondere der Wortlisten mit Allgemeinbegriffen, mit Synonymen und englischsprachigen Benennungen sowie Phrasen ergänzend zum Thesaurus sollen vorgenommen werden.
  • Die Integration des Systems in das Datenbasenproduktionssystem des FIZ Technik und in die Geschäftsprozesse der TIB soll vorgenommen werden.
  • Die Methoden der natürlichsprachlichen Suche einschließlich der Weiterentwicklung der Suchwerkzeuge in Bezug auf Relevanz und Ranking, sowie unter Berücksichtigung heterogener Metadaten-Schemata, in die gemeinsam von FIZ Technik und der TIB betriebene Suchmaschine Lucene sollen integraiert werden.
  • Untersuchung der Einsatzmöglichkeiten der entwickelten Methoden, Wörterbücher und Suchmaschinen in Wissensmanagement-Systemen sollen vorgenommen werden.

Fachzeitschriften, Konferenzvorträge, Dissertationen, Reports und Bücher werden üblicherweise intellektuell indexiert, indem Deskriptoren in der entsprechenden Sprache zugewiesen werden. Diese Art der Indexierung ist zeitaufwändig, teuer und teilweise inhomogen. Inhomogenität ist auf unterschiedliches Hintergrundwissen der betroffenen Indexierer zurückzuführen. Automatische Verfahren erlauben eine schnellere, billigere und konsistentere Indexierung und Klassifikation der Datenbanken. Die im Rahmen von LINSearch zu entwickelden Technologien werden sich auch in Wissensmanagement-Systemen einsetzen lassen.

Dauer:

Januar 2007 - Dezember 2008

Partner:

  • Fachinformationszentrum Technik, Frankfurt
  • Technische Informationsbibliothek, Hannover
  • Forschungszentrum L3S

Links:

Wissenschaftlich-Technische Information (WTI), Frankfurt

Technische Informationsbibliothek, Hannover

Forschungszentrum L3S