AULA (Automatische Lexikonakquisition)

 

Beschreibung:

Das vom Saarland geförderte Projekt AULA entwickelt Software, die es erlaubt, aus großen Textmengen qualitativ hochwertige maschinenverarbeitbare Lexikoneinträge für das Deutsche, Englische, Französische und Spanische automatisch zu extrahieren. So können lexikalischen Ressourcen schnell und effizient aktualisiert und in neuen Anwendungsfeldern direkt eingesetzt werden. Wesentliches methodologisches Ziel ist es, mit den zu entwickelnden Verfahren neue Wörter auch hinsichtlich ihrer einzelnen Bestandteile zu bestimmen. Auf diese Weise können etwa bei der automatischen Indexierung Dokumentbestände künftig präziser durch automatische Verfahren inhaltlich erschlossen und aufbereitet werden.

In der ersten Projektphase werden unbekannte neue Wörter unter Einbeziehung existierender Werkzeuge dahingehend analysiert, dass Worttyp und Formeninventar automatisch bestimmt werden können. Auf dieser Basis werden maschinenverarbeitbare Lexikoneinträge generiert, mit denen die betreffenden Wörter in sprachtechnologischen Anwendungen bereits grundsätzlich beherrscht werden. In der zweiten Projektphase werden die Verfahren zur automatischen Lexikonakquisition dahingehend erweitert, dass für unbekannte neue Wörter auch die Wortbestandteile hinreichend bestimmt werden. Mit entsprechend revidierten Wörterbucheinträgen können sodann Dokumentbestände weitaus präziser inhaltlich erschlossen werden.

Dauer:

1. Juli 2012 - 31. Dezember 2014