PRESEMT (Pattern REcognition-based Statistically Enhanced MT)

 

Beschreibung:

Das PRESEMT-Projekt wird ein adaptives MÜ-System schaffen auf der Basis sprachunabhängiger Konzepte und Methoden des maschinellen Lernens, das einfach auf andere Sprachpaare übertragbar ist, indem vorhandene Ressourcen wie Wörterbücher, bilingual und monolingual, Corpora, einfache Werkzeuge wie Tagger, Lemmatisierer, Chunker benutzt werden und in das System integriert werden. Diese Herangehensweise soll bekannte Probleme anderer Ansätze wie die Kompilierung großer bilingualer Corpora oder die aufwändige Implementierung umfangreicher Regelwerke vermeiden.

Die innovativen Aspekte sind die Verwendung phrasen-basierter Ansätze, Pattern-Recognition-Ansätze und KI-Techniken für die Entwicklung sprachunabhängiger Analysen und ‘Evolutionary Algorithms’ für die Systemoptimierung.

Das System wird hybrid sein, also linguistische Elemente mit corpus-basierten Ansätzen verbinden. Das PRESEMT-System ist eines in einer Reihe von Entwicklungen, v.a. der METIS-Systeme, die auf großen monolingualen (!) Corpora beruhen und den versuchen den Flaschenhals ‚bilinguale Corpora’ zu vermeiden.

Die Hauptprobleme, die PRESEMT versucht zu adressieren, sind einmal, Übersetzungen in ‚Real Time’ zu produzieren und zum zweiten, neue Sprachpaare auf sehr einfache Weise zu entwickeln, ohne dass für die Sprachen spezielle hochwertige linguistische Ressourcen und Werkzeuge zur Verfügung stehen müssen.

Dauer:

Januar 2010 - Dezember 2012

Koordinator

Institute for Language and Speech Processing / R.C. "Athena"

Partner:

Links:

http://www.ilsp.gr

http://www.presemt.eu