Gemeinsam arbeiten sie daran, die Sprachen der Europäischen Union maschinell zu übersetzen und zwar so, dass man in möglichst vielen Sprachkombinationen verständliche Texte erhält. Zwei von der Europäischen Union finanzierte Projekte zu diesem Thema werden von dem Saarbrücker Computerlinguisten Josef van Genabith geleitet.
Wer zum Beispiel Finnisch lernen will, muss sich mit einer komplexen Grammatik mit fünfzehn verschiedenen Fällen befassen. Diese werden zum Teil als Silben an die Substantive angehängt, so dass eine Vielzahl von Wortformen und Ausdrucksmöglichkeiten entstehen.
„Einem Computer beizubringen, all diese grammatikalischen Feinheiten zu verstehen und sie korrekt in eine andere Sprache zu übersetzen, ist äußerst schwierig“, sagt Josef van Genabith, Professor für Translationsorientierte Sprachtechnologie an der Universität des Saarlandes und wissenschaftlicher Direktor am Deutschen Forschungszentrum für Künstliche Intelligenz.
Sein Team verfolgt daher einen anderen Weg: Die Rechner werden nicht mit Grammatikregeln und linguistischen Details gefüttert werden, sondern sie sollen selbst in riesigen Textbeständen Muster erkennen und daraus lernen. In der Fachwelt wird diese Methode als „Deep Learning“ bezeichnet. Erst vor kurzem ging das Verfahren durch die Medien, weil Google mit diesem Verfahren einen der weltbesten Go-Spieler besiegt hatte.
„Diese Methode des maschinellen Lernens hat nichts mit natürlicher Intelligenz zu tun, sie ähnelt jedoch den Prozessen, die im menschlichen Gehirn ablaufen, wenn zum Beispiel die Muskeln im Körper angesteuert werden. Ein Kind muss beim Waldspaziergang erst lernen, dass es seine Füße heben muss, um nicht über Wurzeln und Steine zu stolpern. Bei Erwachsenen läuft diese Denkleistung automatisch im Hintergrund ab, da das Gehirn gelernt hat, wie es die Füße zu setzen hat“, erklärt van Genabith.
Auf ähnliche Weise könnten auch Computer ständig dazulernen und das Gelernte dann anwenden. Bei der automatischen Übersetzung gehe es dabei nicht um die Strukturen, die ein Sprachschüler im Grammatikbuch lernt, sondern um Muster, die sich dem Computer erschließen.
Im Konsortium QT 21 haben sich vierzehn führende Forschungseinrichtungen für maschinelle Übersetzung in Europa und Hongkong zusammengeschlossen, darunter Universitäten, Forschungsinstitute wie das DFKI und mehrere Unternehmen.
„Unser gemeinsames Ziel ist es, über das maschinelle Lernen die automatische Übersetzung auch für komplexere Sprachen wie Lettisch oder Tschechisch wesentlich zu verbessern“, erläutert van Genabith, der das vor einem Jahr gestartete Projekt leitet. Die Europäische Union hat für das dreijährige Forschungsvorhaben rund 3,9 Millionen Euro bewilligt, knapp eine Million Euro fließen nach Saarbrücken.
In einem zweiten vom DFKI und Josef van Genabith geleiteten Projekt, der European Language Resources Coordination (ELRC), arbeitet ein europäisches Konsortium als Auftragnehmer der EC daran geeignete Sprachdaten zu sammeln, um die Anpassung der maschinellen Übersetzungsplattform der Europäischen Kommission (CEF AT) auf die täglichen Bedürfnisse der öffentlichen Dienstleister in allen EU-Mitgliedsstaaten sowie in Island und Norwegen zu ermöglichen. Bei ELRC handelt es sich um eine der wohl umfangreichsten Sammlungen von Sprachdaten weltweit.
„Wir identifizieren dafür derzeit riesige Textbestände zu ähnlichen Themengebieten, also etwa Texte und Übersetzungen aus den Finanz-, Wirtschafts-, Innen- und Außenministerien der europäischen Länder. Diese Datenbestände helfen der Europäischen Kommission dabei, die Übersetzungssoftware zu trainieren und auf die Bedürfnisse des öffentlichen Dienstes und der Bürger abzustimmen", erläutert van Genabith. Das auf zwei Jahre angelegte Projekt wird von EU-Kommission mit 1,7 Millionen Euro unterstützt.
Von der verbesserten Übersetzungssoftware soll auch der europäische Binnenhandel profitieren. Den Übersetzern wird dadurch nicht die Arbeit ausgehen, im Gegenteil, meint Professor van Genabith: „Computer können riesige Textmengen viel schneller übersetzen als der Mensch. Sie werden aber nicht perfekt sein, so dass die Übersetzer je nach Anforderung diese Textbestände noch nachbearbeiten müssen“.
Kontakt:
Prof. Dr. Josef van Genabith
Universität des Saarlandes / Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI)
Tel: 0681 302-2931
E-Mail: josef.vangenabith@uni-saarland.de