Navigation auf uzh.ch
Kann ein Computerprogramm aus übersetzten Texten automatisch ein mehrsprachiges Wörterbuch aufbauen? Reto Gubelmann, der an der Universität Zürich in Kürze sein Masterstudium der Philosophie und der Multilingualen Textanalyse (MLTA) abschliesst, hat in seiner Projektarbeit den Nachweis erbracht, dass es funktioniert.
Als Grundlage diente ihm das Textkorpus «Berg + Text digital», das Schriften des Schweizer Alpen-Clubs (SAC) seit 1864 enthält. Viele dieser Berichte, Aufsätze und Reflexionen über den Alpinismus liegen im Original und in einer Übersetzung vor, und hier setzt Gubelmanns Methode an.
Sein Programm stellt die Vorkommenshäufigkeit von Wörtern in einem Text und in der dazugehörigen Übersetzung fest. Kommt beispielsweise das Wort «Gipfel» in einem deutschsprachigen Beitrag sieben Mal vor und in der französischen Übersetzung findet sich ebenfalls sieben Mal das Wort «sommet», ergibt sich über die identische Vorkommenshäufigkeit eine Beziehung zwischen den beiden Wörtern.
Natürlich reicht es nicht aus, einen einzigen Beitrag zu analysieren, sondern erst bei mehreren hundert Texten ergeben sich verlässliche Korrelationen, die einen Eintrag in das Wörterbuch erlauben.
Dieses Projekt zeigt in exemplarischer Weise, womit sich die MLTA beschäftigt, nämlich mit dem computergestützten Durchsuchen, Übersetzen und auch Verwalten von Texten. Das Besondere an der Lösung von Reto Gubelmann besteht darin, dass sie sprachunabhängig funktioniert: «Es ist eine mathematische Methode, die Wörter werden wie Zahlen behandelt.» Somit erstellt der Algorithmus beispielsweise auch französisch–italienische oder sogar schweizerdeutsch–rätoromanische Wortlisten. Voraussetzung dafür ist natürlich, dass eine grössere Anzahl Übersetzungen von der einen Sprache in die andere, mit entsprechender linguistischer Annotation, vorliegt.
Wie sehr die Vielsprachigkeit im Mittelpunkt des Masterstudiengangs steht, zeigt auch ein Blick auf die beteiligten Institute: Neben dem Institut für Computerlinguistik gehören das Englische Seminar, das Deutsche Seminar sowie das Romanische Seminar dazu. Jeannette Roth, Koordinatorin des Studiengangs, führt aus, dass die Studierenden den Schwerpunkt je nach Vorliebe eher auf das Programmieren oder auf linguistische Fragestellungen legen können.
Vom Programmierteil im Curriculum sollte sich niemand abschrecken lassen, findet Reto Gubelmann: «Für den Masterabschluss reicht es aus, sich mit der Programmiersprache Perl vertraut zu machen.» Perl sei nicht übermässig komplex und daher leicht erlernbar.
Die beruflichen Aussichten schätzen Roth und Gubelmann sehr günstig ein. Bei international tätigen Firmen, aber auch bei der Europäischen Union fallen eine Vielzahl von Textdokumenten in diversen Sprachen an, die möglichst effizient kategorisiert, zusammengefasst oder in verschiedene Sprachen übersetzt werden sollen.
Zudem benötigt auch die Verwaltung von mehrsprachigen technischen Dokumentationen oder juristischen Textsammlungen ein um- fassendes linguistisches und computertechnisches Wissen. Dazu kommen grosse Mengen von gedruckten Texten in Bibliotheken und Archiven, die in den nächsten Jahren in eine digitale Form überführt werden müssen.