Header

Suche

Berechnung spanischer Übersetzungsvorschläge für englische Substantive mithilfe zweisprachiger Vektorräume

Autorin: Jeanette Isele

Das Ziel dieses Abschlussprojektes bestand darin, mithilfe zweisprachiger Vektorräume, spanische Übersetzungsvorschläge für englische Substantive zu berechnen und dies anhand von zehn willkürlich ausgewählten englischen Substantiven zu testen und evaluieren. Zum Aufbau des zweisprachigen Vektorraums wurde das frei verfügbare parallele Korpus mit Filmuntertiteln (OpenSubtitles v2, http://opus.lingfil.uu.se/OpenSubtitles_v2.php) für das Sprachpaar Englisch-Spanisch verwendet, dieses Korpus beinhaltet 32'579'513 Untertitel pro Sprache.

Um dieses Ziel zu erreichen, musste das existierende Programm für einsprachige Vektorräume für die Verwendung mit einer grösseren Datenmenge und für zweisprachige Vektorräume erweitert und angepasst werden. Ausserdem musste eine Vorauswahl getroffen werden, für welche Substantivpaare die Kosinusähnlichkeit berechnet werden soll und entschieden werden, aus wie vielen Untertiteln ein Dokument besteht. Das Hauptproblem lag in der langen Laufzeit, diese konnte jedoch durch einige Änderungen im Programm verringert werden.

Die Evaluation hat gezeigt, dass auf diese Weise für alle zehn englischen Testwörter mindestens eine gute spanische Übersetzung berechnet werden kann. Ausserdem können (mit einem etwas geringeren Ähnlichkeitswert) auch ähnliche spanische Wörter gefunden werden. Die Resultate zeigen, dass das Programm, in welchem jeder Untertitel ein eigenes Dokument darstellt, am zuverlässigsten funktioniert.

Weiterführende Informationen

Title

Teaser text