Navigation auf uzh.ch

Suche

Multilinguale Textanalyse MLTA - Korpuslinguistik im Sprachvergleich

Anwendung zweier semantischer Ähnlichkeitsmasse auf das CPV Korpus

Autorin: Mirjam Marti

In diesem Semesterprojekt wurden zwei bereits bekannte semantische Ãhnlichkeitsmasse auf ein neues Korpus angewendet. Dieses Korpus ist das "Common Procurement Vocabulary" (CPV), ein hierarchisch strukturiertes Klassifikationssystem der Europäischen Union für Vokabular in öffentlichen Aufträgen, das in 23 Sprachen existiert. Die hier verwendete Version enthält 9455 Einträge. Das CPV ordnet jedem Begriff einen neunstelligen nummerischen Code zu und dank diesem Code kann eine Baumstruktur abgeleitet werden. In einem hierarchischen Baum ist die semantische Ãhnlichkeit am einfachsten definiert als die Distanz zwischen zwei Knoten (Pathlength), je kürzer die Distanz ist, desto ähnlicher sind sich die zwei Punkte. Daher wurde in diesem Projekt ein Python Skript geschrieben, das diese Distanz berechnet und somit Pathlength respektive Path und lch, definiert von Leacock und Chodorow, für die Sprachen Englisch und Deutsch ausgibt.

Weiterführende Informationen

Title

Teaser text