KONWIHR

Kompetenznetzwerk für wissenschaftliches Höchstleistungsrechnen in Bayern

Inhalt

Effiziente Simulationsexperimente zur Parameteroptimierung speicherintensiver computerlinguistischer Lernverfahren

Antragssteller

Prof. Dr. Stefan Evert und Philipp Heinrich, MSc.
Professur für Korpuslinguistik
Department Germanistik & Komparatistik
FAU Erlangen-Nürnberg

Projektübersicht

In der modernen Computerlinguistik spielen maschinelle Lernverfahren und komplexe statistische Analysemodelle eine zentrale Rolle. Sie können anhand manuell annotierter Datensätze trainiert werden, um eine bestimmte Aufgabe zu lösen, oder werden unüberwacht auf große maschinenlesbare Textsammlungen (sog. Korpora) angewendet, um statistische Regelmäßigkeiten und Muster des Sprachgebrauchs abzuleiten. Auch Korpuslinguistik und Digital Humanities machen zunehmend von solchen Verfahren Gebrauch, um digitalisierte Textbestände analytisch zu erschließen und neue Perspektiven für ihre geisteswissenchaftlichhermeneutische Interpretation zu eröffnen. Lernverfahren und statistische Modelle besitzen meist zahlreiche Parameter, mit denen sie an verschiedene Aufgabestellungen und Datensätze angepasst werden können. In der Regel lassen sich gute Lernergebnisse nur durch eine systematische Parameteroptimierung erzielen, die beim überwachten Training als selbstverständlich gilt. Schwierigkeiten ergeben sich allerdings, wenn solche Verfahren zur unüberwachten Mustererkennung eingesetzt oder trainierte Modelle auf neue Domänen angepasst werden sollen.1 Besonders kritisch erweist sich dieses Problem beim hypothesenüberprüfenden oder explorativen Einsatz der computerlinguistischen Verfahren in Korpuslinguistik und Digital Humanities. Wenn verschiedene Parametereinstellungen zu völlig unterschiedlichen – mitunter sogar widersprüchlichen – Analyseergebnissen führen, welcher Befund kann dann als zuverlässige empirische Basis für die hermeneutische Interpretation herangezogen werden? Spiegelt die signifikante Ablehnung einer Hypothese einen tatsächlichen sprachlichen Sachverhalt wider, oder ist sie nur der geschickten Wahl der Modellparameter (durch systematisches p-value fishing) geschuldet? Aus diesen Gründen besteht in der Computerlinguistik aktuell großes Interesse daran, durch systematische Evaluationsexperimente ein besseres Verständnis der jeweiligen modellparameter sowie ihrer Auswirkungen und Wechselwirkungen zu erlangen. Dazu werden Modelle mit verschiedenen Parametereinstellungen trainiert und dann auf geeigneten Testdaten evaluiert. So kann festgestellt werden, welche Parameter den Lernerfolg positiv oder negativ beeinflussen, wie stark ihre Auswirkungen sind und in welchem Maße sie von Trainingskorpus und Testdaten abhängen. Liegen keine geeigneten Testdaten als gold standard vor – was in der hermeneutischen Tradition der Digital Humanities der Normalfall ist – so bietet es sich an, solche statistischen Muster zu bevorzugen, die von möglichst vielen unterschiedlichen Parametereinstellungen identifiziert werden, analog z.B. zu Bootstrapping-basierten Clustering-Verfahren (Suzuki and Shimodaira 2006). Ein verbreiteter Ansatz bei Evaluationsexperimenten besteht darin, jeden Parameter einzeln zu evaluieren, wobei die übrigen Parameter auf Erfahrungswerte oder die zuvor ermittelten Optimalwerte gesetzt werden (z.B. Bullinaria and Levy 2007, 2012). Auf diese Weise bleiben allerdings die zum Teil erheblichen Interaktionseffekte zwischen verschiedenen Parametern unberücksichtigt und es bleibt offen, ob die beobachteten Auswirkungen eines Parameters „robust“ sind oder nur im Zusammenspiel mit den anderen gewählten Parametereinstellungen auftreten. Zuverlässige und präzise Aussagen lassen sich daher nur treffen, indem systematisch alle möglichen Parameterkombinationen getestet werden.2 Hierzu sind oft mehrere Millionen von Einzeldurchläufen (runs) erforderlich, was die Nutzung eines HPC-Clusters zur Durchführung der Experimente erforderlich macht.