Navigation auf uzh.ch
Die schweizerdeutschen Dialekte kennen für das gleiche Wort viele Varianten. Das liebe Geld etwa wird als gäld, gält, gäud, gäut, gääld, gèld, gelt oder gèlt ausgesprochen. Mit dem ersten grossen, auf mündlichen Daten basierenden Dialektkorpus ArchiMob kann man jetzt auch online schnell und einfach herausfinden, welche Mundartvarianten es für ein Wort gibt.
Der Name ArchiMob stammt vom Oral-History-Projekt Archimob. Anfang der 2000er-Jahre führten Historiker und Filmemacher im Rahmen von Archimob in der ganzen Schweiz mehr als 500 Interviews mit Zeitzeuginnen und Zeitzeugen des Zweiten Weltkriegs. Diese interessierten nicht nur Historiker und ein breiteres Publikum, das die Wanderausstellung «L'Histoire c'est moi – 555 Versionen der Schweizer Geschichte 1939–1945» besuchte, sondern auch Linguistinnen und Linguisten um die Dialektforscherin Elvira Glaser am Deutschen Seminar der Universität Zürich, die damit begannen, ausgewählte Interviews zu transkribieren und linguistisch zu untersuchen. Janine Richner-Steiner (2011) und Matthias Friedli (2012) veröffentlichten erste Dissertationen, die mit dem Archimob-Material arbeiteten.
Seither ist die Arbeit am Korpus teilweise in Zusammenarbeit mit Sprachtechnologen intensiviert worden. In einer Kollaboration zwischen dem Deutschen Seminar und dem Universitären Forschungsschwerpunkt «Sprache und Raum» (UFSP SpuR) der UZH wurde das Projekt fortgeführt mit der Unterstützung des Zürcher Kompetenzzentrums Linguistik und der Stiftung für wissenschaftliche Forschung der Universität Zürich. Heute ist das KorpusLab des UFSP SpuR verantwortlich für das ArchiMob Korpus, das mittlerweile 34 Interviews aus der Deutschschweiz mit mehr als einer halben Million Wörtern umfasst. Geplant ist, noch zehn weitere Interviews zu transkribieren.
Spontansprache
Das digitalisierte Korpus eröffne neue Möglichkeiten für die Dialektforschung, erklären Fatima Stadler und Noëmi Aepli vom KorpusLab: «Wir können damit den sprachlichen Kontext systematisch untersuchen, etwa den Satzbau oder wie bestimmte Wörter gemeinsam auftreten.» Interessant ist das Korpus auch für Computerlinguisten, die quantitativ arbeiten, oder wenn es darum geht, die geografische Verbreitung von sprachlichen Phänomenen zu untersuchen.
«Das Korpus unterscheidet sich von anderen vor allem dadurch, dass es aus kontinuierlicher, gesprochener Spontansprache besteht», sagt Fatima Stadler. Üblicherweise werden linguistische Daten in gezielten Befragungen erhoben. «Jetzt haben wir endlich eine grössere Datenmenge an natürlicher Sprache. Das macht unsere Arbeit zuverlässiger und aussagekräftiger.» Von Vorteil ist, dass vergleichbare Erzählungen vorliegen und die Sprecher ältere Menschen sind, die ihren Dialekt noch in der ersten Hälfte des 20. Jahrhunderts erworben haben. Das erlaubt Rückschlüsse auf die Sprachentwicklung.
linggs ligge laa
Diese Offenheit des Materials ermögliche eine Vielfalt von Zugängen und Fragestellungen. Im Moment kann das Korpus abgefragt werden nach den exakten Varianten bestimmter Wörter (angge, anken, ankä, ankän), nach Wortarten oder der Stellung von Wörtern im Satz – hend mììch deet lò ligge (LU), händ s komplet linggs ligge laa (ZH), für öppis la la z mache (BE), dä jung pürschtel da la furt z laa (BE). Praktisch ist auch die Suche aller Varianten eines Wortes mittels ihrer Normalisierung, das heisst einer an die Standardsprache angenäherten, aber nicht übersetzten Form – Beispiel: Über die Normalisierung losen, findet man die dialektalen Belege lose, losed, loose, lòsed, losä, losäd, lòse oder losid. Geplant sind Anleitungen zur Korpusabfrage, eine Einbettung weiterer Metadaten und eine verbesserte Normalisierung.
Im Moment arbeiten vor allem Computerlinguistinnen und -linguisten mit dem Korpus, es dürfte aber allgemein für die Sprachwissenschaften oder beispielsweise auch für Historiker interessant sein. «Ich hoffe, dass möglichst viele Wissenschaftlerinnen und -wissenschaftler das neue Forschungsinstrument nutzen und neue Erkenntnisse aus den ArchiMob-Daten gewinnen können», meint die Direktorin des KorpusLab, Tanja Samardžić.