Navigation auf uzh.ch
Daten haben Hochkonjunktur. Von der Medizin über die Wirtschaft bis zur Ökologie oder den Politikwissenschaften: In nahezu allen Bereichen der Wissenschaft und Gesellschaft werden immer mehr Daten generiert. Mit der exponentiellen Zunahme der Datenerzeugung wächst die gesellschaftliche und wissenschaftspolitische Bedeutung der Datenwissenschaften. Denn diese Disziplin bildet die Grundlage für Datenanalysen mit dem Ziel, neues Wissen oder Anwendungen zu generieren. Die Universität Zürich verstärkt ihre Forschung und Lehre auf dem Gebiet mit der Gründung des Instituts für Mathematische Modellierung und Machine Learning (IM3L) an der Mathematisch-naturwissenschaftlichen Fakultät MNF.
«Das neue Institut verknüpft die mathematische Forschung mit fachspezifischen Anwendungen der Datenwissenschaften», sagt Roland Sigel, Dekan der MNF. Reinhard Furrer, Professor für Angewandte Statistik und Vorsteher ad interim des neu gegründeten Instituts, verweist auf die herausragende Bedeutung der Mathematik: «Erst die mathematische Disziplin ermöglichte die Entwicklung neuer Werkzeuge in den Datenwissenschaften wie beispielweise das maschinelle Lernen oder das Deep Learning und ist massgeblich für deren Weiterentwicklung.»
Das neue Institut verknüpft die mathematische Forschung mit fachspezifischen Anwendungen der Datenwissenschaften.
Formell hat das IM3L seinen Betrieb im Januar 2024 aufgenommen. Es umfasst zurzeit vier Professuren im Bereich Netzwerkwissenschaft (Alexandre Bovet), Risikoanalyse (Delia Coculescu), Statistik (Reinhard Furrer), Deep Learning (Jan Dirk Wegner) und weitere sind geplant. Die erste offizielle wissenschaftliche Publikation aus dem Institut ist soeben veröffentlicht worden und betrifft eine anwendungsorientierte Publikation zum Thema automatisiertes Fact-Checking.
Ausgangspunkt dieser Arbeit unter der Leitung von Alexandre Bovet ist die Frage, inwieweit die grossen Sprachmodelle (LLM) wie GPT-3.5 oder GPT-4 der Firma OpenAI in der Lage sind, Falschinformationen in Medien aller Art zu identifizieren. Dazu präsentierten die beiden Forscher den Modellen verschiedene Aussagen und forderten sie auf, diese Statements als richtig oder falsch zu bewerten. Bei diesen Fragen stützten sich die Autoren einerseits auf verifizierte Statements von Politiker:innen oder wirtschaftliche und politische Sachfragen. Andererseits legten sie den Sprachmodellen auch zweideutige Aussagen vor. Im ersten Fall ergab sich eine erstaunlich gute Trefferquote: Mit einer Genauigkeit von 89 Prozent war das LLM GPT-4 in der Lage, eindeutige Aussagen richtig zu bewerten, wenn es gleichzeitig kontextbezogene Internet-Recherchen via Google durchführen konnte.
Bei den unklaren Statements war das Ergebnis deutlich schlechter. Insgesamt übertraf GPT-4 die Genauigkeit der Version GPT-3.5. Dabei hängen die Ergebnisse auch von der verwendeten Sprache ab. Die Autoren kommen zum Schluss, dass die Sprachmodelle viel Potential besitzen, um Inhalte beispielsweise auf Websites oder anderen Medien zu checken und menschliche Faktenprüfung zu unterstützen. «Hundertprozentig vertrauenswürdig sind die Systeme allerdings nicht, weshalb immer noch ein Mensch beim Fact-Checking involviert sein sollte», sagt Alexandre Bovet.
Die Arbeiten zu grossen Sprachmodellen werfen ein Schlaglicht auf künstlich neuronale Netze, die dem maschinellen Lernen und dem Deep Learning zugrunde liegen. Ein Schwerpunkt des neu gegründeten Instituts liegt auf der Entwicklung von neuen Methoden des Maschinellen Lernens, um Strukturen in grossen Datensätzen zu erkennen und Hypothesen zu generieren. Zum Beispiel im Bereich der Analyse neuer Grossrisiken – dem Arbeitsgebiet von Delia Coculescu. Die Spezialistin für Quantitative Risikoanalysen erwähnt die beispielslosen Bedrohungen globalisierter Volkswirtschaften wie Cyber-Angriffe, Lieferketten-Probleme aber auch Gesundheitskrisen, Stichwort Pandemien. Dazu kommt als verschärfendes Element der Klimawandel hinzu.
Die Komplexität dieser Bedrohungen übersteige die Fähigkeiten gängiger Analysemethoden. «Ein Hauptziel unserer Forschung ist es, innovative Methoden zur Bewertung und Minderung von nicht-standardisierten Risiken zu entwickeln», sagt Coculescu. So entwickelt ihr Team in Zusammenarbeit mit den Abteilungen für Geographie und Finanzen der UZH ein Modell, das basierend auf maschinellem Lernen ökonomische Variablen mit Daten zum Verlust der Artenvielfalt und Temperaturanomalien kombiniert. «Neuronale Netzwerke sind besonders effizient in Kontexten, in denen komplexe Optimierungsprobleme auftreten», sagt die Forscherin. Das Projekt soll nach Abschluss internationale Bemühungen bei der Bekämpfung des Klimawandels und des Artenverlusts unterstützen.
Das Vorhaben der Risikoforscherin zeigt die Bedeutung der fachübergreifenden Zusammenarbeit des Instituts. «Die Datenwissenschaft überschreitet die disziplinären Grenzen und ist ein verbindendes Element sowohl zwischen den Instituten der MNF als auch der gesamten Universität», sagt Dekan Roland Sigel. Diese interdisziplinäre Zusammenarbeit illustriert auch eine weitere, neue Arbeit aus dem Institut.
In diesem Projekt von Jan Wegner, einem der Gründungsprofessuren des Instituts, wurde ein künstliches neuronales Netz zur Erstellung einer hochauflösenden Karte von Kakao-Pflanzungen in Ghana und der Elfenbeinküste genutzt. Dazu trainierten die Forscher:innen das Deep-Learning-Netzwerk darauf, in Satellitenbildern der Vegetation Kakaopflanzungen zu erkennen. Das Forschungsteam überprüfte danach die Karte vor Ort zusammen mit afrikanischen Mitarbeiterinnen und Mitarbeitern. Dank Fernaufklärung mit Satelliten (Remote Sensing) und Deep Learning ist damit erstmals eine präzise Karte entstanden, die detailliert aufzeigt, wo Kakao legal und illegal angebaut wird.
Hintergrund der Arbeit ist die Ausbreitung der Kakaoplantagen in geschützte Waldgebiete, was der nachhaltigen Anbaupraxis zuwiderläuft. Gemäss den Karten frisst der illegale Kakaoanbau in der Elfenbeinküste über ein Drittel der Waldschutzgebiete, in Ghana sind es immer noch 13 Prozent. «Die bahnbrechenden Karten sind ein entscheidender Schritt zur Förderung von Naturschutz und nachhaltiger Entwicklung in den untersuchten Regionen», sagt Jan Wegner.
Die Mitarbeiterinnen und Mitarbeiter des neugeschaffenen Instituts arbeiten häufig an der Schnittstelle von grundlagenorientierter, mathematischer Forschung, um neue Anwendungen in anderen Disziplinen zu ermöglichen. So hat Roman Flury unter der Leitung von Reinhard Furrer eine statistische Methode entwickelt, um räumliche Massstäbe und dominante Merkmale in Datensätzen zu identifizieren. Dank dieser Arbeit wurde es möglich, in alten Waldinventurdaten aus den 1920er Jahren in Finnland die Grundflächen der häufigsten finnischen Bäume wie Kiefern, Fichten, Birken und weiterer heimischer Laubbäume zu bestimmen. Dies erlaubte es, retrospektiv anthropogene von standortbedingten, natürlichen Einflüssen auf die Verbreitung der Baumarten zu identifizieren. «Solche historischen Analysen zur Waldökologie waren bisher nicht möglich», sagt Reinhard Furrer.
Erst die mathematische Disziplin ermöglichte die Entwicklung neuer Werkzeuge in den Datenwissenschaften wie beispielweise das maschinelle Lernen oder das Deep Learning.
Die aktuellen Beispiele dokumentieren die Anwendung der Datenwissenschaften in verschiedenen Fachdisziplinen in Kombination mit anwendungsorientierter Grundlagenforschung. «Wir tragen damit sowohl zur Weiterentwicklung der Datenwissenschaften bei als auch zur Lösung gesellschaftlicher Herausforderungen», sagt Dekan Roland Sigel. Parallel zur Forschung wird auch die Lehre gestärkt, auf Herbst 2025 wird das Studienprogramm «Angewandte Mathematik und Machine Learning» auf Bachelorstufe angeboten.