Ein Artikel von Bettina Sonnenschein ( GOR 2025: “Wir sollten interdisziplinäre Teams bilden, um Fachwissen zu teilen” – planung&analyse)
Ob zukünftige KI-Modelle fair, vertrauenswürdig und im Einklang mit den Interessen der Öffentlichkeit stehen, wird zum Teil auch davon abhängen, wie hochwertig die Daten sind, mit denen die Modelle gefüttert werden. In ihrer Keynote bei der diesjährigen GOR erklärt Stephanie Eckman, wie Techniken aus der Umfrageforschung die Qualität von Trainingsdaten verbessern können.

Stephanie Eckman von der University of Maryland hält bei der diesjährigen GOR eine Keynote zu KI.
Immerhin ist das Sammeln von hochwertigen Daten eine anspruchsvolle Aufgabe und nicht jeder KI-Experte weiß, was Marktforscher darunter verstehen. Umgekehrt sind letztere wiederum selten absolut vertraut mit den technischen Anforderungen. In ihrem Vortrag “Insights from Survey Methodology can Improve AI Models” schlägt Forscherin Eckman, die am Social Data Science Center der University of Maryland arbeitet, die Brücke zwischen künstlicher Intelligenz und Umfragemethodik. Wir haben im Vorfeld mit ihr gesprochen.
Frau Eckman, welche spezifischen Techniken können Ihrer Meinung nach die Qualität des KI-Trainings verbessern?
Meine Forschungen begannen mit der Erkenntnis, dass die Instrumente, mit denen Daten für das Training von KI-Modellen gesammelt werden, Webumfragen ähneln. Und wir haben jahrelang erforscht, wie man qualitativ hochwertige Umfragedaten sammelt. Mit dieser Inspiration haben wir mehrere Experimente durchgeführt, um zu testen, welche Erkenntnisse aus Umfragen auf die Sammlung von Trainingsdaten übertragbar sind. Dabei haben wir mehrere Techniken gefunden, die die Qualität des KI-Trainings verbessern. Erstens raten wir zu einem durchdachten Design des Trainingsdateninstruments, da es sich auf die Qualität der gesammelten Labels auswirken kann. So ist es beispielsweise besser, ein Label pro Bildschirm zu sammeln, als mehrere Labels pro Bildschirm zu verbinden. Labeler scheinen aufmerksamer zu sein und bessere Antworten zu geben, wenn es nur eine Aufgabe auf einem Bildschirm gibt.
GOR 2025
Die General Online Research Conference (GOR) wird jährlich von der Deutschen Gesellschaft für Online-Forschung (DGOF) organisiert, der diesjährige Partner ist die Freie Universität Berlin. Die Konferenz findet von Montag, 31. März bis Mittwoch, 02. April 2025 statt. Alle Infos zum Programm und zur Anmeldung gibt es hier.Zweitens empfehlen wir die Rekrutierung einer Vielzahl von Personen, die das Label vergeben. Die Umfrageforschung weiß, dass verschiedene Menschen unterschiedliche Meinungen haben. Um sicherzustellen, dass künftige KI-Systeme fair sind und das tun, was die Menschen wollen, brauchen wir das Feedback vieler Menschen.
Welche Herausforderungen sehen Sie bei der Erhebung qualitativ hochwertiger Daten für KI-Modelle?
Den obigen Empfehlungen stehen mehrere Herausforderungen im Weg. Erstens sind gute Datenerhebungsinstrumente schwieriger zu erstellen, als es vielleicht den Anschein hat. Aus Umfragen wissen wir, dass selbst kleine Details wie die Farbe des Bildschirms, die Platzierung der Schaltflächen und die Anweisungen die Art und Weise, wie Menschen auf Fragen reagieren, verändern können. Wir befürchten, dass subjektive Aufgaben wie die Kodierung von Hassreden oder die Auswahl des hilfreichsten Antwortmodells noch anfälliger für diese Probleme sind. Zweitens stehen wir vor der großen Herausforderung, Labels aus verschiedenen Perspektiven zu erhalten. Viele Labeler sind Crowdworker, die nicht alle Arten von Menschen repräsentieren. Sie sind tendenziell jünger als der Durchschnitt und leben häufig in Ländern mit niedrigerem Durchschnittseinkommen. Das bedeutet, dass wir in unseren Daten wichtige Sichtweisen und Erfahrungen vermissen. Und drittens erfordert die Erhebung guter Daten viel Zeit und Geld. Die Unternehmen müssen den Mitarbeitern, die die Daten beschriften, faire Löhne zahlen, und die ordnungsgemäße Durchführung dieser Arbeit erfordert viel Zeit. Leider besteht oft der Druck, schnell Daten zu sammeln, was zu minderwertigen Ergebnissen führen kann.
Und wie könnten diese Herausforderungen bewältigt werden?
Durch mehrere vielversprechende Ansätze: Zunächst durch die faire Bezahlung und respektvolle Behandlung der Datenbeschrifter. Mein zweiter Rat: Testen Sie die Datenerfassungsinstrumente vor der vollständigen Einführung. Genauso wie Umfrageforscher ihre Fragen mit kognitiven Interviews und Pilotstudien testen, sollten KI-Forscher verschiedene Kennzeichnungsinstrumente testen, um mögliche Probleme zu erkennen. Dann: Randomisieren Sie die Beobachtungsreihenfolge, um zu verhindern, dass systematische Reihenfolgeeffekte den gesamten Datensatz beeinflussen. Und schließlich: Erfassen Sie die Merkmale der Befragten, um zu verstehen, wer die Befragten sind und wie Faktoren wie Alter, Geschlecht, politische Ansichten und kultureller Hintergrund die Befragung beeinflussen. Wir entwickeln Techniken wie PAIR (Population-Aligned Instance Replication), um diese Daten zu nutzen, damit die Kennzeichnungen repräsentativer werden.

Drei Tage lang dreht sich bei der GOR wieder alles um Online-Research.
Forscher selbst sind nicht unbedingt in der Kunst des Sammelns und Interpretierens von Daten für KI ausgebildet. Können sie die von Ihnen vorgestellten Techniken anwenden, um ihre eigenen Daten zu verbessern? Oder erfordert die KI-Ausbildung auch eine neue Form der Zusammenarbeit mit anderen Experten?
Es gibt eine Vielzahl von Artikeln, Lehrbüchern und Kursen über Erhebungsmethoden, von denen viele kostenlos online verfügbar sind. KI-Forscher können ihre Daten und ihre Modelle verbessern, indem sie diese Ressourcen zu Rate ziehen und sie auf die Erfassung von Labels anwenden. Mir ist jedoch klar, dass sie vielleicht nicht die Zeit haben, sich zusätzlich zu ihrer sonstigen Arbeit mit diesem Material zu beschäftigen. Eine Studie unter KI-Forschern ergab, dass “jeder die Modellarbeit machen will, nicht die Datenarbeit”. Glücklicherweise gibt es Forscher, die mit Leidenschaft gute Daten sammeln und die “Datenarbeit” machen wollen. Ich möchte die KI-Forscher ermutigen, sich mit denjenigen von uns, die sich auf Umfragen spezialisiert haben, in Verbindung zu setzen und zusammenzuarbeiten. Der vielversprechendste Ansatz besteht darin, interdisziplinäre Teams zu bilden, in denen Fachwissen geteilt wird. Anstatt die Datenerhebung als eine technische Dienstleistung zu betrachten, die ausgelagert werden kann, sollten diese Partnerschaften Sozialwissenschaftler in jeder Phase des KI-Entwicklungsprozesses einbeziehen.
Können Sie einige Beispiele für erfolgreiche kooperative Forschungsprojekte nennen, die die Kluft zwischen KI und Umfragemethodik überbrücken?
Die Forschungsgruppe, die ich leite, ist ein Beispiel dafür. Wir haben Forscher aus den Bereichen Statistik, Informatik, NLP und Soziologie. Mich inspiriert auch die fruchtbare Zusammenarbeit zwischen KI- und Umfrageforschern bei der Frage, wie KI Umfragen verbessern kann. Bei Umfragen werden KI-Modelle eingesetzt, um Fragen zu schreiben, als Interviewer zu fungieren und die Antworten zu analysieren. Diese Innovationen können die Qualität der Umfragedaten erhöhen und die Kosten senken. Diese erfolgreiche Zusammenarbeit kann uns als Beispiel dafür dienen, wie der Umfragebereich die KI unterstützen kann.
Es gab bereits einige kleine internationale Workshops, die sich mit der Zusammenarbeit der beiden Bereiche befassten. Und auf der Konferenz der American Association for Public Opinion Research (AAPOR) im Mai dieses Jahres wird es viele Vorträge zu diesem Thema geben. Interessierte Leser sollten sich das Programm dieser Konferenz ansehen, um sich über die neuesten Forschungsergebnisse zu informieren und Mitarbeiter zu finden.
Ein Artikel von Bettina Sonnenschein