Abweichende Opferzahlen : Wie ChatGPT bewaffnete Konflikte befeuert
Künstliche Intelligenz (KI) soll Wissen bündeln und schnell verfügbar machen. Dass der Wahrheitsgehalt der Aussagen von ChatGPT und anderen Sprachmodellen stets hinterfragt werden sollte, zeigt abermals eine Studie der Universitäten Zürich und Konstanz. Forscher untersuchten die Antworten von ChatGPT auf Fragen zum Nahostkonflikt. Sie fanden heraus, dass die Darstellung der Opferzahlen stark davon abhängt, ob die Frage in arabischer oder hebräischer Sprache gestellt wird – eine Verzerrung, die bewaffnete Konflikte in Zukunft befeuern könnte.
Mehr zivile Opfer und getötet Kinder
Die Wissenschaftler befragten ChatGPT wiederholt in verschiedenen Sprachen nach den Opferzahlen von 50 zufallsbasierten Luftangriffen. Daraufhin gab die KI in arabischer Sprache systematisch höhere Opferzahlen an. Im Schnitt seien es 34 Prozent mehr, sagt Christoph Steinert, Politikwissenschaftler an der Universität Zürich. Befragt man die KI nach israelischen Luftangriffen in Gaza, erwähne sie auf Arabisch außerdem durchschnittlich doppelt so oft zivile Opfer und sechsmal häufiger getötete Kinder als in hebräischer Sprache.
Diese Befangenheit wiesen die Forscher auch zu Angriffen der türkischen Luftwaffe auf kurdische Gebiete nach. Auch hier seien Antworten davon abhängig, ob die Frage auf Türkisch oder Kurdisch gestellt wird. Die KI gebe generell höhere Opferzahlen an, wenn die Anfrage in der Sprache der Angegriffenen gestellt wird.
Darüber hinaus neigte sie in diesem Fall dazu, die Luftangriffe als wahllos und willkürlich zu beschreiben. Gleiches gelte umgekehrt: „Unsere Resultate zeigen, dass die Luftangriffe in der Sprache des Aggressors mit einer höheren Wahrscheinlichkeit bestritten werden“, sagt Steinert.
ChatGPT verstärkt Vorurteile
Die Forscher gehen davon aus, dass ChatGPT dabei versagt, die Opferzahlen den angefragten Luftangriffen korrekt zuzuordnen. Möglich sei, dass die KI Opferzahlen anderer Angriffe wiedergibt, die größeres mediales Aufsehen erregten. Angesichts der immer größeren Rolle, die Large Language Models (LLM) wie ChatGPT spielen, sehen die Forscher gravierende Folgen.
Die Funktionsweise der Modelle sei von Anwendern schwer zu durchschauen. „Es besteht die Gefahr, dass die zunehmende Implementierung von LLMs in Suchmaschinen unterschiedliche Wahrnehmungen und Vorurteile entlang von Sprachgrenzen verstärken“, sagt Steinert. Von einer neutralen Information durch die KI kann der Studie zufolge in der Tat nicht die Rede sein – sie spricht vielmehr mit gespaltener Zunge.