KI kann schlecht Sudoku
Studie: ChatGPT & Co. tun sich mit dem beliebten Logikrätsel schwer, vor allem, wenn sie ihre Lösungen begründen sollen
Wir sind mittlerweile gewöhnt, in jeder Lebenslage von der KI übertrumpft zu werden. Sie verfasst wissenschaftliche Aufsätze, Präsentationen und Romane, stellt medizinische Diagnosen und kann mittlerweile auch "kreativ" werden, Bilder kreieren und Musikstücke komponieren. Sie gibt Beziehungs- und Ernährungstipps und weiß eigentlich immer genau, wo der Hase langläuft. Forscher:innen haben jetzt eine kleine Schwachstelle entdeckt: KI ist schlecht in Sudoku. Das vor allem in Japan populär gewordene Logik-Rätsel scheint für die Denkweise der KI eine echte Herausforderung zu sein, wie Forscher:innen um Fabio Somenzi und Maria Pacheco von der US-amerikanischen University of Colorado Boulder herausgefunden haben.
Bei dem beliebten Zahlenrätsel müssen auf einem Feld von 9 x 9 Zahlenblöcken Zahlen von 1 bis 9 eingetragen werden, so dass in jedem Block, in jeder Spalte und in jeder Zeile jede Zahl nur einmal vorkommt. Um das zu lösen, müssen bestimmte Regeln gelernt und befolgt werden. Jede Zahl, die eingetragen wird, verändert dabei den weiteren Prozess. Forscher Somenzi, der sich selbst als Sudoku-Fan bezeichnet, sieht in der Lösung der Rätsel eine sehr menschliche Denkweise, die die KI offensichtlich noch nicht so gut beherrscht.
Künstliche Intelligenz-Tools, die als Large Language Models (LLMs) bezeichnet werden, wie beispielsweise ChatGPT von OpenAI oder Gemini von Google, arbeiten im Prinzip mit Wahrscheinlichkeiten. Um ChatGPT zu entwickeln, haben Programmierer:innen beispielsweise zunächst fast alles, was jemals im Internet geschrieben wurde, in die KI eingespeist. Wenn ChatGPT auf eine Frage antwortet, sagt es anhand all dieser Daten die wahrscheinlichste Antwort voraus.
Beim Sudoku klappt diese Art zu "denken" offenbar nur mäßig. Für die Studie hatten die Forscher:innen rund 2.300 Sudoku-Rätsel mit verschiedenen Schwierigkeitsgraden erstellt. Sie wählten dafür Rätsel mit einem 6×6-Gitter (statt der 9×9-Rätsel, die man normalerweise online findet). Anschließend gaben sie die Rätsel an eine Reihe von KI-Modellen weiter, darunter auch das o1-Modell von OpenAI, das 2023 den neuesten Stand der Technik für diese Art von LLM darstellte.
Die Ergebnisse waren durchwachsen. Während einige der KI-Modelle einfache Sudokus lösen konnten, hatten selbst die besten Schwierigkeiten, zu erklären, wie sie zu ihren Lösungen gekommen waren – sie gaben verworrene, ungenaue oder sogar surreale Beschreibungen ihrer Lösungswege.
Das o1-Modell lag mit einer korrekten Lösung von etwa 65 % der Sudoku-Rätsel an der Spitze. Als das Team die KI-Plattformen aber bat, ihre Antworten zu erklären, kam es zu wirklich erstaunlichen Ergebnissen.
„Manchmal erfanden die KI-Erklärungen Fakten”, sagte Ashutosh Trivedi, Mitautor der Studie und Associate Professor für Informatik an der CU Boulder. „So konnte es beispielsweise heißen: ‚Hier kann keine Zwei stehen, weil bereits eine Zwei in derselben Zeile steht‘, aber das war nicht der Fall.”
Und nun folgt die Wettervorhersage...
In einem Beispiel sprachen die Forscher:innen mit einem der KI-Tools über das Lösen von Sudoku und den Schritten dahin, als es aus unbekannten Gründen mit einer Wettervorhersage antwortete.
„Zu diesem Zeitpunkt war die KI völlig außer Kontrolle geraten und völlig verwirrt“, sagte Somenzi.
Die Forscher:innen schließen daraus, dass es noch nicht an der Zeit ist, die KI für allzu vertrauenswürdig zu halten. Wenn wir all unsere empfindlichsten Entscheidungen einer Maschine überlassen, sollten wir zumindest darauf bauen können, dass sie ihre Entscheidungen im Zweifelsfall auch begründen kann, statt uns einen Überblick über das Wetter zu geben oder erfundene Begründungen zu liefern.
Die Forscher:innen hoffen, ein eigenes KI-System zu entwickeln, das genau das kann – komplizierte Rätsel lösen und erklären, wie.
Bis dahin dürfen sich alle Sudoku-Expter:innen freuen, zumindest in diesem Bereich der Maschine überlegen zu sein. Aber dieser kleine Triumph wird wohl nicht allzu lange vorhalten.
Quelle
Autorin / Autor: Redaktion - Stand: 11. August 2025