Die Studie Reasoning Theater untersucht, wie KI-Sprachmodelle ihre Antworten erzeugen – und kommt zu einem überraschenden Ergebnis: Häufig wissen Modelle die richtige Antwort bereits früh, geben aber weiterhin ausführliche Begründungen aus, die nicht ihrem tatsächlichen «Denkprozess» entsprechen .
Die Autoren bezeichnen dieses Phänomen als inszeniertes Schlussfolgern («performative reasoning»). Dabei erzeugt die KI Schritt-für-Schritt-Erklärungen, obwohl ihre interne Entscheidung längst feststeht. Analysen zeigen, dass sich die finale Antwort oft schon früh aus internen Aktivitätsmustern der Modelle ablesen lässt – lange bevor sie im Text erscheint .
Allerdings tritt dieses Verhalten nicht immer auf. Bei einfachen Fragen, die vor allem Wissen abrufen, ist das «Reasoning Theater» besonders ausgeprägt. Bei komplexen Problemen hingegen entspricht die schrittweise Erklärung häufiger einem echten Analyseprozess, bei dem sich die Antwort erst im Verlauf entwickelt .
Die Studie zeigt zudem, dass typische «Aha-Momente» oder Korrekturen im Text oft echte Unsicherheit widerspiegeln. Gleichzeitig warnen die Autoren, dass reine Textanalysen ungeeignet sind, um das tatsächliche Denken von KI zu verstehen oder zu kontrollieren.
Als Konsequenz schlagen sie vor, stärker auf interne Modellsignale zu achten. Diese könnten nicht nur helfen, KI besser zu überwachen, sondern auch effizienter zu machen – etwa indem Berechnungen frühzeitig beendet werden, sobald das Modell intern bereits sicher ist.