
Forscher entwickeln KI-System für eigenständiges Lernen ohne externe Belohnungen
INTUITOR-Methode nutzt Selbstvertrauen des Modells als einziges Belohnungssignal und zeigt überlegene Generalisierung bei verschiedenen Aufgaben
Wissenschaftler der UC Berkeley, Yale University und anderen Institutionen haben eine bahnbrechende Methode entwickelt, mit der große Sprachmodelle (LLMs) komplexe Denkfähigkeiten ohne externe Überwachung oder Belohnungssignale erlernen können. Die als INTUITOR bezeichnete Technik stellt einen bedeutenden Fortschritt im Bereich des Reinforcement Learning from Internal Feedback (RLIF) dar.
Neues Paradigma des intrinsischen Lernens
Das herkömmliche Training von KI-Modellen für komplexe Denkaufgaben basiert typischerweise auf Reinforcement Learning with Verifiable Rewards (RLVR), das kostspielige, domänenspezifische Überwachung erfordert. INTUITOR durchbricht diese Beschränkung, indem es ausschließlich auf das Selbstvertrauen des Modells – die sogenannte „Self-Certainty“ – als Belohnungssignal setzt.
Die Forscher ersetzen externe Belohnungen in Group Relative Policy Optimization (GRPO) durch Self-Certainty-Scores und ermöglichen damit vollständig unüberwachtes Lernen. Diese Self-Certainty wird als durchschnittliche KL-Divergenz zwischen der Ausgabeverteilung des Modells und einer uniformen Verteilung berechnet.
Überraschende Leistung bei verschiedenen Aufgaben
In Experimenten mit den Qwen2.5-Modellen (1,5B und 3B Parameter) zeigte INTUITOR bemerkenswerte Ergebnisse. Auf mathematischen Benchmarks erreichte es vergleichbare Leistungen wie GRPO, das auf Goldstandard-Antworten angewiesen ist. Besonders beeindruckend war jedoch die Generalisierung auf andere Domänen: Bei Code-Generierungsaufgaben erzielte INTUITOR eine 65%ige relative Verbesserung auf LiveCodeBench gegenüber keiner Verbesserung bei GRPO.
Emergente strukturierte Denkprozesse
Ein unerwarteter Befund war die Entwicklung strukturierter Denkprozesse während des Trainings. Modelle lernten spontan, vor der eigentlichen Antwort detaillierte Begründungen zu formulieren. Das Qwen2.5-1,5B-Modell, das ursprünglich repetitive Inhalte produzierte und 0% auf LiveCodeBench erreichte, entwickelte nach dem Training kohärente Denkstrukturen und erreichte 9,9% Genauigkeit.
Schutz vor Belohnungsausnutzung
Ein kritischer Vorteil von INTUITOR liegt in der Verwendung von Online-Self-Certainty, die sich mit dem Modell mitentwickelt. Dies verhindert die Ausnutzung statischer Belohnungsmodelle, ein bekanntes Problem beim Reinforcement Learning. Experimente zeigten, dass Offline-Varianten anfällig für solche Ausnutzung sind, während die Online-Version stabile Trainingsdynamiken beibehält.
Skalierbarkeit und Anwendungsbreite
Die Forscher testeten INTUITOR erfolgreich auf größeren Modellen (Qwen2.5-7B und 14B) sowie verschiedenen Architekturen wie Llama-3.2-3B. Die Methode erwies sich als breit anwendbar und erfordert lediglich klare Prompt-Formulierungen ohne verifizierbaren Belohnungen.
Auswirkungen auf die KI-Entwicklung
RLIF und INTUITOR eröffnen neue Möglichkeiten für autonome KI-Systeme, die sich in Bereichen verbessern können, wo externe Verifikation nicht verfügbar ist. Dies ist besonders relevant für zukünftige Szenarien, in denen Modelle übermenschliche Fähigkeiten entwickeln könnten, die für Menschen schwer direkt zu bewerten sind.
Die Autoren betonen, dass diese Erkenntnisse das transformative Potenzial intrinsischer Signale für effektives domänenübergreifendes Lernen demonstrieren. INTUITOR bietet eine skalierbare Alternative zu RLVR für autonome KI-Systeme und könnte den Weg zu wirklich selbstverbessernden KI-Agenten ebnen.
Die Forschungsergebnisse wurden auf arXiv veröffentlicht und der Code ist unter https://github.com/sunblaze-ucb/Intuitor verfügbar.

