Zum Hauptinhalt springen

Effiziente „Horizonterweiterung“ für Chatbots: Sequenzmodelle profitieren von dosierter Nichtlinearität

Pin It

- Chatbots wie ChatGPT basieren auf Machine Learning-gesteuerten
Sequenzmodellen
- Für die Qualität der Anwendungen ist die Art des Modells entscheidend
- Forschende belegen: bei der Verarbeitung kontextbezogener Zusammenhänge
übertrafen Modelle mit dosierter Nichtlinearität rein lineare und
vollständig nichtlineare Modelle


- Die Integration dosierter Nichtlinearität wird als allgemein nützliches
Designprinzip für daten-effiziente Sequenzmodelle angesehen
- Für die Analyse neuronaler Aufzeichnungen sind die Ergebnisse ebenfalls
relevant: hier können kombinierte Modelle nicht nur Verhalten vorhersagen,
sondern auch grundlegende Berechnungsprinzipien des Gehirns aufzeigen

Frankfurt am Main, 09. Februar 2026

Regenschirm oder Sonnenhut? Aktien kaufen oder verkaufen? In Fragen wie
diese vertrauen weite Personenkreise heute auf KI-gestützte Empfehlungen.
Chatbots wie ChatGPT, KI-gesteuerte Wettervorhersagen oder
Finanzmarktprognosen basieren auf Machine Learning-gesteuerten
Sequenzmodellen. Für die Qualität dieser Anwendungen ist es daher
entscheidend, welche Art von Sequenzmodell zum Einsatz kommt und wie sich
solche Modelle weiter optimieren lassen.

Lineare Sequenzmodelle können kontextbezogene Zusammenhänge nicht
verarbeiten

Eine zentrale Rolle spielt dabei die Linearität und Nichtlinearität der
Modelle. Lineare Sequenzmodelle verarbeiten Informationen nach dem Prinzip
der Proportionalität: Die Reaktion auf einen Input ist immer direkt
proportional zu seiner Stärke, ähnlich dem Prinzip "Wie der Wind, so die
Welle". Nichtlineare Modelle hingegen können komplexere, kontextabhängige
Zusammenhänge abbilden: Sie können dieselbe Information je nach Situation
völlig unterschiedlich verarbeiten. Ein einfaches Beispiel: Ob das Wort
"Bank" als Geldinstitut oder Sitzgelegenheit interpretiert wird, hängt vom
Kontext ab, und solch eine bedingte Unterscheidung können lineare Modelle
nicht leisten.

Neben der Ergebnis-Qualität spielt die Trainingseffizienz eine maßgebliche
Rolle

Diese Fähigkeit zur kontextabhängigen Verarbeitung macht nichtlineare
Modelle so mächtig für komplexe Aufgaben wie Sprachverständnis oder
Mustererkennung. Aber braucht man wirklich überall im Modell
Nichtlinearität, oder reicht diese vielleicht an gezielten Stellen aus?
Denn neben der Qualität der Ergebnisse spielt auch die Trainingseffizienz
eine maßgebliche Rolle. Sowohl lineare Modelle als auch Transformer (die
Architektur hinter dem "T" in ChatGPT) erlauben paralleles Training, bei
dem viele Informationen gleichzeitig verarbeitet werden können, was die
Skalierung auf riesige Datenmengen erst möglich gemacht hat. Doch während
lineare Modelle sich günstig trainieren lassen, ist das Training großer
Transformer-Modelle extrem kosten- und energieintensiv: Weltweit werden
riesige Serverfarmen für KI-Training gebaut, mit gigantischem
Energieverbrauch als Folge. Das Optimum wäre ein smarter Mittelweg: Ein
Modell, das die Vorteile des parallelen Trainings nutzt, aber ohne die
enormen Kosten vollständig nichtlinearer Architekturen.

Wieviel Nichtlinearität ist zielführend?

Zentral ist also die Frage, wie Nichtlinearität innerhalb von
Sequenzmodellen zielführend eingesetzt werden kann. Das haben
Wissenschaftler:innen des Ernst Strüngmann Instituts in Frankfurt sowie am
Interdisziplinären Zentrum für Wissenschaftliches Rechnen an der
Universität Heidelberg herausgefunden.

Die Frage ist stark aufgabenabhängig: Manche Probleme erfordern mehr,
andere weniger Komplexität. Die zentrale Erkenntnis der Forschung: Es
lohnt sich, eine sinnvolle Balance zu finden. Um dies systematisch zu
untersuchen, testeten die Forschenden ihre Modelle an einer breiten
Palette von Aufgaben: von Textklassifizierung über Bilderkennung bis hin
zu kognitiven Benchmarks aus der computergestützten Neurowissenschaft.
Diese Vielfalt ermöglichte es, zu unterscheiden, welche Aufgaben
Nichtlinearität wirklich funktional benötigen und welche sich bereits
durch weitgehend lineare Prozesse lösen lassen.

Das überraschende Ergebnis: Modelle mit dosierter Nichtlinearität, bei
denen nur ein Teil des Modells (der „Neuronen“ im neuronalen Netzwerk)
nichtlinear arbeitet, übertrafen sowohl rein lineare als auch vollständig
nichtlineare Modelle in vielen Szenarien. Besonders deutlich zeigte sich
dieser Vorteil bei begrenzten Datenmengen: Hier waren die spärlich-
nichtlinearen Modelle klar überlegen. Aber auch bei größeren Datenmengen
blieben sie wettbewerbsfähig. Der Grund: Die nichtlinearen Einheiten
fungieren als flexible Schalter, die kontextabhängig zwischen
verschiedenen linearen Verarbeitungsmodi umschalten.

Wertvolle Erkenntnisse auch für die Neurowissenschaft

Ein entscheidender Vorteil dosierter nichtlinearer Modelle liegt in ihrer
Interpretierbarkeit.  Weil die Nichtlinearität auf wenige Einheiten
beschränkt ist, konnten die Forschenden nachvollziehen, wo und wie das
Modell diese einsetzt. Das macht die Architektur besonders wertvoll für
die Neurowissenschaft: Bei der Analyse neuronaler Aufzeichnungen können
die Modelle nicht nur Verhalten vorhersagen, sondern auch offenlegen,
welche Berechnungsprinzipien dem Gehirn zugrunde liegen. Die Ergebnisse
zeigen in diesem Zusammenhang ein konsistentes Muster: Gedächtnis wird oft
über langsame lineare Dynamiken implementiert, während rechnerische
Operationen durch gezielte nichtlineare Mechanismen realisiert werden.
Damit legen die Forschenden einerseits einen Ansatz zur Erklärung
neurowissenschaftlicher Messung vor. Andererseits schlagen sie darüber
hinaus bezüglich der Optimierung von Sequenzmodellen im Rahmen des Machine
Learning vor, die Integration dosierter Nichtlinearität als allgemein
nützliches Designprinzip für moderne, dateneffiziente Sequenzmodelle
anzusehen.

Originalpublikation:
Brenner, M., Koppe, G. (2026). Uncovering the Computational Roles of
Nonlinearity in
Sequence Modeling Using Almost-Linear RNNs. Transactions on Machine
Learning Research (01/2026), https://openreview.net/forum?id=qI2Vt9P9rl