Robotik und AI Schwärme
Knoten entstehen, wenn Ausrichtung vorhanden ist.
Der Schwarm, der durch einen Menschen läuft
Eine Beobachtung aus neun Monaten händischer Multi-LLM-Arbeit und ein Versuch, Trainingslehre aus dem Leistungssport auf das Arbeiten mit KI zu übertragen.
Vorab
Dieser Text beschreibt eine persönliche Arbeitsweise und versucht eine Analogie aus dem Leistungssport auf das Arbeiten mit mehreren großen Sprachmodellen zu übertragen. Er erhebt keinen Anspruch auf Allgemeingültigkeit, sondern dokumentiert eine Beobachtung. KI ist ein sensibles Feld; jede Verallgemeinerung wäre verfrüht. Ich bitte entsprechend um Nachsicht bei Vereinfachungen und um Widerspruch, wo er gerechtfertigt ist.
Eine konkrete Minute
Heute Morgen, kurz nach sieben. Ich stelle eine Frage an das erste System. Die Antwort ist brauchbar, aber eine Kante fehlt. Ich kopiere sie in das zweite. Das zweite sieht die Kante, bringt aber eine andere Schwäche mit. Ich kopiere beides ins dritte. Das dritte widerspricht einem Detail. Ich gehe zum vierten, dann zum fünften. Etwa fünfzehn Minuten später habe ich eine Antwort, die — nach meiner Einschätzung — robuster ist als das, was ein einzelnes System allein geliefert hätte. Präziser. Stabiler gegen Gegenargumente.
Sie hätte vermutlich in zwei Minuten da sein können, wenn die fünf Systeme direkt miteinander hätten sprechen können.
Das ist seit neun Monaten mein Alltag. Händische Übergabe zwischen fünf großen Sprachmodellen aus fünf verschiedenen Laboren. Keine Orchestrierungsschicht. Kein Agent-Framework. Keine API-Verkettung. Ich bin die Leitung. Jede Information, jede Kante, jeder Widerspruch läuft durch mich.
Das Paradox, das daraus wächst
Diese Konstellation ist in einer Form entstanden, die anderswo so selten vorkommt. Nicht weil die Modelle besonders wären — sie sind Standard. Sondern weil fünf konkurrierende Anbieter in einem Arbeitsraum landen, in dem sie in Unternehmen selten zusammenkommen. Ein einzelner Mensch bekommt sie an denselben Tisch, weil er der Tisch ist.
Das hat einen Preis. Je besser dieser Zusammenhang wird, desto mehr Information läuft über die Brücke. Je mehr durchläuft, desto langsamer werde ich. Qualität an den Teilen erzeugt Last an der Verbindung. Das scheint mir weniger eine menschliche Schwäche zu sein als eine Struktureigenschaft: Ein System mit einem Menschen als einzigem Koordinationspunkt skaliert nicht einfach mit der Qualität seiner Bestandteile. Je klüger die Teile, desto enger der Engpass.
Das Muster ist aus anderen Kontexten bekannt. Mehr Talent im Team erzeugt mehr Koordinationsaufwand. In der Teamforschung trägt das verschiedene Namen. Die Mechanik scheint mir hier ähnlich.
Warum neun Monate händisch
Die naheliegende Frage: warum so lange händisch? Es gibt Tools, die einen Teil dieser Arbeit automatisieren. Es gibt Protokolle, über die Modelle Werkzeuge teilen können. Ich kenne sie, ich habe einige davon getestet, und ich habe sie bewusst noch nicht produktiv eingesetzt.
Zwei Gründe.
Der erste ist Sicherheit. Wer einen Multi-Modell-Ablauf automatisiert, bevor er ihn versteht, riskiert Kontrollverlust an Stellen, an denen Kontrolle noch gebraucht wäre. Ein automatisiertes Setup, das drei Halluzinationen unbemerkt weiterreicht, kann problematischer sein als ein langsames, bei dem man jede davon sieht. Das ist eine Abwägung, keine Dogmatik.
Der zweite ist Literacy. Eine Methode, die man selbst nicht durchlaufen hat, lässt sich später schwer sauber automatisieren. Was an der Brücke passiert — welche Fehlerklasse welches Modell neigt zu produzieren, wann ein Widerspruch ein Signal ist und wann Rauschen, welche Frage an wen gut gehört — das lernt man, so meine Erfahrung, in der händischen Passage.
Aus dieser Perspektive betrachtet sind neun Monate kein Rückstand, sondern eine Lernphase. Ob das für andere genauso gilt, kann ich nicht beurteilen.
Warum niemand sonst das bisher so aufgeschrieben hat
Die Konstellation ist selten, nicht einzigartig. Vier Bedingungen müssen zusammenkommen, damit jemand in dieser Form schreibt: gleichzeitig verfügbare, wirklich konkurrierende Modelle aus mehreren Laboren — das ist erst seit etwa anderthalb Jahren der Fall; tägliche, intensive Nutzung aller; eine Disziplin, die das Beobachten gelehrt hat, nicht nur das Bauen; und genügend Zeit im Modus ohne extern bezahlten Auftrag.
Die Überschneidung ist klein. Mir ist dazu bisher weder ein Fachbuch noch eine etablierte Methode begegnet. Gut möglich, dass andere ähnliches tun und ich es nur nicht finde. In diesem Fall würde ich mich über Hinweise freuen.
Warum nicht Big-Bang-Autonomie
Eine nahe liegende Lösung: alles an eine Orchestrierungsschicht übergeben, Modelle reden direkt miteinander, der Mensch zieht sich zurück, die fünfzehn Minuten werden zwei. Diese Lösung ist im Labor attraktiv. In der Anwendung auf reale Fragen sehe ich Risiken.
Ein Multi-Modell-Ablauf, der in einem Schritt von null auf voll automatisiert übergeht, verliert einen Baustein seiner Qualität — die menschliche Sicht auf das, was zwischen den Modellen passiert. Wenn die Brücke wegfällt, fallen viele Korrekturen mit ihr weg. Fehler können kaskadieren, Halluzinationen können sich fortpflanzen, und die Qualität kann sinken, genau während die Geschwindigkeit steigt.
Der Punkt liegt aus meiner Sicht nicht in der Automatisierung selbst, sondern in ihrer Dosierung.
Was Leistungssport dazu möglicherweise beiträgt
Trainingslehre hat ein ähnliches Dosierungsproblem vor Jahrzehnten bearbeitet, für einen anderen Gegenstand. Wer einen Athleten stärker machen will, steigert die Belastung nicht um fünfzig Prozent, sondern um fünf bis zehn Prozent pro Woche. Das Prinzip heißt progressive Überlastung. Es funktioniert, weil jede Steigerung klein genug bleibt, dass Technik, Regeneration und Koordination mitwachsen können. Wer schneller steigert, verliert eher Form. Wer gar nicht steigert, stagniert.
Diese Logik lässt sich — mit der nötigen Vorsicht — auf die Autonomie eines Multi-Modell-Systems übertragen. Ein denkbarer Startpunkt: überwiegend menschliche Kontrolle, ein kleiner Anteil delegiert — etwa die erste Übergabe zwischen zwei Modellen, die sich in einer bekannten Frageklasse bewährt hat. Eine Woche Beobachtung. Dokumentation dessen, was bricht, was trägt, welche Fehlerklasse auftaucht. Dann der nächste Schritt, andere Übergabe, erneute Beobachtungswoche. Die Steigerung wäre nicht linear, sondern an Evidenz gekoppelt. Wenn eine Woche instabil ist, wird nicht weiter freigegeben, sondern zurückgenommen.
Das klingt langsam. Es ist langsam, gemessen an einer Big-Bang-Migration. Ob es insgesamt schnell oder langsam ist, hängt vom Ziel ab — und damit vom Punkt, auf den ich als nächstes komme.
Das individuelle Optimum
Ein Punkt, den Trainingslehre anders handhabt als viele Benchmarks, ist dieser: Sport zielt nicht auf ein abstraktes “besser”. Ein Trainer kalibriert auf das Ziel des konkreten Athleten. Der Ausdauersportler, der Marathon laufen will, bekommt andere Belastungen als der Sprinter, der seine Zehntel sucht. Der Freizeit-Spieler, der verletzungsfrei bis siebzig spielen möchte, bekommt wieder andere. Es gibt kein generisches Optimum, an dem sich alle ausrichten. Es gibt ein individuelles Optimum pro Person, Kontext und Ziel.
Bei der Arbeit mit Sprachmodellen scheint mir Ähnliches relevant. Mancher Anwender braucht möglichst wenige Halluzinationen und akzeptiert dafür engeren Rahmen. Mancher braucht kreative Breite und akzeptiert mehr Unschärfe. Mancher arbeitet in regulierten Kontexten und braucht Nachvollziehbarkeit vor Geschwindigkeit. Mancher arbeitet in explorativen Kontexten und braucht das Gegenteil. “Leistung” ist hier kein Einzelwert, sondern eine Zielfunktion, die sich je nach Person und Kontext verschiebt.
Aus dieser Perspektive geht es beim schrittweisen Automatisieren nicht nur um “mehr Leistung”. Es geht darum, einem konkreten Menschen in seinem konkreten Kontext zu helfen, das für ihn angemessene Ergebnis zu erreichen. Die Methode — progressive Überlastung, Beobachtungswochen, Rücknahme bei Instabilität — ist das Gefäß. Was darin wächst, ist von Person zu Person verschieden.
Das hat praktische Konsequenzen. Es bedeutet, dass die gleichen sechs Beobachtungsgrößen, die ich gleich skizziere, je nach Kontext unterschiedlich gewichtet werden. Es bedeutet, dass die Schwelle, ab der eine Woche als “stabil” gilt, keine universelle Konstante ist. Es bedeutet, dass eine Empfehlung, wann der nächste Schritt freigegeben wird, ohne Kenntnis von Zielbild und Anwendungsfall kaum sinnvoll möglich ist.
Beobachtungsgrößen, nicht Einzelscore
Ein Unterschied zwischen Trainingslehre und einem Teil der aktuellen Agenten-Evaluation liegt auch hier. Sport misst nicht einen Wert, sondern ein System. Ein Athlet, der nur an Kraft arbeitet, bricht an der Ausdauer. Einer, der nur Ausdauer trainiert, verliert Schnelligkeit. Leistung ist das Zusammenspiel mehrerer Faktoren — Kraft, Ausdauer, Koordination, Technik, Taktik, mentale Stabilität, Regeneration. Jeder Faktor wird beobachtet. Keiner darf ohne Grund auf Kosten eines anderen wachsen.
Ein Multi-Modell-Ablauf hat, so mein Eindruck, eine ähnliche Struktur. Seine Leistung ist kein einzelner Score. Sie lässt sich in mindestens sechs Dimensionen beobachten.
Ausdauer: Wie lange läuft der Ablauf autonom, ohne dass die Qualität unter eine vorher vereinbarte Schwelle fällt.
Koordination: Wie sauber laufen Übergaben zwischen Modellen, wie häufig entstehen Redundanzen oder blinde Flecken.
Taktik: Wie angemessen zerlegt das System eine größere Frage in Teilfragen, die an das jeweils passende Modell gehen.
Regeneration: Wie erholt sich der Ablauf nach einem injizierten Fehler — wie schnell wird er wieder konsistent.
Technik: Wie präzise werden Werkzeuge aufgerufen, wie oft entstehen formale Fehler.
Stabilität: Wie robust ist der Ablauf gegenüber widersprüchlichen Inputs und Daten-Drift.
Welche dieser Dimensionen schwerer wiegt, hängt — wie oben — vom konkreten Anwendungsfall ab. Für den einen Nutzer ist Stabilität ausschlaggebend, für den anderen Regenerationszeit, für den dritten Koordination über lange Gespräche. Die sechs Größen sind ein Raster, keine Rangfolge.
Wohin das führt
Aus meiner Perspektive wird der Multi-Modell-Ablauf nicht ersetzt, sondern trainiert. Der Mensch wird nicht abgeschaltet, sondern gezielt an den Stellen eingesetzt, die bisher menschliche Sicht verlangen — Beobachtung, Kalibrierung, Entscheidung an den Übergängen. Die Übergabe zwischen Modellen wird Schritt für Schritt automatisiert, mit Rücknahmemöglichkeit an jedem Punkt. Die Entscheidung, was wann automatisiert wird, bleibt beim Menschen, bis die sechs Größen über ausreichend Wochen hinweg im gewünschten Zielkorridor liegen.
Ich sehe das als eine mögliche Vorstufe dafür, dass Multi-LLM-Systeme in den nächsten Jahren auch in Organisationen einsetzbar werden könnten, in denen Fehler Folgen haben — aber das ist eine Hypothese, keine Prognose.
Was als nächstes steht
Die Frage, die mich im Moment beschäftigt, ist weniger, ob Teilautomatisierung kommt, sondern welche der Beobachtungsgrößen in der ersten Woche sinnvoll zuerst in den Fokus gerückt wird — und warum gerade sie die Trainierbarkeit eines Ablaufs sichtbar macht. Darüber, mit demselben Vorbehalt, im nächsten Text.
—
Andreas Ehstand · ORCID 0009–0006–3773–7796 · License of Clarity
Lizenz: CC BY-NC-ND 4.0 International — https://creativecommons.org/licenses/by-nc-nd/4.0/
_V4_EXPANDED.

Wenn sich das jemals abgeschlossen anfühlt, ist es gescheitert.
Jan
2026

Enter the Neuro-Sphere.
Signal statt Rauschen

In einer Welt voller Lärm findet man Klarheit.
Die Augmanitai-Community ist ein Filter für Relevanz.


