Vier Ebenen generativer KI – und warum Fortschritt selten nur im Modell steckt

Wenn heute von Fortschritten bei generativer KI die Rede ist, heißt es schnell: „Das neue Modell ist besser.“ Gemeint ist dann je nachdem: mehr Wissen, bessere Antworten, stabileres Verhalten, bessere Benchmarks oder ein angenehmerer Stil. Technisch sauber ist diese Aussage aber selten, denn in der Praxis entstehen Verbesserungen auf mehreren Ebenen, die man auseinanderhalten sollte. Sonst redet man aneinander vorbei.

Ganz am Anfang stehen die Trainingsdaten. Sie legen fest, was ein Modell überhaupt lernen kann. Welche Welt es sieht, welche Themen es kennt, welche Sprachen es versteht. In den letzten Jahren kamen viele Sprünge nicht nur daher, dass Modelle größer wurden, sondern weil Daten besser kuratiert, gemischt oder gezielt synthetisch ergänzt wurden („Synthetic Data Revolution“). Zwei Modelle mit identischer Architektur können sich massiv unterscheiden, wenn die Datenbasis eine andere ist. Das wird oft unterschätzt, weil Daten selten öffentlich sind – ihr Effekt ist aber enorm. Und im Finetuning kann man Modelle gezielt neuen Spezialthemen aussetzen, um ihre Kenntnisse zu vertiefen.

Darauf baut dann die Mikro-Architektur auf. Hier geht es um das Innenleben des Modells: Attention, Normalisierung, Optimizer, Trainingsstabilität, Post-Training etc. Viel Fortschritt entsteht hier leise und vergleichsweise unspektakulär (jedenfalls außerhalb der Hardcore AI-Bubble). Modelle gleicher Größe sind heute schlicht besser trainiert als noch vor ein oder zwei Jahren und erzielen bessere Werte in den Benchmarks.

Die Makro-Architektur beschreibt dann die globale Struktur des Modells. Wie Information durch die Layer fließt, welche Teile wann aktiv sind und wie Kapazität genutzt wird. Konzepte wie Mixture-of-Experts oder lernbare Hyper-Connections zwischen Layern verändern nicht einzelne Bausteine, sondern die Gesamtorganisation. Gerade bei Small Language Models ist das ein wichtiger Hebel, weil man mehr Leistung herausholen kann, ohne proportional mehr Rechenbudget zu brauchen.

Am meisten unterschätzt wird jedoch der Harness. Er entscheidet, wie ein Modell tatsächlich eingesetzt wird. Welche Informationen in den Kontext gelangen, wie mit langen Kontexten umgegangen wird, ob Tools genutzt werden dürfen, ob geplant, geprüft oder rekursiv nachgebessert wird. Spätestens hier zeigt sich: Kontext ist keine kostenlose Ressource. Wer alles in den Prompt kippt, bekommt selten bessere Antworten, sondern oft instabiles Verhalten (Stichwort: „Context Rot“).

Ansätze wie Recursive Language Models zeigen sehr schön, wie groß der Effekt reiner Harness-Innovationen sein kann. Das Modell bleibt gleich, aber der Kontext wird nicht mehr blind gefüttert, sondern aktiv durchsucht und strukturiert. Plötzlich werden Aufgaben lösbar, die vorher außerhalb der Reichweite lagen. Nicht, weil das Modell schlauer ist, sondern weil es besser genutzt wird.

Im Unternehmens-Umfeld ist das nichts Neues. Der Unterschied zwischen einem Demo-Chatbot und einem produktiven System liegt fast nie im Modell. Er liegt in Tests, Staging, Zugriffskontrollen, Auditierbarkeit, deterministischer Tool-Nutzung und sauberer Evaluation. Kurz gesagt: im Harness.

Diese Vier-Layer-Sicht hilft, Fortschritt realistischer einzuordnen. Daten bestimmen, was gelernt werden kann. Mikro-Architektur bestimmt, wie gut gelernt wird. Makro-Architektur bestimmt, wie viel davon nutzbar ist. Und der Harness entscheidet, wie viel davon am Ende wirklich ankommt. Wer nur auf „das Modell“ schaut, verpasst oft genau die spannendsten Entwicklungen.

Die schlanke Revolution: Warum Small Language Models die Zukunft gehört

Schneller, günstiger, kontrollierbarer – und trotzdem leistungsstark: Small Language Models erobern den Enterprise-Bereich.

Während die Welt auf GPT-5, Gemini 3 und immer größere Modelle schaut, passiert im Hintergrund etwas Spannendes: Kleine Sprachmodelle (SLMs) entwickeln sich rasant weiter und werden zur echten Alternative für Unternehmensanwendungen. In unserem aktuellen Webinar haben wir gezeigt, warum das so ist – und unsere eigenen feingetunten Modelle live demonstriert.

Das Problem mit den Großen

80-95% aller Corporate-KI-Projekte scheitern. Eine ernüchternde Zahl, die durch die Tech-Presse geistert. Aber warum?

Ein Hauptgrund: Die großen Sprachmodelle wie ChatGPT oder Claude sind für den Enterprise-Einsatz oft problematisch. OpenAI hat kürzlich beim Release von GPT-5 einfach mal die alten Modellvarianten vorübergehend abgeschaltet – ein Albtraum für jede Corporate-IT mit laufenden Prozessen. Dazu kommen Datenschutzbedenken, unvorhersehbares Verhalten und die Abhängigkeit von amerikanischen Cloud-Diensten.

Klein, aber oho: Die Vorteile von SLMs

Small Language Models (typischerweise zwischen unter 1 bis 20 Milliarden Parameter) bieten handfeste Vorteile:

⚡ Geschwindigkeit: Antworten im Millisekundenbereich statt Sekundenlanger Wartezeiten. Wer einmal die Responsivität eines lokalen SLMs erlebt hat, will nicht mehr zurück.

🔒 Datenschutz: Läuft auf eigenen Servern, braucht kein Internet, keine Daten verlassen das Haus. Ideal für sensible Unternehmensdaten.

🎯 Kontrolle: Keine überraschenden Modell-Updates, keine plötzlichen Verhaltensänderungen. Das Modell macht genau das, was es soll.

💰 Kosten: Deutlich günstiger im Betrieb als API-Calls zu den großen Anbietern.

🔧 Anpassbarkeit: Durch Finetuning lassen sich SLMs präzise auf spezifische Aufgaben trainieren – und zwar mit überschaubarem Aufwand.

Das Geheimnis: LoRA-Finetuning

Der Game-Changer heißt LoRA (Low-Rank Adaptation). Diese Technik ermöglicht es, Modelle mit erstaunlich wenig Daten (ab ~100 Beispielen) und Rechenpower anzupassen. Das Prinzip: Man trainiert nur einen kleinen „Adapter“, der über die Modellgewichte gelegt wird – keine Neutrainierung des gesamten Modells nötig.

Das Ergebnis? Ein Modell, das nicht nur die richtigen Antworten gibt, sondern auch im richtigen Stil antwortet. Wer jemals versucht hat, ChatGPT per Prompt dazu zu bringen, kürzere Antworten zu geben oder bestimmte Formatierungen zu vermeiden, weiß wie schwierig das ist. Mit Finetuning funktioniert es zuverlässig.

Live-Demo: Unsere eigenen SLMs

Im Webinar haben wir drei feingetunte Modelle gezeigt, alle basierend auf dem LFM-2 von LiquidAI mit nur 1,2 Milliarden Parametern:

  1. Allgemeines Deutsch-Modell: Solide Antworten zu alltäglichen und fachlichen Fragen
  2. Fritz Perls Therapie-Bot: Ein Modell, das den konfrontativen Gesprächsstil des Gestalt-Therapeuten Fritz Perls perfekt imitiert
  3. Marktforschungs-Assoziationsmodell: Analysiert implizite Markenassoziationen im Stil professioneller Marktforschung

Die Responsivität ist beeindruckend – die Antworten kommen praktisch sofort. Und das Beste: Alles läuft auf unseren eigenen europäischen Servern.

Die Zukunft: Hybrid ist King

Unsere Vision bei HybridAI: Die Kombination macht’s. Kleine, feingetunte Modelle für die Routine-Aufgaben, große Modelle für komplexe Anfragen – orchestriert durch eine intelligente Steuerungsschicht, die erkennt, welches Modell gerade das richtige ist.

Das gibt Unternehmen das Beste aus beiden Welten: Schnelle, kontrollierbare, datenschutzkonforme Antworten für 80% der Anfragen – und die Power der großen Modelle, wenn es wirklich nötig ist.

Selbst ausprobieren?

Wir stellen unsere SLM-Demo öffentlich zur Verfügung (hier geht’s zur Live-Demo). Testet selbst, wie sich die kleinen Modelle schlagen – und kontaktiert uns, wenn ihr über eigene feingetunte Modelle für eure Anwendungsfälle sprechen wollt.