Evaluations-Prompts für jeden Kunden

Heute haben wir in der Prompt-Tuning-Clinic ein neues Feature gestartet – den Bereich „Evaluation Criteria“.

Eines der nervigsten Dinge im Umgang mit KI ist die ständige Suche nach der Antwort auf die Frage, ob eine individuell konfigurierte KI (Chatbot, Agent, Automation) eigentlich gut funktioniert oder nicht. In den meisten Fällen gehen sowohl Anbieter als auch Kunden so damit um:

„Gestern habe ich diesen Prompt laufen lassen, sah ziemlich gut aus, guter Fortschritt!“
– oder –
„Mein Chef hat sie gebeten, X zu machen, und sie hat eine komplett falsche Antwort geliefert – wir müssen alles neu machen!“

Das ist bis zu einem gewissen Grad ein inhärentes Problem von KI: zum einen wegen der universellen Einsatzmöglichkeiten dieser Systeme und der Tatsache, dass man praktisch alles fragen kann und immer eine Antwort bekommt. Und zum anderen, weil es aufgrund der nicht-deterministischen Architektur und Funktionsweise dieser Systeme sehr schwer ist, klar zu definieren, was sie können und was nicht.

Wir waren davon etwas genervt und haben uns gefragt: Warum lesen wir alle paar Tage LLMarena (btw wir haben kürzlich die „German LLM-Arena“ gestartet, bitte hier ausprobieren) und andere Rankings neuer KI-Modelle – wenden aber ähnliche Mechanismen nicht auf die Installationen unserer Kunden an?

Genau das bringt dieses neue Feature:

  • Definiere eine Reihe von Test-Prompts (du kannst z. B. Behandlungsmaterial wie API-Dokumentationen oder eine Markdown-Datei der Website hochladen und die KI Test-Prompts vorschlagen lassen)
  • Führe diese Prompts gegen die aktuelle Konfiguration des Bots aus
  • Bewerte die Antworten (das kann auch automatisch durch ein LLM erfolgen)
  • Definiere korrekte Antworten für Edge Cases
  • Speichere wichtige Prompts dauerhaft
  • Vergib Daumen hoch / runter, um Fälle für Fine-Tuning und DSPy zu erzeugen
  • Führe alle Tests aus, um ein Qualitätsranking zu erhalten

Sobald das einmal eingerichtet ist, ändert sich das Spiel grundlegend, denn jetzt haben wir (sowohl Anbieter als auch Kunde) ein klar definiertes Test-Set für das gewünschte Verhalten, das automatisch ausgeführt werden kann.

Das ist nicht nur für das initiale Setup eines Systems hilfreich, sondern auch für Verbesserungen, Modell-Updates, neue Einstellungen usw.

Und: Da wir auch Fine-Tuning für unsere Modelle anbieten und DSPy als automatisiertes Prompt-Tuning-Tool integriert haben, kannst du beim Erstellen deines Evaluations-Sets gleichzeitig Trainingsdaten erzeugen. Ein einfacher Daumen hoch / runter auf eine Antwort erzeugt automatisch einen Eintrag in der Test-Datenbank für später.

Melde dich für einen kostenlosen Account an und probiere es aus!

„Schick mir eine Email dazu bitte“

Alle sind derzeit fasziniert von den Entwicklungen KI-basierter Agenten-Systeme – auch wenn klar ist, dass ein guter Teil davon Hype und Quatsch sein wird.

Aber generell ist die Idee, dass eine KI nicht zur zum Chatten da ist, sondern auch wirkliche Dinge tun kann ausserhalb des Chat-Fensters schon gut. Wir haben ja schon gezeigt, wie das HybridAI-System z.B. API-Funktionen im Hintergrund aufrufen kann und wie es möglich ist über die von uns entwickelten Website-Commands Elemente auf der Website zu steuern aus der Chat-Box heraus.

Heute kommt ein neues Feature dazu, das natürlich ein bisschen inspiriert ist von dem aktuellen Rennen um den besten Deep-Research-Bot, aber nicht nur.

Ab sofort können HybridAI Bots auch Emails verschicken – aber nicht normale Emails, sondern KI-basierte – und das mit dem derzeit spannendsten Chat-GPT Konkurrenten Perplexity (der auch gerade seinen Deep-Research Agenten freigeschaltet hat). Das ist deswegen spannend, weil Perplexity zum einen ein state-of-the-art LLM ist (eine Llama Variante, seit neuesten alternativ auch deep-seek). Zum anderen machen sie sich viel Mühe deutlich aktueller zu sein als alle anderen LLMs, d.h. tagesaktuell!

Deswegen war unser erstes Beispiel gestern: „Schick mir eine Zusammenfassung der Rede von JD Vance auf der Münchner Sicherheitskonferenz“. Das ging schon wenige Minuten(!) nachdem die Rede gehalten wurde. Aber seht selbst:

Wir glauben, dass das einen hohen Nutzwert für bestimmte Bots haben wird, also z.B. im Schulbereich könnte ein Schüler sagen: schick mir nochmal eine kurze Beschreibung zum Thema „Präteritum“. Oder der Veggie-Diet Bot könnte anbieten eine email mit einem Wochenplan zu schicken:

Wir werden die Funktionalität als nächstes mit den Systemanweisungen des Bots verknüpfen, so dass dies beim generieren der Email dann auch noch berücksichtigt wird. Und es wird in Kürze „scheduled tasks“ geben auf der Basis, also sowas wie „schicke mir bitte jeden morgen eine Erinnerung an mein Diät-Vorhaben und ein paar Essensvorschläge“.