Warum wir erstmal keinen MCP Server einrichten werden

Ja, die Aussage kommt in der aktuellen KI-Hype-Gesprächslage ja fast einem Selbstmord gleich, aber ich will kurz erklären, warum wir bei HybridAI zu dem Schluss gekommen sind, erstmal keinen MCP Server einzurichten oder anzusprechen.

MCP-Server sind ein (man muss vll. sagen derzeit noch „gewollter“) Standard der von Anthropic entwickelt und gepusht wird und derzeit extrem viel Wiederhall findet in der AI-Community.

Bei einem MCP-Server geht es darum die für aktuelle „agentic“ KI-Anwendungen so wichtigen Tool-Calls (oder „function-calls“) zu standardisieren, also genaugenommen die Schnittstelle vom LLM (tool-call) zur Schnittstelle des externen Service oder Tools, meist irgendeine Rest-API oder so.

Bei HybridAI haben wir ja schon lange auf eine starke Implementierung von function-calls gesetzt, insofern können wir auf ein paar dutzend implementierte und in Produktion befindlicher function-calls zurückschauen die von inzwischen mehr als 450 KI-Agents teilweise genutzt werden. Also schon ein bisschen Erfahrung in dem Thema. Wir nutzen auch N8N für bestimmte cases, das ist nochmal ein Layer auf dem Thema, der relevant ist im praktischen Alltag. Unsere Agents haben auch APIs nach aussen über die sie angesprochen werden, wir kennen das Problem also sogar in beide Richtungen (d.h. wir könnten sowohl einen MCP Server einrichten für unsere Agents als auch andere MCPs abfragen in unseren function-calls).

Also warum finde ich dann MCP-Server nicht total cool?

Ganz einfach: er löst ein Problem das es mE kaum gibt und lässt die zwei viel wichtigeren Probleme bei function-calls und damit agentischen Setups ungelöst.

Erstmal: warum gibt es das Problem der zu standardisierenden Fremd-Tool APIs eher nicht? Das hat zwei Gründe. (1) bestehende APIs und Tools haben meistens REST-APIs oder was ähnliches, also eine bereits standardisierte Schnittstelle. Diese ist zudem ziemlich stabil was man allein daran erkennt dass viele API-URLs noch ein „/v1/…“ im Aufruf haben oder vielleicht auch schonmal „/v2/…“. Aber die sind eigentlich sehr stabil und gut ansprechbar. Selbst wenn es neue Interfaces gibt, bleiben die alten Endpoints oft online für sehr lange Zeit. Und noch ein Punkt: gerade ältere APIs sind oft spannend, also z.B. die API der ISS oder die des europäischen Patent-Amtes oder die irgendeiner Open-Data API einer Stadt. Diese Services werden auch nicht so schnell MCP-Interfaces dafür anbieten – ergo muss man sich eh mit den alten APIs rumschlagen noch sehr lange. Dazu kommt Punkt (2), und bei dem wundert es mich ein bisschen mit dem MCP-Hype. Denn LLMs sind eigentlich ziemlich cool darin alte APIs abzufragen, viel cooler als andere Systeme die ich da schon kennengelernt habe – denn: man schmeisst ja den API-Output eigentlich nur in das LLM rein und lässt es antworten. Kein Parsing, kein Error-Handling, keine XML-Syntax durchdringen. Macht alles das LLM und das ziemlich reliable und fehlertolerant. Also wozu eigentlich der MCP-Server um das zu abstrahieren?

Also, MCP löst ein Problem (und fügt ja einen weiteren Tech-Layer hinzu), das eigentlich im realen tool-calling Alltag gar nicht so groß ist.

Größer sind dafür folgende zwei Probleme die wirklich nervig sind und andere Lösungen bräuchten in der nahen Zukunft:

–> Tool-Auswahl

–> Tool-Execution und Code-Security

Tool-Auswahl: Agentische Lösungen zeichnen sich ja dadurch aus, dass mehrere tools, ggf. sogar sequentiell verschaltet werden können und das LLM selbst entscheiden kann, welche es nimmt und in welcher Kombination. Wie das abläuft kann man mühevoll mit der Beschreibung des Tools beeinflussen, das ist quasi ein kleiner Mini-Prompt der die Funktion und Ihre Argumente beschreibt. Und da kann es sehr schnell ziemlich drunter und drüber gehen. Wir haben z.b. einen Tool-Call der Perplexity aufruft bei Anfragen mit aktuellem Bezug („wie ist das Wetter heute…“). Oft called das LLM den aber auch, wenn irgendwas anderes gefragt wird was ein bisschen komplizierter ist. Oder es wird der Tool-call für die WordPress-Search-API getriggered, obwohl wir eigentlich die Web-Search über GPT-4.1 mit Websearch haben wollten. Diese Baustelle empfinde ich als ziemlich messy aktuell und das soll ja noch viel autonomer und komplexer werden. Wie die LLMs mit verschiedenen tools umgehen unterscheidet sich auch noch signifikant, aber nicht sehr deterministisch und schlecht dokumentiert.

Tool-Execution: Ein richtig fettes Problem auch für Skalierung aber eben auch Security steckt in der eigentlichen Tool-Code Execution. Denn die – das wissen viele nicht – findet ja lokal auf Deinem eigenen System statt. D.h. eigentlich müssten wir bei HybridAI unseren Kunden anbieten uns Code anzuliefern, der dann als Tool-Call für sie hinterlegt und aktiviert und eben auch ausgeführt wird, wenn das LLM es will. Das ist aber hinsichtlich Code-Integrity, Plattform Stabilität und Sicherheit ein ziemlicher Albtraum (wer jemals ein WordPress-Plugin eingereicht hat weiß, wovon ich rede). Aber das ist ein sehr wichtiges Problem, das übrigens noch viel größer wird, wenn der „Operator“ oder das „computer use“ tool stärker verwendet werden – denn auch die laufen lokal ab und nicht bei OpenAI.

Für diese beiden Probleme hätte ich gerne Ideen, also vielleicht ein TOP (Tool-Orchestration-Protocol) oder ein TEE (Tool Execution Environment). Aber einen MCP brauchen wir erstmal nicht.

2025 – das Jahr in dem die Chatbots laufen lernen

(Warum dieses Jahr den großen Sprung von „nur reden“ zu „wirklich handeln“ markiert)

Chatbot Evolution Timeline
1960s: ELIZA (Rudimentary NLP) 1980s–2000s Rule-based Chatbots (Scripts & IF/THEN) 2010s–2022s Deep Learning Chatbots (Transformers & NLP) Future Agentic Systems (Autonomous & Action)

Seit Jahrzehnten galten Chatbots als Systeme, die vor allem konversationell agieren. In den frühen Jahren – beginnend mit ELIZA in den 1960ern – waren sie oft eher Spielereien, die Nutzereingaben in vordefinierte, geskriptete Antworten verwandelten. Es folgten regelbasierte Systeme in den 1980ern und schließlich die durch Deep Learning getriebenen Chatbots, wie wir sie heute kennen. Doch 2025 markiert einen Wendepunkt: Chatbots sprechen nicht mehr nur mit uns – sie beginnen, tatsächlich Aufgaben zu übernehmen.


Mehr als nur Konversation

Bis vor Kurzem lag selbst bei den fortschrittlichsten Chatbots der Schwerpunkt darauf, Nutzeranfragen zu verstehen und passende Antworten zu liefern. Fragt man nach dem Wetter, bekommt man die aktuelle Vorhersage. Bittet man um ein Rezept, gibt es Schritt-für-Schritt-Anleitungen. Dank Deep Learning und Transformer-Architekturen wurde diese Interaktion immer natürlicher – letztlich aber waren sie nach wie vor in erster Linie „Antwortmaschinen“.

Nun erleben wir den nächsten Schritt: Statt sich nur auf Text-Dialoge zu beschränken, können Chatbots jetzt tatsächlich Handlungen ausführen. Statt Ihnen bloß das Wetter zu nennen, könnten sie Ihre vernetzte Heizung einschalten. Statt ein Rezept vorzuschlagen, könnten sie gleich die benötigten Zutaten bei einem Onlinehändler bestellen. Solche Systeme bezeichnet man als „agentische Chatbots“, weil sie die Autonomie haben, als Agent im Sinne des Nutzers zu handeln.


HybridAI und andere Handlungsorientierte Systeme

Eines der besten Beispiele für diesen Trend ist HybridAI. Es wurde so entwickelt, dass es mehr kann als bloße Gespräche führen: Während eines Chats ruft es gezielt API-Aktionen auf und kann sogar Elemente auf der Webseite verändern, wenn der Nutzer darum bittet. Wenn Sie zum Beispiel auf einer Shopping-Seite surfen und den Chatbot bitten, ein Produkt in den Warenkorb zu legen oder einen Rabattcode einzulösen, erledigt er das eigenständig. Das ist ein klarer Unterschied zu Chatbots, die lediglich Links verschicken oder Anweisungen geben.

Diese Fähigkeiten von HybridAI zeigen vor allem eines: Die Leute wollen Chatbots, die wirklich Probleme lösen, anstatt nur darüber zu reden. Wir befinden uns in der Phase, in der Chatbots alltägliche Aufgaben – von der Terminplanung bis zum komplexen Unternehmensworkflow – selbstständig übernehmen können, sobald der Nutzer sie darum bittet.


Warum reden alle über „agentische Systeme“?

Der Begriff „agentische Systeme“ ist derzeit in aller Munde. Fachleute, Technik-Enthusiasten und Unternehmensstrategen diskutieren darüber, wie KI-gestützte Assistenten bald weitreichende APIs, Services und sogar Hardware-Geräte steuern könnten – alles automatisch im Hintergrund. Doch obwohl diese Diskussionen spannend sind, wird es noch eine Weile dauern, bis diese Fähigkeiten ausgereift und alltagstauglich sind. Bevor Chatbots weitreichend autonom agieren können, müssen unter anderem Themen wie Zuverlässigkeit, Sicherheit und Ethik geklärt werden.

Dennoch kristallisiert sich 2025 als das Jahr des Chatbot-Handelns heraus. Erste agentische Systeme werden vermehrt auf den Markt kommen und in Pilotprojekten beweisen, dass sie echte Unterstützung bieten. Genau wie jede bahnbrechende Technologie wird sich auch dieser Wandel nicht von heute auf morgen vollziehen. Aber wir nähern uns rapide dem Punkt, an dem Chatbots nicht nur nützliche Informationen liefern, sondern auch ganz selbstverständlich Aufgaben im Namen des Nutzers übernehmen.


Weshalb das wichtig ist

Der Effekt von wirklich handlungsfähigen Chatbots ist immens. Unternehmen profitieren durch Effizienzsteigerungen und weniger monotone Arbeitsabläufe; Endnutzer genießen einen komfortableren Alltag. Letztlich zeigt sich hier ein Trend, der im gesamten KI-Bereich erkennbar ist: Menschen wünschen sich kooperative, proaktive und wirklich hilfreiche Systeme.

Während vollkommen autonome agentische Systeme noch ein Stück entfernt sein mögen, ist der Grundstein längst gelegt. Services wie HybridAI beweisen, was schon heute möglich ist – Chatbots, die Ihre Bedürfnisse lernen, sich in Ihre Apps integrieren und in Echtzeit für Sie handeln. Mit anderen Worten: Die Zukunft ist längst in der Gegenwart angekommen. Und wenn 2025 das „Jahr der Chatbot-Action“ einläutet, können wir nur erahnen, wie weitreichend diese Entwicklung bis zum Ende des Jahrzehnts voranschreiten wird.

Die Zeiten bleiben spannend.

7 Dinge, die ein Website-Chatbot in 2025 können sollte

In der Welt von 2025 ist ein Website-Chatbot nicht mehr nur ein nettes Extra, sondern ein entscheidendes Tool, um Kundenerlebnisse zu verbessern und Geschäftsprozesse effizienter zu gestalten. Aber was macht einen wirklich guten Chatbot aus? Hier sind sieben Dinge, die ein moderner Website-Chatbot in 2025 unbedingt beherrschen sollte:

1. Deeplinks zur Website ausgeben können

Ein Chatbot sollte in der Lage sein, die Website eigenständig zu crawlen und relevante Links zu extrahieren. So kann er auf spezifische Anfragen wie „Wo finde ich die Rückgaberichtlinien?“ oder „Zeig mir die neuesten Angebote“ direkt mit passenden Deeplinks antworten. Das spart dem Nutzer Zeit und macht die Navigation auf der Website wesentlich einfacher.

Diesen Deeplink hat der Bot aus den Inhalten der Website selbst generiert.

2. Function Calls zur Nutzung von Website-Funktionen

Moderne Chatbots müssen nahtlos mit den Funktionen der Website interagieren können. Zum Beispiel könnte der Nutzer den Bestellstatus eines Produkts abfragen oder eine Rückgabe einleiten – direkt im Chat. Dies wird durch sogenannte Function Calls ermöglicht, die es dem Chatbot erlauben, auf APIs und andere technische Schnittstellen der Website zuzugreifen.

3. Den Nutzer unaufgefordert in seiner Sprache ansprechen

Ein guter Chatbot erkennt automatisch die bevorzugte Sprache des Nutzers und passt sich entsprechend an. Egal, ob der Nutzer Deutsch, Englisch oder eine andere Sprache spricht – der Chatbot sollte die Konversation mühlos in der richtigen Sprache starten. Diese Funktion verbessert die Nutzererfahrung erheblich und macht den Chatbot global einsatzfähig.

Viele ChatBots erlauben es nicht, klickbare Links zu generieren – das ist aber wichtig für ein gutes Nutzer-Erlebnis.
Der ChatBot sollte anhand der im Browser eingestellten Sprache reagieren ohne dass der User seine bevorzugte Sprache einstellen muss.

4. Human-Takeover jederzeit ermöglichen

Auch der beste Chatbot stößt manchmal an seine Grenzen. In solchen Situationen ist es essenziell, dass der Nutzer die Möglichkeit hat, direkt mit einem menschlichen Mitarbeiter zu sprechen. Noch besser ist es, wenn der Chatbot den Übergang reibungslos gestaltet, indem er dem Mitarbeiter alle relevanten Informationen übermittelt. KI-gesteuerte Human-Takeover-Optionen können diesen Prozess zusätzlich optimieren.

Manchmal ist es besser, wenn ein Mensch sich einschaltet. Über ein Message-Panel kann der Website-Owner jederzeit erkennen, wenn eine Kommunkation emotional kritisch wird und sich einschalten.
Human-Takeover: der Human Agent wird über das System dazugeholt und fängt den Fall auf.

5. Auskünfte anhand hochgeladener Materialien geben

Ein wirklich vielseitiger Chatbot sollte in der Lage sein, hochgeladene Materialien wie Produkt-PDFs, Preislisten oder Präsentationen zu analysieren und daraus genaue Informationen abzuleiten. So kann er z. B. Fragen zu technischen Spezifikationen, Preisen oder anderen Details direkt beantworten. Diese Funktion ist besonders in komplexen B2B-Szenarien von großem Nutzen.

6. Multikanal-Verfügbarkeit

Die Kommunikation sollte dort stattfinden, wo der Nutzer sich wohlfühlt. Ein moderner Chatbot ist nicht nur auf der Website verfügbar, sondern auch auf Kanälen wie WhatsApp, Instagram oder Telegram – und das mit der gleichen Funktionalität. Diese Flexibilität sorgt dafür, dass der Nutzer den Chatbot auf seinem bevorzugten Kanal nutzen kann, ohne Abstriche bei der Leistung machen zu müssen.

Der gleiche ChatBot kann seine Kommunikation in einem anderen Tool wie z.B. Whatsapp fortführen

7. Konfiguration mit verschiedenen LLM-Modellen

Da sich KI-Modelle ständig weiterentwickeln, sollte ein Chatbot mit verschiedenen großen Sprachmodellen (Large Language Models, LLMs) konfiguriert werden können. Unternehmen können so von den Innovationssprüngen der KI-Hersteller profitieren oder bei Bedarf auf europäische KI-Modelle zurückgreifen, um Datenschutzanforderungen und regionale Vorschriften einzuhalten.

Auswahl verschiedener LLM-Modelle für den Chat

Fazit

Die Ansprüche an Chatbots sind in 2025 höher denn je. Von smarter Navigation über Deeplinks bis hin zur Multikanal-Funktionalität und der Nutzung modernster KI-Technologien – ein leistungsfähiger Chatbot bietet weit mehr als einfache Antworten auf Standardfragen. Unternehmen, die auf diese sieben Funktionen setzen, können sicherstellen, dass sie nicht nur die Erwartungen ihrer Nutzer erfüllen, sondern auch zukunftssicher aufgestellt sind.