Zum Seiteninhalt springen

Lokale KI-Technologie im Einsatz

Lernen Sie die KI-Technologien kennen, mit denen wir lokale KI-Anwendungen für unsere Kund*innen entwickeln. Von der Laufzeitumgebung über Sprachmodelle bis zur Retrieval-Architektur: Hier zeigen wir, womit wir arbeiten und warum.

Unser KI-Technologie-Stack

Ollama

Als Laufzeitumgebung für unsere Sprachmodelle setzen wir auf Ollama, das sich im Bereich lokaler KI als De-facto-Standard für den schnellen und unkomplizierten Einstieg etabliert hat. Es ermöglicht, Open-Source-Modelle lokal zu betreiben, ohne dafür eine komplexe Infrastruktur aufzubauen. Modelle lassen sich jederzeit austauschen, wenn ein neueres besser zum Anwendungsfall passt – ohne Abhängigkeit zu einem bestimmten Anbieter.

Für Szenarien mit sehr hoher Last und tausenden gleichzeitiger Nutzer evaluieren wir aktuell vLLM als Alternative. In den meisten unserer Projekte – interne KI-Funktionen mit überschaubaren Lastprofilen – ist Ollama die richtige Wahl.

Sprachmodelle

Wir setzen aktuell auf Modelle von Qwen, Mistral (Ministral) und Google (Gemma). Je nach Aufgabe kommen unterschiedliche Modelltypen zum Einsatz: visuelle Modelle für die Verarbeitung von Dokumenten und Bildern, Embedding-Modelle für semantische Suche, Text-Modelle für Generierung und Analyse – in verschiedenen Größen, abgestimmt auf Leistungsbedarf und verfügbare Hardware.

Da sich der Markt für Open-Source-Modelle schnell weiterentwickelt, evaluieren wir laufend neue Modelle. Ein praktischer Vorteil lokaler KI-Lösungen: Das eingesetzte Modell lässt sich jederzeit tauschen, wenn ein besseres verfügbar ist – ohne Änderungen an der restlichen Anwendung.

Mood

Dokumentenverarbeitung

Für Projekte, in denen Dokumente automatisch verarbeitet werden müssen, ergänzen wir den Stack mit spezialisierten Tools. Tesseract OSD übernimmt die optische Zeichenerkennung für gescannte oder gedrehte PDFs. Sablon kommt zum Einsatz, wenn bestehende Word-Vorlagen automatisch befüllt werden sollen, ohne ihr Layout zu verändern.

Suche & Retrieval

Je nach Anforderung setzen wir auf unterschiedliche Retrieval-Ansätze. Für reine Vektorsuche nutzen wir pg_vector, eine PostgreSQL-Erweiterung, die semantische Ähnlichkeitssuche direkt in der Datenbank ermöglicht. Wenn zusätzlich klassische Volltextsuche gefragt ist, kombinieren wir beide Ansätze über OpenSearch. Als Embedding-Modell kommt mxbai-embed-large zum Einsatz, das ebenfalls lokal über Ollama betrieben wird.

Evaluierung und Qualitätssicherung

Wir testen in der Regel mehrere Modelle und verschiedene Prompt-Varianten gegeneinander, führen viele Testläufe mit realen Daten durch und optimieren iterativ nach. Für uns ist das ein kontinuierlicher Prozess, der sich durch die gesamte Entwicklung zieht und der entscheidend dafür ist, dass eine KI-Anwendung im Alltag zuverlässig funktioniert.

RAG: Das Architekturmuster

RAG ist das Architekturmuster, das wir in den meisten unserer Projekte einsetzen. Das Sprachmodell antwortet dabei nicht aus seinem trainierten Wissen heraus, sondern auf Basis von Dokumenten, die zur jeweiligen Anfrage aus einer Wissensdatenbank abgerufen werden. So lassen sich auch große, sich ändernde Dokumentenbestände erschließen, ohne ein Modell neu trainieren zu müssen. Unsere RAG-Implementierung haben wir selbst entwickelt, um sie passgenau auf die jeweiligen Anforderungen zuschneiden zu können.

In der Praxis haben wir RAG für interne Wissensplattformen eingesetzt, für die automatische Beantwortung von Support-Anfragen und für die Extraktion strukturierter Informationen aus Lieferantendokumenten.

Warum Open-Source-Modelle?

Unsere KI-Anwendungen basieren auf Open-Source-Sprachmodellen und laufen vollständig in der eigenen Infrastruktur – beim Kunden selbst oder auf dedizierten Servern in deutschen Rechenzentren. Aktuelle Open-Source-Modelle sind für die meisten Unternehmensanwendungen leistungsfähig genug. 

Daten verlassen die eigene Infrastruktur nicht, es entsteht keine Abhängigkeit von externen API-Anbietern, und die Kosten sind planbar. Wenn ein besseres Modell verfügbar ist, lässt es sich ohne Architekturwechsel einsetzen, ein Vorteil, der in einem Markt mit dieser Entwicklungsgeschwindigkeit erheblich ins Gewicht fällt.

Hosting-Optionen

On-Premises

Die Anwendung läuft vollständig in der eigenen Infrastruktur. Daten verlassen das Unternehmen nicht. Das ist die richtige Wahl für Unternehmen mit hohem Schutzbedarf – etwa bei sensiblen personenbezogenen Daten oder in IP-kritischen Bereichen. Wir unterstützen Sie gerne beim On-Premises-Setup.

Regionales Rechenzentrum

Die KI-Anwendung wird auf dedizierten Servern in einem deutschen Rechenzentrum betrieben. Das Hosting-Setup lässt sich individuell gestalten, die Daten bleiben in der Region. Diese Variante eignet sich für Unternehmen, die Cloud-Nutzung durch internationale Anbieter vermeiden möchten, aber keine eigene Serverinfrastruktur betreiben wollen. makandra bietet diese Art des Hostings an.

Microsoft Azure

Microsoft ermöglicht den Betrieb aktueller OpenAI-Modelle innerhalb von EU-Rechenzentren mit skalierbarer Infrastruktur und schnellem Projektstart ohne eigene Hardware-Investitionen. Diese Option passt gut zu Unternehmen, die bereits stark in der Microsoft-Welt integriert sind.

Aus der Praxis

Die häufigsten Use Cases unserer KI-Anwendungen drehen sich im Kern immer um die folgenden vier Schwerpunkte: Verstehen, Generieren, Analysieren, und Umformulieren. In unserer Broschüre lernen Sie unsere aktuellsten KI-Projekte aus unterschiedlichen Branchen kennen.

Luft- und Raumfahrt: Automatische Erkennung, Extraktion und Strukturierung relevanter Informationen aus Lieferanten-PDFs

Kommunikationsberatung: Eine Plattform generiert auf Basis fallbezogener Informationen erste Textentwürfe für Pressemitteilungen, interne Schreiben und Investor-Updates. 

Biotechnologie: Eine Wissensplattform wertet historische E-Mail-Anfragen aus und schlägt bei neuen Eingängen Antwortentwürfe auf Basis geprüfter Lösungen vor.

Sprechen Sie mit uns

Sie haben einen Anwendungsidee, und benötigen technische Unterstützung? Schildern Sie uns Ihr Projekt, und wir besprechen Ihre Optionen.