Lokale Enterprise-KI Architektur in Österreich

Version 1 ist nicht mehr aktuell.

Die alte Cluster-Architektur bleibt nur als historische Referenz erhalten. Diese Version 2 ist die neue Arbeitsgrundlage fuer das Kundenprojekt.

Legacy-Ansicht

Autor und Kontext

Diese Architekturseite ist ein technischer Beleg für die Positionierung von Slavko Klincov, MSc als KI-Berater aus Wien für lokale KI, private LLMs, RAG-Systeme, Datensouveränität und sichere KI-Nutzung in Österreich.

Produktionspfad Version 2

Nodes sind bewegbar. Klick oder Tap zeigt die Beschreibung unterhalb der Karte. Tabs dimmen alles aus, was fuer die jeweilige Sicht nicht entscheidend ist.

Client

Nutzer / LokaleKI.app

Die Nutzer arbeiten ausschliesslich in der eigenen nativen LokaleKI.app. Keine Modellgewichte, keine Runtime-URLs und keine RAG-Service-Ports landen auf den Clients.

Kundenoberflaeche bleibt eigene App
Keine Open WebUI / AnythingLLM / Dify als User-Frontend
App spricht nur mit dem freigegebenen Gateway

Runtime Ollama Default, llama-server zweite Wahl, LM Studio Demo/Admin.

Parallelbetrieb Zwei Studios bedienen unabhaengige Requests statt ein Modell zu clustern.

RAG je Studio Qdrant, SQLite, Embeddings und Reranker liegen auf beiden Mac Studios, mit kontrolliertem Sync.

Tools Jede Aktion laeuft ueber Broker, Policy, Approval und Audit.

RAG ist kein separates Gerät

Qdrant, SQLite, Embeddings, Reranker und Quellenregister sind Teil des lokalen Studio-Stacks. Studio A kann initial Primary fuer Ingestion und Snapshots sein; Studio B bekommt denselben Stand per definiertem Sync, Snapshot oder Rebuild. So kann der Mac mini Requests auf beide Studios routen, ohne RAG als dritten Hardwareblock darzustellen.

Mac mini macht Steuerung

Auth, Session-State, Routing, RAG-Orchestrierung, Rechtefilter, Tool-Governance, Audit und Status. Keine Inferenz.

Mac Studios rechnen getrennt

Studio A und Studio B laufen als Kopien des Inference-Pfads. Last wird pro Request oder Session verteilt.

RAG ist eigene Datenebene

Qdrant plus SQLite ist auf beiden Studios vorhanden. Die Runtime bekommt nur freigegebenen Kontext.

Tools sind nicht Modellgewalt

FortiGate, Jira, Confluence, CMDB und Logs laufen ueber unseren Broker. Das Modell entscheidet nicht direkt ueber echte Systeme.

User Request Policy / Guardrail RAG / Daten Tool-Governance Runtime-Kandidat

Lokale Enterprise-KI Architektur in Österreich

LokaleKI.app

FortiGate / ZTNA

Mac mini

Validated RAG + Tool-Broker

Mac Studio A

Mac Studio B

Ollama / llama-server / LM Studio

Jira / Confluence / CMDB / Logs

Tool-Governance

RAG ist kein separates Gerät

Mac mini macht Steuerung

Mac Studios rechnen getrennt

RAG ist eigene Datenebene

Tools sind nicht Modellgewalt