Lokale Enterprise-KI Architektur in Österreich

Technischer Architekturbeleg von Slavko Klincov, MSc: Mac mini als Control Plane, zwei Mac Studio Standalone-Replicas mit lokalem RAG-Stack je Studio, private LLM-Runtime, Tool-Governance, Policy und Audit.

Kein Cluster Ollama Default 2x Standalone-Replica RAG auf beiden Studios
Version 1 ist nicht mehr aktuell.

Die alte Cluster-Architektur bleibt nur als historische Referenz erhalten. Diese Version 2 ist die neue Arbeitsgrundlage fuer das Kundenprojekt.

Legacy-Ansicht
Autor und Kontext

Diese Architekturseite ist ein technischer Beleg für die Positionierung von Slavko Klincov, MSc als KI-Berater aus Wien für lokale KI, private LLMs, RAG-Systeme, Datensouveränität und sichere KI-Nutzung in Österreich.

Version 1
Produktionspfad Version 2
Nodes sind bewegbar. Klick oder Tap zeigt die Beschreibung unterhalb der Karte. Tabs dimmen alles aus, was fuer die jeweilige Sicht nicht entscheidend ist.

RAG ist kein separates Gerät

Qdrant, SQLite, Embeddings, Reranker und Quellenregister sind Teil des lokalen Studio-Stacks. Studio A kann initial Primary fuer Ingestion und Snapshots sein; Studio B bekommt denselben Stand per definiertem Sync, Snapshot oder Rebuild. So kann der Mac mini Requests auf beide Studios routen, ohne RAG als dritten Hardwareblock darzustellen.

Mac mini macht Steuerung

Auth, Session-State, Routing, RAG-Orchestrierung, Rechtefilter, Tool-Governance, Audit und Status. Keine Inferenz.

Mac Studios rechnen getrennt

Studio A und Studio B laufen als Kopien des Inference-Pfads. Last wird pro Request oder Session verteilt.

RAG ist eigene Datenebene

Qdrant plus SQLite ist auf beiden Studios vorhanden. Die Runtime bekommt nur freigegebenen Kontext.

Tools sind nicht Modellgewalt

FortiGate, Jira, Confluence, CMDB und Logs laufen ueber unseren Broker. Das Modell entscheidet nicht direkt ueber echte Systeme.

User Request Policy / Guardrail RAG / Daten Tool-Governance Runtime-Kandidat