AKTE GEÖFFNET // Infrastruktur

Warum ein Server nicht reicht: Meine Dual-Pi-Architektur für Frontend und KI-Backend

Verfasst von

Resilience by Design

Warum ein Server nicht reicht: Meine Dual-Pi-Architektur für Frontend und KI-Backend

Wer KI-Anwendungen (wie meine Klartext-Engine) hostet, kennt das Problem der „Workload-Konkurrenz“. Ein WordPress-Server braucht schnelle Datenbankzugriffe und kurze Ladezeiten. Eine RAG-Engine hingegen braucht massiv RAM und CPU-Power. Lässt man beides auf derselben Maschine laufen, riskiert man den „Stau auf der Autobahn“.

„Während die KI denkt, wartet der Webseiten-Besucher auf das Menü. Das ist der Tod jeder User-Experience.“

Die Lösung: Separation of Concerns

Um dieses Dilemma zu lösen, setze ich auf physikalische Trennung. Mein Setup besteht aus zwei Raspberry Pi 5, die als spezialisierte Nodes agieren.

Node 1: The Face (Frontend)

Hardware: Raspberry Pi 5 (8GB)
Stack: Nginx, MariaDB, Caching
Ziel: Maximale TTFB-Performance

Node 2: The Brain (Backend)

Hardware: Raspberry Pi 5 (16GB)
Stack: FastAPI, ChromaDB, LLM-Bridge
Ziel: Rechenpower ohne Blockaden

Der Clou: Node 1 leitet API-Anfragen (/api/) via internem High-Speed-LAN direkt an Node 2 weiter. So bleibt das Frontend flüssig, während im Hintergrund die Vektordatenbank „glüht“.

Der Hardware-Stack (x2)

Keine Kompromisse bei der Geschwindigkeit: Beide Nodes sind identisch mit NVMe-SSDs ausgestattet, um SD-Karten-Flaschenhälse zu vermeiden.

1. Die Rechenkerne (16GB Power)

Besonders für den Backend-Node ist Arbeitsspeicher durch nichts zu ersetzen. Vektordaten im RAM halten das System responsiv. Node 1 nutzt die 8GB vor allem für riesige Caching-Reserven.

2. Der Speicher-Turbo: M.2 HAT+ & NVMe

Wir nutzen den PCIe-Port für NVMe-SSDs. Das macht Datenbank-Abfragen und Backups rasend schnell. Ein Unterschied wie Tag und Nacht im Vergleich zu herkömmlichen SD-Karten.

3. Aktives Thermomanagement

Da Node 2 bei KI-Anfragen unter Volllast läuft, ist aktive Kühlung Pflicht. Die originalen Active Cooler halten die Temperatur auch bei Dauerlast im optimalen Bereich.

>_ FAZIT: WARUM DER AUFWAND?

Natürlich könnte ein einzelner, dicker PC das auch leisten. Aber die Aufteilung auf zwei effiziente ARM-Rechner ist energieeffizienter und ausfallsicherer.

Wenn ich am KI-Code auf Node 2 bastle und ihn versehentlich abstürzen lasse, bleibt die Webseite auf Node 1 für euch trotzdem erreichbar. Das ist „Resilience by Design“ – im Kleinen konsequent umgesetzt.

Hardware Raspberry Pi 5 Server Setup

Warum ein Server nicht reicht: Meine Dual-Pi-Architektur für Frontend und KI-Backend

Warum ein Server nicht reicht: Meine Dual-Pi-Architektur für Frontend und KI-Backend

Die Lösung: Separation of Concerns

Node 1: The Face (Frontend)

Node 2: The Brain (Backend)

Der Hardware-Stack (x2)

>_ FAZIT: WARUM DER AUFWAND?

Kommentare

Schreibe einen Kommentar Antwort abbrechen

Weitere Beiträge

Die Vermessung des Geistes

Die Vermessung des Geistes 1

Shell Discarded

THE AGENCY: STAFFEL 3

Feedback

Titel laden...

Dahinter steckt (Implizite Annahme)

⚠️ Erkennungsmerkmale

⬇ Basiert auf diesen Mythen

📜 Historischer Kontext

🔍 Analyse & Kontext

💡 Kritische Reflexion

Ermittlungshilfe

Titel

Titel laden...

🔍 Der Mechanismus

🏠 Im Alltag

💼 Im Business

🎙️ Akustischer Fingerabdruck (So klingt es)

🛡️ Mental Shield (Gegenmaßnahme)