AKTE GEÖFFNET // Infrastruktur

Warum ein Server nicht reicht: Meine Dual-Pi-Architektur für Frontend und KI-Backend

Resilience by Design

Warum ein Server nicht reicht: Meine Dual-Pi-Architektur für Frontend und KI-Backend

Wer KI-Anwendungen (wie meine Klartext-Engine) hostet, kennt das Problem der „Workload-Konkurrenz“. Ein WordPress-Server braucht schnelle Datenbankzugriffe und kurze Ladezeiten. Eine RAG-Engine hingegen braucht massiv RAM und CPU-Power. Lässt man beides auf derselben Maschine laufen, riskiert man den „Stau auf der Autobahn“.

„Während die KI denkt, wartet der Webseiten-Besucher auf das Menü. Das ist der Tod jeder User-Experience.“

Die Lösung: Separation of Concerns

Um dieses Dilemma zu lösen, setze ich auf physikalische Trennung. Mein Setup besteht aus zwei Raspberry Pi 5, die als spezialisierte Nodes agieren.

Node 1: The Face (Frontend)

  • Hardware: Raspberry Pi 5 (8GB)
  • Stack: Nginx, MariaDB, Caching
  • Ziel: Maximale TTFB-Performance

Node 2: The Brain (Backend)

  • Hardware: Raspberry Pi 5 (16GB)
  • Stack: FastAPI, ChromaDB, LLM-Bridge
  • Ziel: Rechenpower ohne Blockaden

Der Clou: Node 1 leitet API-Anfragen (/api/) via internem High-Speed-LAN direkt an Node 2 weiter. So bleibt das Frontend flüssig, während im Hintergrund die Vektordatenbank „glüht“.


Der Hardware-Stack (x2)

Keine Kompromisse bei der Geschwindigkeit: Beide Nodes sind identisch mit NVMe-SSDs ausgestattet, um SD-Karten-Flaschenhälse zu vermeiden.

1. Die Rechenkerne (16GB Power)

Besonders für den Backend-Node ist Arbeitsspeicher durch nichts zu ersetzen. Vektordaten im RAM halten das System responsiv. Node 1 nutzt die 8GB vor allem für riesige Caching-Reserven.

2. Der Speicher-Turbo: M.2 HAT+ & NVMe

Wir nutzen den PCIe-Port für NVMe-SSDs. Das macht Datenbank-Abfragen und Backups rasend schnell. Ein Unterschied wie Tag und Nacht im Vergleich zu herkömmlichen SD-Karten.

3. Aktives Thermomanagement

Da Node 2 bei KI-Anfragen unter Volllast läuft, ist aktive Kühlung Pflicht. Die originalen Active Cooler halten die Temperatur auch bei Dauerlast im optimalen Bereich.

>_ FAZIT: WARUM DER AUFWAND?

Natürlich könnte ein einzelner, dicker PC das auch leisten. Aber die Aufteilung auf zwei effiziente ARM-Rechner ist energieeffizienter und ausfallsicherer.

Wenn ich am KI-Code auf Node 2 bastle und ihn versehentlich abstürzen lasse, bleibt die Webseite auf Node 1 für euch trotzdem erreichbar. Das ist „Resilience by Design“ – im Kleinen konsequent umgesetzt.

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

KAT TYP

Titel laden...

Die Behauptung (Narrativ)

...

Dahinter steckt (Implizite Annahme)

⚠️ Erkennungsmerkmale

    📜 Historischer Kontext

    🔍 Analyse & Kontext

    💡 Kritische Reflexion

    Ermittlungshilfe

    Stimmt diese Analyse mit deiner Wahrnehmung überein? Hilf uns, die Daten zu schärfen.

    👤
    AGENCY UPLINK // V.3.0 [X]

    > Secure Connection established.

    > User: GUEST

    >
    ×
    DATABASE ENTRY ×
    🎧 0
    📂 Zur Mediathek
    ✕ Ausblenden
    Playlist ×
    System bereit...