TECHNOLOGIE

Private Edge,
Central Intelligence

Eine Architektur, die Latenzanforderungen von Echtzeit-Sprache mit strengen Datensicherheitsanforderungen vereint.

Drei-Zonen-Architektur

Physisch getrennte Zonen für maximale Sicherheit

A

Trusted Customer Network

Edge

Arbeitsplätze, Telefonie-Infrastruktur, Sinerva Gateway. Einziger Punkt mit Internet-Kontakt.

B

Secure Transport Layer

Tunnel

Verschlüsselter WireGuard-VPN. Outbound-only, keine offenen Ports zum Internet.

C

Sinerva Intelligence Cluster

Core

Private Server-Umgebung (ISO-zertifiziertes RZ). STT, LLM-Inference, RAG.

Datenfluss-Analyse

Vom Mikrofon bis zur Antwort in <1.5 Sekunden

1

Audio Capture

AudioWorklet API

Browser greift Mikrofon-Stream ab, komprimiert in Opus-Pakete

2

Ingestion

WebSocket + WireGuard

Stream via WebSocket an Gateway, Session-ID, durch VPN-Tunnel

3

VAD

Silero VAD

Voice Activity Detection prüft auf Sprachanteile, Stille wird verworfen

4

STT

Faster-Whisper (CTranslate2)

Sprache wird in Text umgewandelt (RTF < 0.5)

5

Anonymisierung

Pre-Processing

Regex-Layer ersetzt sensible Muster durch Platzhalter

6

RAG

Qdrant + Embeddings

Vektorsuche im Knowledge Pack nach relevantem Kontext

7

Inference

Llama-3-70B (vLLM)

LLM generiert Antwort basierend auf Prompt + Kontext

8

Response

WebSocket

JSON-Objekt wird an Frontend zurückgesendet

Sicherheitskonzept

Zero Trust & strikte Isolation

🔐

Zero Trust Architecture

Keine impliziten Vertrauensbeziehungen. Jede Anfrage wird authentifiziert und autorisiert.

🚫

Keine Inbound-Ports

Das Gateway öffnet keine Ports nach außen. Angriffe über das Sinerva-Gerät sind von außen faktisch ausgeschlossen.

💨

Ephemeral Memory

Audiodaten werden ausschließlich im RAM verarbeitet. Nach Transkription sofort überschrieben. Keine Speicherung auf Festplatte.

🏢

Mandantentrennung

Separate Collections in Qdrant, isolierte LoRA-Adapter. Kein firmenübergreifendes Retrieval möglich.

Hardware-Spezifikationen

Bewusster Verzicht auf Hyperscaler für Kostenkontrolle und Datenschutz

🧠

Inference Node V1

The Core

GPU
2x NVIDIA RTX 3090/4090 (48 GB VRAM)

Llama-3-70B in 4-bit Quantisierung

CPU
AMD Ryzen 9 7950X

High Single-Core Performance

RAM
128 GB DDR5

Cache für Vektordatenbank

Storage
2 TB NVMe SSD

PCIe 4.0/5.0

Kapazität

30-50 gleichzeitige Sessions, ~100-150 Named Users

~9.500 EUR (Abschreibung 36 Monate)

🔐

Sinerva Gateway

The Edge

Plattform
Raspberry Pi 5 (8 GB)

Industrial Grade

Kühlung
Aktiver Kühler

Pflicht für Dauerbetrieb

Storage
Industrial MicroSD (SLC/pSLC)

Optional: M.2 NVMe

Gehäuse
Aluminium mit Manipulationsschutz

Passive Wärmeableitung

~220 EUR (refinanziert durch Setup-Fee)

Software-Stack

Microservices-Pattern für unabhängige Skalierung

A

Audio-Streaming & VAD

"The Ear"

Python 3.11+, FastAPI

  • WebSocket Endpoint
  • Jitter Buffer (50-200ms)
  • Silero VAD
  • Faster-Whisper
B

Inference Engine & RAG

"The Brain"

Python, Docker, vLLM

  • PagedAttention
  • Llama-3-70B (AWQ 4-bit)
  • Qdrant Vektordatenbank
  • Hybride Suche
C

Orchestrator & Backend

"The Bridge"

Node.js, Express, MongoDB

  • Session Management
  • State Management
  • Routing
  • Logging
D

Frontend & UX

"The Face"

React, Tailwind CSS

  • AudioWorklet
  • Live-Transcript
  • Dynamic Cards
  • Slot-Filling
E

Gateway OS

Fleet Management

DietPi, Ansible/Balena

  • Read-Only Root FS
  • Auto-Connect VPN
  • Remote Updates
  • A/B Partitioning

Technische Fragen?

Unser Engineering-Team zeigt Ihnen gerne die Architektur im Detail.

Technisches Gespräch anfragen