Einführung

Ongrid ist ein quelloffener, selbst-gehosteter KI-Agent für den Betrieb. Sie installieren auf jedem Host einen schlanken ongrid-edge-Agenten; die Cloud analysiert Ihre Metriken, Logs, Traces, Topologie und Ihren Quellcode, um die Grundursache zu lokalisieren — in natürlicher Sprache.

Es ist für SRE-, DevOps- und Plattform-Teams konzipiert, die bereits Signale haben (Prometheus, Loki, Tempo, journald, k8s), aber den Tag damit verbringen, diese von Hand zusammenzusetzen.

Was es löst

Hohe Einstiegshürde beim Troubleshooting. Beschreiben Sie das Symptom („Warum schießt die Last hoch?", „Wer verliert Pakete?"). Der Agent ermittelt, welche Metrik zu betrachten ist, welche Logs zu greppen sind, welcher Trace zu verfolgen ist, und führt die Abfrage für Sie aus.
Alarme ohne Verbindung zur Grundursache. Bei einem Alarm durchläuft der Agent die Topologie zur Bestimmung des Wirkungsradius, korreliert Logs und Traces und identifiziert die Quellcode-Stelle hinter dem „Warum" — nicht nur das Symptom.
Verstreute Signale. Metriken (Prometheus), Logs (Loki), Traces (Tempo), eine Vektor-Wissensbasis und Ihre Quellcode-Repos werden in einer einzigen Sitzung vereinheitlicht und analysiert — kein Copy-Paste zwischen fünf Tabs.
Kein offengelegtes Intranet. Jede Edge wählt ausgehend über einen Tunnel; null eingehende Ports auf dem Host. Die Telemetrie-Datenebene ist absichtlich von der Steuerungsebene getrennt (siehe Architektur).
Selbst-hostbar. Ein docker compose startet den gesamten Stack; richten Sie das Modell auf einen beliebigen OpenAI-kompatiblen Endpunkt aus. Air-Gapped-Installationspaket verfügbar — siehe Air-Gapped-Installation.

Für wen es ist

Wenn Sie…	Ongrid liefert Ihnen…
SRE im Bereitschaftsdienst	„Warum fing `order-service` um 14:02 an, Anfragen zu verwerfen?" — beantwortet mit dem ausgeführten PromQL, dem ausgeführten LogQL, dem Trace-Span und der Datei:Zeile im Repo, die es verursacht hat.
Plattform-Engineer	Eine einzige Agent-Oberfläche über Host + k8s + eigene Dienste, mit erweiterbaren Skills. Standardmäßig schreibgeschützt; signierte Aktionen optional.
DevOps-Lead	Zweiseitige Konversationen auf Slack / Telegram / Larksuite / DingTalk / WeCom. Gleiche Agent-Logik auf jedem Kanal.
Sicherheitsbewusster Betreiber	Edge → Frontier → Manager über einen ausgehenden geminio-Tunnel. Die Telemetrie-Datenebene transportiert Loki / OTLP-Push getrennt. Audit-Log für jeden Tool-Aufruf.
Selbst-Hosting / Datenschutz-Team	Der gesamte Zustand auf Ihrem eigenen Dateisystem. Eigenes Modell mitbringen (OpenAI, Anthropic, GLM, DeepSeek, Gemini, Kimi, vLLM, OpenRouter…). Air-Gapped unterstützt.

Wie es sich unterscheidet von…

…einem Chat-Dashboard

Ein Chat-Dashboard legt ein LLM um eine Suchleiste. Ongrid ist ein Graph-Kernel-ReAct-Agent: Der coordinator zerlegt Ihre Frage, ruft mehr als 30 Host- / Observability- / Wissens-Skills auf, startet specialist Sub-Agenten (incident-investigator, sre, network, compute, disk, ops) und liefert einen strukturierten Bericht — nicht nur ein Transkript.

text

Ask:  "Why did the order service start dropping requests at 14:02?"

Agent:
  1. expand_topology(order-service) → 3 upstream, 5 downstream services
  2. query_promql(rate(http_500[2m])) by service → spike in payments
  3. search_logs(payments, 14:00..14:05) → "circuit breaker open"
  4. query_traceql(payments.error_rate) → 412 errors from cardholder-api
  5. read_repo(payments/circuit_breaker.go) → 5xx threshold = 3 in 30s
  6. Conclusion: payments tripped circuit on cardholder-api 5xx burst.
     Source: payments/circuit_breaker.go:42. Fix: bump threshold or
     fix cardholder-api retry budget.

…einem Notebook-Agenten

Notebook-Agenten denken innerhalb einer Sandbox. Ongrid denkt innerhalb Ihrer Infrastruktur. Die Skills sind echte Werkzeuge — bash, host_probe_*, query_promql, expand_topology, search_logs, read_repo — an bestimmte Hosts über den Edge-Tunnel gebunden. Jeder Tool-Aufruf wird im Audit-Log erfasst und (für Schreibaktionen) hinter einem Genehmigungs-Workflow geschützt.

…einem gehosteten SaaS

Ongrid besteht aus einem einzigen Binary + docker-compose. Sie betreiben es auf einer VPS, in Ihrer VPC oder vollständig air-gapped. Es gibt keine Nutzungstelemetrie an einen Anbieter; keine Preisgestaltung pro Host; keinen Datenabfluss. Die Lizenz ist Apache 2.0.

Was drin ist

Cloud-Manager — Go-Dienst. MySQL-Persistenz. Geminio Service-End-SDK zum Frontier-Broker. Graph-Kernel-ReAct-Laufzeit (ONGRID_AGENT_KERNEL=graph). Etwa 10 Bounded-Context-Handler.
Edge-Agent (ongrid-edge) — ein einzelnes statisches Go-Binary plus Sub-Plugins (promtail für Logs, otelcol-contrib für Traces, node_exporter + process_exporter für Metriken). Alles ausgehend.
Web — React + Vite + TanStack Query SPA. Pro-Org / pro-Rolle Gating. Eingebettetes Grafana für Monitor-Panels.
Observability — Prometheus, Loki, Tempo, Grafana, Qdrant werden im Compose mitgeliefert. Tauschen Sie jeden von ihnen gegen Managed Services aus den Einstellungen aus.

Die Datenebene vs. Steuerungsebene

Dies ist die architektonische Verpflichtung, die die Sicherheits-Story funktionieren lässt, deshalb wiederholen wir es:

Steuerungsebene = der Tunnel von Edge zu Manager. Eine ausgehende TCP-Verbindung pro Host zu frontier:40012. Multiplexte Request/Response über geminio. Kein eingehender Port auf dem Host.
Datenebene = Log- + Trace-Ingestion. Loki-Push (/loki/api/v1/push) und OTLP-Push (/v1/traces) gehen über nginx auf der öffentlichen URL des Managers. Jede Anfrage wird durch nginx auth_request → manager edgeauth auth-gated, sodass nicht registrierte Hosts nicht pushen können.

Metriken fahren derzeit noch im Tunnel als push_host_metrics-RPC; die Migration zu direktem remote_write steht auf der Roadmap. Siehe den Eintrag Telemetrie-Datenebene unter Reference in der Seitenleiste.

Was diese Seite abdeckt

Schnellstart — 10-Minuten-Installation auf einer einzelnen Linux-Maschine; Anmelden; erste Edge registrieren; Metriken sehen.
Architektur — das 4-Schichten-Modell, Edge → Frontier → Manager-Fluss, Container-Karte.
Konzepte — Edge, Device, Alarmregel, Incident, Investigation, Kanal, Persona, Skill, Wissen.
Installation — vollständige Installationspfade: docker compose, Edge curl-pipe, Erstinbetriebnahme-Checkliste, Upgrade, Air-Gapped.
Kanäle — Slack, Telegram, Larksuite, DingTalk, WeCom, Roh-Webhook.
Fähigkeiten — welche Skills der Agent von Haus aus mitbringt (Alarme, RCA, Monitoring, Logs, Traces, Topologie, Wissen, WebShell).
Modelle — Provider-Matrix; Routing-Regeln; Budget-Obergrenzen (siehe Abschnitt Modelle in der Seitenleiste).
Referenz — jede ONGRID_*-Umgebungsvariable; REST-Endpunkte; CLI; Alarmregel-Schema; Skill-Manifest-Format.

Lizenz & Quellcode

Quellcode: github.com/ongridio/ongrid
Lizenz: Apache 2.0
Aktuelles Release: GitHub Releases
Issues / PRs willkommen.

Nächster Schritt

Arbeiten Sie sich durch den Schnellstart — er dauert etwa 10 Minuten auf einer frischen Linux-Maschine und bringt Sie zu einer echten Edge, die sich anmeldet.

Einführung ​

Was es löst ​

Für wen es ist ​

Wie es sich unterscheidet von… ​

…einem Chat-Dashboard ​

…einem Notebook-Agenten ​

…einem gehosteten SaaS ​

Was drin ist ​

Die Datenebene vs. Steuerungsebene ​

Was diese Seite abdeckt ​

Lizenz & Quellcode ​