Skip to content

Introduction

Ongrid est un agent IA open-source et self-hostable pour les opérations. Mettez un agent léger ongrid-edge sur chaque host ; le cloud raisonne sur vos métriques, logs, traces, topologie et code source pour pointer la cause racine — en langage clair.

Il est construit pour les équipes SRE, DevOps et plateforme qui ont déjà des signaux (Prometheus, Loki, Tempo, journald, k8s) mais passent leur journée à les recoudre à la main.

Ce qu'il résout

  • Barre de troubleshooting haute. Décrivez le symptôme (« pourquoi la charge pique-t-elle ? », « qui drop des paquets ? »). L'agent trouve quelle métrique regarder, quels logs grep, quelle trace parcourir, et exécute la requête pour vous.
  • Alertes déconnectées de la cause racine. Sur une alerte, l'agent parcourt la topologie pour le blast radius, corrèle logs et traces, et épingle la localisation dans le code source derrière le « pourquoi » — pas juste le symptôme.
  • Signaux éparpillés. Métriques (Prometheus), logs (Loki), traces (Tempo), une base de connaissances vectorielle et vos repos sources sont unifiés et analysés dans une seule session — pas de copier-coller entre cinq onglets.
  • Pas d'intranet exposé. Chaque edge compose en sortant sur un tunnel ; zéro port entrant sur le host. Le plan de données de télémétrie est intentionnellement séparé du plan de contrôle (voir architecture).
  • Self-hostable. Un docker compose monte toute la stack ; pointez le modèle vers tout endpoint compatible OpenAI. Bundle d'install air-gappé disponible — voir install air-gappé.

À qui c'est destiné

Si vous êtes…Ongrid vous donne…
SRE de garde« Pourquoi order-service a commencé à drop à 14:02 ? » répondu avec le PromQL exécuté, le LogQL exécuté, le span de trace, et le file:line dans le repo qui l'a causé.
Ingénieur plateformeUne surface d'agent unique sur host + k8s + vos propres services, avec des skills que vous pouvez étendre. Lecture seule par défaut ; actions signées en opt-in.
Lead DevOpsConversations bidirectionnelles sur Slack / Telegram / Larksuite / DingTalk / WeCom. Même raisonnement d'agent sur chaque canal.
Opérateur soucieux de la sécuritéEdge → frontier → manager sur un tunnel geminio sortant. Le plan de données de télémétrie porte le push Loki / OTLP séparément. Log d'audit sur chaque appel d'outil.
Équipe self-hosting / privacyTout l'état sur votre propre filesystem. Apportez votre propre modèle (OpenAI, Anthropic, GLM, DeepSeek, Gemini, Kimi, vLLM, OpenRouter…). Air-gappé supporté.

Comment il diffère d'un…

…dashboard de chat

Un dashboard de chat enveloppe un LLM autour d'une barre de recherche. Ongrid est un agent ReAct graph-kernel : le coordinator décompose votre question, appelle 30+ skills host / observabilité / connaissances, spawne des sous-agents specialist (incident-investigator, sre, network, compute, disk, ops), et renvoie un rapport structuré — pas juste une transcription.

text
Ask:  "Why did the order service start dropping requests at 14:02?"

Agent:
  1. expand_topology(order-service) → 3 upstream, 5 downstream services
  2. query_promql(rate(http_500[2m])) by service → spike in payments
  3. search_logs(payments, 14:00..14:05) → "circuit breaker open"
  4. query_traceql(payments.error_rate) → 412 errors from cardholder-api
  5. read_repo(payments/circuit_breaker.go) → 5xx threshold = 3 in 30s
  6. Conclusion: payments tripped circuit on cardholder-api 5xx burst.
     Source: payments/circuit_breaker.go:42. Fix: bump threshold or
     fix cardholder-api retry budget.

…agent notebook

Les agents notebook raisonnent à l'intérieur d'un sandbox. Ongrid raisonne à l'intérieur de votre infrastructure. Les skills sont des outils réels — bash, host_probe_*, query_promql, expand_topology, search_logs, read_repo — liés à des hosts spécifiques via le tunnel edge. Chaque appel d'outil est audit-loggué et (pour les actions write) gaté derrière un workflow d'approbation.

…SaaS hosté

Ongrid est binaire-unique + docker-compose. Vous l'exécutez sur un VPS, dans votre VPC, ou entièrement air-gappé. Pas de télémétrie d'usage vers un vendor ; pas de pricing par host ; pas d'egress de données. Licence Apache 2.0.

Ce qui est dedans

  • Manager cloud — service Go. Persistance MySQL. SDK service-end Geminio vers le broker frontier. Runtime ReAct graph-kernel (ONGRID_AGENT_KERNEL=graph). Une dizaine de handlers de bounded context.
  • Agent edge (ongrid-edge) — binaire Go statique unique plus sous-plugins (promtail pour les logs, otelcol-contrib pour les traces, node_exporter + process_exporter pour les métriques). Tout sortant.
  • Web — SPA React + Vite + TanStack Query. Gating par org / par rôle. Embed Grafana intégré pour les panels Monitor.
  • Observabilité — Prometheus, Loki, Tempo, Grafana, Qdrant livrés dans le compose. Échangez n'importe lequel pour des services managés depuis Settings.

Le plan de données vs. le plan de contrôle

C'est l'engagement architectural qui fait que l'histoire de sécurité fonctionne, donc on le dit deux fois :

  • Plan de contrôle = le tunnel de l'edge au manager. Une connexion TCP sortante par host vers frontier:40012. Request/response multiplexé sur geminio. Pas de port entrant sur le host.
  • Plan de données = ingestion de logs + traces. Push Loki (/loki/api/v1/push) et push OTLP (/v1/traces) passent par nginx sur l'URL publique du manager. Chaque requête est auth-gatée par nginx auth_request → edgeauth manager pour que les hosts non enrôlés ne puissent pas pousser.

Les métriques chevauchent actuellement encore le tunnel comme RPC push_host_metrics ; la migration vers le remote_write direct est sur la roadmap. Voir l'entrée Plan de données de télémétrie sous Référence dans la sidebar.

Ce que ce site couvre

  • Démarrage rapide — install 10 min sur une seule box Linux ; se connecter ; enregistrer votre premier edge ; voir les métriques.
  • Architecture — le modèle à 4 couches, flux edge → frontier → manager, carte des conteneurs.
  • Concepts — edge, device, règle d'alerte, incident, investigation, canal, persona, skill, connaissances.
  • Installation — chemins d'install complets : docker compose, edge curl-pipe, check-list de premier démarrage, upgrade, air-gappé.
  • Canaux — Slack, Telegram, Larksuite, DingTalk, WeCom, webhook brut.
  • Capacités — quels skills l'agent a out of the box (alertes, RCA, monitoring, logs, traces, topologie, connaissances, WebShell).
  • Modèles — matrice de providers ; règles de routing ; plafonds de budget (voir la section Modèles dans la sidebar).
  • Référence — chaque variable d'env ONGRID_* ; endpoints REST ; CLI ; schéma de règle d'alerte ; format de manifeste de skill.

Licence & source

Prochaine étape

Parcourez le Démarrage rapide — il prend environ 10 minutes sur une box Linux fraîche et vous amène à un vrai edge qui check in.