Introdução

Ongrid é um agente de IA open-source e self-hostable para operações. Coloque um agent leve ongrid-edge em cada host; a nuvem raciocina sobre suas métricas, logs, traces, topologia, e código-fonte para pinpoint causa raiz — em linguagem natural.

É construído para times de SRE, DevOps, e plataforma que já têm sinais (Prometheus, Loki, Tempo, journald, k8s) mas passam o dia costurando-os à mão.

O que resolve

Barreira alta de troubleshooting. Descreva o sintoma ("por que o load está disparando?", "quem está dropando pacotes?"). O agent descobre qual métrica olhar, quais logs grepar, qual trace percorrer, e roda a query por você.
Alertas desconectados da causa raiz. Em um alerta o agent percorre a topologia por blast radius, correlaciona logs e traces, e fixa a localização no código-fonte atrás do "por quê" — não só o sintoma.
Sinais dispersos. Métricas (Prometheus), logs (Loki), traces (Tempo), uma base de conhecimento vetorial, e seus repos de código-fonte são unificados e analisados em uma única sessão — sem copy-paste entre cinco abas.
Sem intranet exposta. Cada edge disca outbound em um único tunnel; zero portas inbound no host. O data plane de telemetria é intencionalmente separado do control plane (veja arquitetura).
Self-hostable. Um único docker compose sobe a stack completa; aponte o modelo para qualquer endpoint compatível com OpenAI. Bundle de instalação air-gapped disponível — veja instalação air-gapped.

Para quem é

Se você é…	O Ongrid te dá…
SRE de plantão	"Por que o `order-service` começou a dropar às 14:02?" respondido com o PromQL rodado, o LogQL rodado, o span de trace, e o file:line no repo que causou.
Engenheiro de plataforma	Uma superfície única de agent atravessando host + k8s + seus próprios serviços, com skills que você pode estender. Read-only por padrão; ações assinadas opt-in.
Lead de DevOps	Conversas two-way no Slack / Telegram / Larksuite / DingTalk / WeCom. Mesmo reasoning de agent em cada canal.
Operador security-conscious	Edge → frontier → manager sobre um tunnel geminio outbound. Data plane de telemetria carrega push Loki / OTLP separadamente. Audit log em cada chamada de tool.
Time de self-hosting / privacidade	Todo estado no seu próprio filesystem. Traga seu próprio modelo (OpenAI, Anthropic, GLM, DeepSeek, Gemini, Kimi, vLLM, OpenRouter…). Air-gapped suportado.

Como difere de…

…um chat dashboard

Um chat dashboard envolve um LLM em torno de uma search box. O Ongrid é um agente ReAct de graph-kernel: o coordinator decompõe sua pergunta, chama 30+ skills de host / observabilidade / conhecimento, dá spawn em sub-agents specialist (incident-investigator, sre, network, compute, disk, ops), e retorna um report estruturado — não só um transcript.

text

Ask:  "Por que o order service começou a dropar requests às 14:02?"

Agent:
  1. expand_topology(order-service) → 3 upstream, 5 downstream services
  2. query_promql(rate(http_500[2m])) by service → spike em payments
  3. search_logs(payments, 14:00..14:05) → "circuit breaker open"
  4. query_traceql(payments.error_rate) → 412 erros de cardholder-api
  5. read_repo(payments/circuit_breaker.go) → threshold 5xx = 3 em 30s
  6. Conclusão: payments tripou o circuit no burst de 5xx do
     cardholder-api. Source: payments/circuit_breaker.go:42. Fix:
     subir o threshold ou consertar o budget de retry de cardholder-api.

…um notebook agent

Notebook agents raciocinam dentro de um sandbox. O Ongrid raciocina dentro da sua infraestrutura. As skills são tools reais — bash, host_probe_*, query_promql, expand_topology, search_logs, read_repo — vinculadas a hosts específicos pelo tunnel de edge. Cada chamada de tool é audit-logged e (para ações de write) gateada atrás de um workflow de aprovação.

…um SaaS hospedado

Ongrid é binário único + docker-compose. Você roda em uma VPS, na sua VPC, ou totalmente air-gapped. Não há telemetria de uso para um vendor; sem pricing por host; sem egress de dado. License é Apache 2.0.

O que está dentro

Cloud manager — serviço Go. Persistência MySQL. SDK service-end Geminio para o broker frontier. Runtime ReAct de graph-kernel (ONGRID_AGENT_KERNEL=graph). Cerca de 10 handlers de bounded-context.
Edge agent (ongrid-edge) — único binário Go estático mais sub-plugins (promtail para logs, otelcol-contrib para traces, node_exporter + process_exporter para métricas). Todos outbound.
Web — SPA React + Vite + TanStack Query. Gate por-org / por-role. Embed Grafana built-in para painéis Monitor.
Observabilidade — Prometheus, Loki, Tempo, Grafana, Qdrant vêm no compose. Troque qualquer um por managed services em Settings.

O data plane vs control plane

Esse é o compromisso arquitetural que faz a história de segurança funcionar, então dizemos duas vezes:

Control plane = o tunnel do edge ao manager. Uma conexão TCP outbound por host para frontier:40012. Request/response multiplexado sobre geminio. Sem porta inbound no host.
Data plane = ingestão de log + trace. Push Loki (/loki/api/v1/push) e push OTLP (/v1/traces) passam pelo nginx na URL pública do manager. Cada requisição é auth-gated por nginx auth_request → manager edgeauth para que hosts não-enrolled não possam fazer push.

Métricas atualmente ainda andam pelo tunnel como um RPC push_host_metrics; a migração para remote_write direto está no roadmap. Veja a entrada Telemetry data plane sob Reference na sidebar.

O que esse site cobre

Quickstart — instalação de 10-min em uma única caixa Linux; entre; registre seu primeiro edge; veja métricas.
Arquitetura — o modelo de 4 camadas, fluxo edge → frontier → manager, mapa de containers.
Conceitos — edge, device, alert rule, incident, investigação, canal, persona, skill, conhecimento.
Instalação — caminhos completos de instalação: docker compose, curl-pipe de edge, checklist de primeiro boot, upgrade, air-gapped.
Canais — Slack, Telegram, Larksuite, DingTalk, WeCom, webhook cru.
Capacidades — que skills o agent tem de fábrica (alertas, RCA, monitoramento, logs, traces, topologia, conhecimento, WebShell).
Modelos — matriz de provider; regras de roteamento; caps de budget (veja a seção Modelos na sidebar).
Reference — cada env var ONGRID_*; endpoints REST; CLI; schema de rule de alerta; formato de skill manifest.

License & source

Source: github.com/ongridio/ongrid
License: Apache 2.0
Latest release: GitHub Releases
Issues / PRs bem-vindos.

Próximo passo

Passe pelo Quickstart — leva cerca de 10 minutos em uma caixa Linux fresca e te leva a um edge real fazendo check-in.

Introdução ​

O que resolve ​

Para quem é ​

Como difere de… ​

…um chat dashboard ​

…um notebook agent ​

…um SaaS hospedado ​

O que está dentro ​

O data plane vs control plane ​

O que esse site cobre ​

License & source ​