Introdução
Ongrid é um agente de IA open-source e self-hostable para operações. Coloque um agent leve ongrid-edge em cada host; a nuvem raciocina sobre suas métricas, logs, traces, topologia, e código-fonte para pinpoint causa raiz — em linguagem natural.
É construído para times de SRE, DevOps, e plataforma que já têm sinais (Prometheus, Loki, Tempo, journald, k8s) mas passam o dia costurando-os à mão.
O que resolve
- Barreira alta de troubleshooting. Descreva o sintoma ("por que o load está disparando?", "quem está dropando pacotes?"). O agent descobre qual métrica olhar, quais logs grepar, qual trace percorrer, e roda a query por você.
- Alertas desconectados da causa raiz. Em um alerta o agent percorre a topologia por blast radius, correlaciona logs e traces, e fixa a localização no código-fonte atrás do "por quê" — não só o sintoma.
- Sinais dispersos. Métricas (Prometheus), logs (Loki), traces (Tempo), uma base de conhecimento vetorial, e seus repos de código-fonte são unificados e analisados em uma única sessão — sem copy-paste entre cinco abas.
- Sem intranet exposta. Cada edge disca outbound em um único tunnel; zero portas inbound no host. O data plane de telemetria é intencionalmente separado do control plane (veja arquitetura).
- Self-hostable. Um único
docker composesobe a stack completa; aponte o modelo para qualquer endpoint compatível com OpenAI. Bundle de instalação air-gapped disponível — veja instalação air-gapped.
Para quem é
| Se você é… | O Ongrid te dá… |
|---|---|
| SRE de plantão | "Por que o order-service começou a dropar às 14:02?" respondido com o PromQL rodado, o LogQL rodado, o span de trace, e o file:line no repo que causou. |
| Engenheiro de plataforma | Uma superfície única de agent atravessando host + k8s + seus próprios serviços, com skills que você pode estender. Read-only por padrão; ações assinadas opt-in. |
| Lead de DevOps | Conversas two-way no Slack / Telegram / Larksuite / DingTalk / WeCom. Mesmo reasoning de agent em cada canal. |
| Operador security-conscious | Edge → frontier → manager sobre um tunnel geminio outbound. Data plane de telemetria carrega push Loki / OTLP separadamente. Audit log em cada chamada de tool. |
| Time de self-hosting / privacidade | Todo estado no seu próprio filesystem. Traga seu próprio modelo (OpenAI, Anthropic, GLM, DeepSeek, Gemini, Kimi, vLLM, OpenRouter…). Air-gapped suportado. |
Como difere de…
…um chat dashboard
Um chat dashboard envolve um LLM em torno de uma search box. O Ongrid é um agente ReAct de graph-kernel: o coordinator decompõe sua pergunta, chama 30+ skills de host / observabilidade / conhecimento, dá spawn em sub-agents specialist (incident-investigator, sre, network, compute, disk, ops), e retorna um report estruturado — não só um transcript.
Ask: "Por que o order service começou a dropar requests às 14:02?"
Agent:
1. expand_topology(order-service) → 3 upstream, 5 downstream services
2. query_promql(rate(http_500[2m])) by service → spike em payments
3. search_logs(payments, 14:00..14:05) → "circuit breaker open"
4. query_traceql(payments.error_rate) → 412 erros de cardholder-api
5. read_repo(payments/circuit_breaker.go) → threshold 5xx = 3 em 30s
6. Conclusão: payments tripou o circuit no burst de 5xx do
cardholder-api. Source: payments/circuit_breaker.go:42. Fix:
subir o threshold ou consertar o budget de retry de cardholder-api.…um notebook agent
Notebook agents raciocinam dentro de um sandbox. O Ongrid raciocina dentro da sua infraestrutura. As skills são tools reais — bash, host_probe_*, query_promql, expand_topology, search_logs, read_repo — vinculadas a hosts específicos pelo tunnel de edge. Cada chamada de tool é audit-logged e (para ações de write) gateada atrás de um workflow de aprovação.
…um SaaS hospedado
Ongrid é binário único + docker-compose. Você roda em uma VPS, na sua VPC, ou totalmente air-gapped. Não há telemetria de uso para um vendor; sem pricing por host; sem egress de dado. License é Apache 2.0.
O que está dentro
- Cloud manager — serviço Go. Persistência MySQL. SDK service-end Geminio para o broker frontier. Runtime ReAct de graph-kernel (
ONGRID_AGENT_KERNEL=graph). Cerca de 10 handlers de bounded-context. - Edge agent (
ongrid-edge) — único binário Go estático mais sub-plugins (promtailpara logs,otelcol-contribpara traces,node_exporter+process_exporterpara métricas). Todos outbound. - Web — SPA React + Vite + TanStack Query. Gate por-org / por-role. Embed Grafana built-in para painéis Monitor.
- Observabilidade — Prometheus, Loki, Tempo, Grafana, Qdrant vêm no compose. Troque qualquer um por managed services em Settings.
O data plane vs control plane
Esse é o compromisso arquitetural que faz a história de segurança funcionar, então dizemos duas vezes:
- Control plane = o tunnel do edge ao manager. Uma conexão TCP outbound por host para
frontier:40012. Request/response multiplexado sobregeminio. Sem porta inbound no host. - Data plane = ingestão de log + trace. Push Loki (
/loki/api/v1/push) e push OTLP (/v1/traces) passam pelonginxna URL pública do manager. Cada requisição é auth-gated pornginx auth_request → manager edgeauthpara que hosts não-enrolled não possam fazer push.
Métricas atualmente ainda andam pelo tunnel como um RPC push_host_metrics; a migração para remote_write direto está no roadmap. Veja a entrada Telemetry data plane sob Reference na sidebar.
O que esse site cobre
- Quickstart — instalação de 10-min em uma única caixa Linux; entre; registre seu primeiro edge; veja métricas.
- Arquitetura — o modelo de 4 camadas, fluxo edge → frontier → manager, mapa de containers.
- Conceitos — edge, device, alert rule, incident, investigação, canal, persona, skill, conhecimento.
- Instalação — caminhos completos de instalação: docker compose, curl-pipe de edge, checklist de primeiro boot, upgrade, air-gapped.
- Canais — Slack, Telegram, Larksuite, DingTalk, WeCom, webhook cru.
- Capacidades — que skills o agent tem de fábrica (alertas, RCA, monitoramento, logs, traces, topologia, conhecimento, WebShell).
- Modelos — matriz de provider; regras de roteamento; caps de budget (veja a seção Modelos na sidebar).
- Reference — cada env var
ONGRID_*; endpoints REST; CLI; schema de rule de alerta; formato de skill manifest.
License & source
- Source: github.com/ongridio/ongrid
- License: Apache 2.0
- Latest release: GitHub Releases
- Issues / PRs bem-vindos.
Próximo passo
Passe pelo Quickstart — leva cerca de 10 minutos em uma caixa Linux fresca e te leva a um edge real fazendo check-in.