Introducción

Ongrid es un agente de IA open source y autoalojable para operaciones. Coloca un agente ligero ongrid-edge en cada host; la nube razona sobre tus métricas, logs, trazas, topología y código fuente para localizar la causa raíz — en lenguaje natural.

Está pensado para equipos de SRE, DevOps y plataforma que ya tienen señales (Prometheus, Loki, Tempo, journald, k8s) pero pasan el día cosiéndolas a mano.

Qué resuelve

Alto umbral de troubleshooting. Describe el síntoma ("¿por qué sube la carga?", "¿quién está perdiendo paquetes?"). El agente averigua qué métrica mirar, qué logs filtrar, qué traza recorrer y ejecuta la consulta por ti.
Alertas desconectadas de la causa raíz. Ante una alerta, el agente recorre la topología para calcular el blast radius, correlaciona logs y trazas, y precisa la ubicación en el código fuente detrás del "por qué" — no solo el síntoma.
Señales dispersas. Métricas (Prometheus), logs (Loki), trazas (Tempo), una base de conocimiento vectorial y tus repos de código se unifican y se analizan en una sola sesión — sin copiar y pegar entre cinco pestañas.
Sin intranet expuesta. Cada edge marca hacia afuera sobre un único túnel; cero puertos entrantes en el host. El data plane de telemetría está intencionadamente separado del control plane (ver arquitectura).
Autoalojable. Un único docker compose levanta todo el stack; apunta el modelo a cualquier endpoint compatible con OpenAI. Bundle de instalación air-gapped disponible — ver instalación air-gapped.

Para quién es

Si eres…	Ongrid te da…
SRE de guardia	"¿Por qué `order-service` empezó a descartar a las 14:02?" respondido con la PromQL ejecutada, la LogQL ejecutada, el span de traza y el archivo:línea del repo que lo provocó.
Ingeniero de plataforma	Una superficie de agente única sobre host + k8s + tus propios servicios, con skills que puedes extender. Solo lectura por defecto; acciones firmadas opt-in.
Lead de DevOps	Conversaciones bidireccionales en Slack / Telegram / Larksuite / DingTalk / WeCom. El mismo agente razonando en cada canal.
Operador con foco en seguridad	Edge → frontier → manager sobre un túnel geminio saliente. El data plane de telemetría transporta Loki / OTLP push por separado. Audit log en cada llamada de herramienta.
Equipo de autoalojamiento / privacidad	Todo el estado en tu propio filesystem. Trae tu propio modelo (OpenAI, Anthropic, GLM, DeepSeek, Gemini, Kimi, vLLM, OpenRouter…). Air-gapped soportado.

En qué se diferencia de…

…un panel de chat

Un panel de chat envuelve un LLM alrededor de una caja de búsqueda. Ongrid es un agente ReAct con kernel de grafo: el coordinator descompone tu pregunta, llama a 30+ skills de host / observabilidad / conocimiento, lanza sub-agentes specialist (incident-investigator, sre, network, compute, disk, ops) y devuelve un informe estructurado — no solo una transcripción.

text

Ask:  "Why did the order service start dropping requests at 14:02?"

Agent:
  1. expand_topology(order-service) → 3 upstream, 5 downstream services
  2. query_promql(rate(http_500[2m])) by service → spike in payments
  3. search_logs(payments, 14:00..14:05) → "circuit breaker open"
  4. query_traceql(payments.error_rate) → 412 errors from cardholder-api
  5. read_repo(payments/circuit_breaker.go) → 5xx threshold = 3 in 30s
  6. Conclusion: payments tripped circuit on cardholder-api 5xx burst.
     Source: payments/circuit_breaker.go:42. Fix: bump threshold or
     fix cardholder-api retry budget.

…un agente de notebook

Los agentes de notebook razonan dentro de un sandbox. Ongrid razona dentro de tu infraestructura. Los skills son herramientas reales — bash, host_probe_*, query_promql, expand_topology, search_logs, read_repo — vinculadas a hosts concretos a través del túnel del edge. Cada llamada de herramienta queda en el audit log y (para acciones de escritura) pasa por un flujo de aprobación.

…un SaaS gestionado

Ongrid es binario único + docker-compose. Lo ejecutas en un VPS, en tu VPC o totalmente air-gapped. No hay telemetría de uso hacia un proveedor; sin precio por host; sin egreso de datos. La licencia es Apache 2.0.

Qué hay dentro

Cloud manager — Servicio Go. Persistencia en MySQL. SDK service-end de geminio hacia el broker frontier. Runtime ReAct con kernel de grafo (ONGRID_AGENT_KERNEL=graph). Aproximadamente 10 handlers de bounded-context.
Edge agent (ongrid-edge) — Binario Go estático único más sub-plugins (promtail para logs, otelcol-contrib para trazas, node_exporter + process_exporter para métricas). Todo saliente.
Web — SPA React + Vite + TanStack Query. Gating por organización y por rol. Embed integrado de Grafana para los paneles de Monitor.
Observabilidad — Prometheus, Loki, Tempo, Grafana, Qdrant vienen en el compose. Cambia cualquiera por servicios gestionados desde Settings.

Data plane vs. control plane

Este es el compromiso arquitectónico que hace funcionar la historia de seguridad, así que lo decimos dos veces:

Control plane = el túnel de edge a manager. Una conexión TCP saliente por host hacia frontier:40012. Request/response multiplexado sobre geminio. Sin puerto entrante en el host.
Data plane = ingestión de logs + trazas. Loki push (/loki/api/v1/push) y OTLP push (/v1/traces) pasan por nginx en la URL pública del manager. Cada request está gated por nginx auth_request → manager edgeauth para que los hosts no inscritos no puedan empujar.

Las métricas actualmente siguen viajando por el túnel como un RPC push_host_metrics; la migración a remote_write directo está en la roadmap. Ver la entrada Data plane de telemetría en Reference en la barra lateral.

Qué cubre este sitio

Quickstart — instalación en 10 min en una única caja Linux; inicia sesión; registra tu primer edge; ve métricas.
Arquitectura — el modelo de 4 capas, flujo edge → frontier → manager, mapa de contenedores.
Conceptos — edge, device, regla de alerta, incidente, investigación, canal, persona, skill, conocimiento.
Instalación — rutas completas de instalación: docker compose, edge curl-pipe, checklist de primer arranque, upgrade, air-gapped.
Canales — Slack, Telegram, Larksuite, DingTalk, WeCom, webhook crudo.
Capacidades — qué skills tiene el agente de fábrica (alertas, RCA, monitoring, logs, trazas, topología, conocimiento, WebShell).
Modelos — matriz de proveedores; reglas de routing; topes de presupuesto (ver la sección Modelos en la barra lateral).
Reference — cada variable de entorno ONGRID_*; endpoints REST; CLI; esquema de reglas de alerta; formato del manifiesto de skill.

Licencia y código

Código: github.com/ongridio/ongrid
Licencia: Apache 2.0
Última release: GitHub Releases
Issues / PRs son bienvenidos.

Siguiente paso

Recorre el Quickstart — toma unos 10 minutos en una caja Linux nueva y te lleva hasta tener un edge real reportando.

Introducción ​

Qué resuelve ​

Para quién es ​

En qué se diferencia de… ​

…un panel de chat ​

…un agente de notebook ​

…un SaaS gestionado ​

Qué hay dentro ​

Data plane vs. control plane ​

Qué cubre este sitio ​

Licencia y código ​