Введение
Ongrid — это open-source, self-hostable AI-агент для эксплуатации. Поставьте лёгкий ongrid-edge агент на каждый хост; облако рассуждает над вашими метриками, логами, трейсами, топологией и исходным кодом, чтобы точно указать корневую причину — на простом языке.
Он построен для SRE, DevOps и platform-команд, у которых уже есть сигналы (Prometheus, Loki, Tempo, journald, k8s), но которые проводят день, сшивая их вручную.
Что он решает
- Высокий порог troubleshooting. Опишите симптом («почему load скачет?», «кто теряет пакеты?»). Агент выясняет, какую метрику смотреть, какие логи grep'нуть, какой trace обойти, и запускает запрос за вас.
- Алерты, отвязанные от корневой причины. На алерте агент идёт по топологии для blast radius, коррелирует логи и трейсы, и указывает пальцем на location в исходном коде, стоящий за «почему» — не просто симптом.
- Разбросанные сигналы. Метрики (Prometheus), логи (Loki), трейсы (Tempo), векторная база знаний и ваши source-репозитории унифицированы и анализируются в одной сессии — без copy-paste между пятью вкладками.
- Нет выставленного intranet. Каждый edge дозванивается исходящим по одному туннелю; ноль входящих портов на хосте. Плоскость данных телеметрии намеренно отделена от control plane (см. архитектуру).
- Self-hostable. Один
docker composeподнимает полный стек; направьте модель на любой OpenAI-совместимый эндпоинт. Bundle для air-gapped установки доступен — см. air-gapped установку.
Для кого
| Если вы… | Ongrid даёт вам… |
|---|---|
| SRE на дежурстве | «Почему order-service начал сбоить в 14:02?» — ответ с запуском PromQL, запуском LogQL, trace-span'ом и file:line в репозитории, который это вызвал. |
| Platform-инженер | Единая agent-поверхность поверх host + k8s + ваших собственных сервисов, со скиллами, которые вы можете расширять. Read-only по умолчанию; подписанные действия opt-in. |
| DevOps lead | Двусторонние разговоры в Slack / Telegram / Larksuite / DingTalk / WeCom. Тот же agent-reasoning на каждом канале. |
| Security-conscious оператор | Edge → frontier → manager поверх исходящего geminio-туннеля. Плоскость данных телеметрии несёт Loki / OTLP push отдельно. Audit log на каждый tool-вызов. |
| Self-hosting / privacy команда | Всё состояние на вашей собственной файловой системе. Принесите свою модель (OpenAI, Anthropic, GLM, DeepSeek, Gemini, Kimi, vLLM, OpenRouter…). Air-gapped поддерживается. |
Чем отличается от…
…chat-dashboard
Chat-dashboard оборачивает LLM вокруг search-box. Ongrid — это graph-kernel ReAct-агент: coordinator декомпозирует ваш вопрос, вызывает 30+ host / observability / knowledge скиллов, порождает specialist sub-agent'ов (incident-investigator, sre, network, compute, disk, ops) и возвращает структурированный отчёт — не просто транскрипт.
Ask: "Why did the order service start dropping requests at 14:02?"
Agent:
1. expand_topology(order-service) → 3 upstream, 5 downstream services
2. query_promql(rate(http_500[2m])) by service → spike in payments
3. search_logs(payments, 14:00..14:05) → "circuit breaker open"
4. query_traceql(payments.error_rate) → 412 errors from cardholder-api
5. read_repo(payments/circuit_breaker.go) → 5xx threshold = 3 in 30s
6. Conclusion: payments tripped circuit on cardholder-api 5xx burst.
Source: payments/circuit_breaker.go:42. Fix: bump threshold or
fix cardholder-api retry budget.…notebook-агента
Notebook-агенты рассуждают внутри песочницы. Ongrid рассуждает внутри вашей инфраструктуры. Скиллы — это реальные инструменты — bash, host_probe_*, query_promql, expand_topology, search_logs, read_repo — привязанные к конкретным хостам через edge-туннель. Каждый tool-вызов audit-логируется и (для write-действий) гейтится за approval-workflow.
…hosted SaaS
Ongrid — это single-binary + docker-compose. Вы запускаете его на одном VPS, в вашем VPC или полностью air-gapped. Нет usage-телеметрии к вендору; нет per-host pricing; нет data egress. Лицензия — Apache 2.0.
Что внутри
- Cloud manager — Go-сервис. MySQL-персистенция. Geminio service-end SDK к frontier-брокеру. Graph-kernel ReAct-рантайм (
ONGRID_AGENT_KERNEL=graph). Примерно 10 bounded-context handler'ов. - Edge-агент (
ongrid-edge) — единый статический Go-бинарь плюс sub-плагины (promtailдля логов,otelcol-contribдля трейсов,node_exporter+process_exporterдля метрик). Всё исходящее. - Web — React + Vite + TanStack Query SPA. Per-org / per-role gating. Встроенный Grafana embed для Monitor-панелей.
- Observability — Prometheus, Loki, Tempo, Grafana, Qdrant отгружаются в compose. Свопайте любой из них на managed-сервисы из Settings.
Data plane vs. control plane
Это архитектурное обязательство, которое заставляет security-историю работать, поэтому мы говорим это дважды:
- Control plane = туннель от edge к manager. Одно исходящее TCP-соединение на хост к
frontier:40012. Мультиплексированный request/response поверхgeminio. Никакого входящего порта на хосте. - Data plane = ingestion логов + трейсов. Loki push (
/loki/api/v1/push) и OTLP push (/v1/traces) идут черезnginxна публичном URL manager. Каждый запрос auth-gated черезnginx auth_request → manager edgeauth, так что не-зачисленные хосты не могут пушить.
Метрики в настоящее время всё ещё едут в туннеле как RPC push_host_metrics; миграция на прямой remote_write — на roadmap. См. запись Telemetry data plane под Reference в сайдбаре.
Что покрывает этот сайт
- Quickstart — 10-минутная установка на одной Linux-машине; вход; регистрация первого edge; видим метрики.
- Архитектура — 4-слойная модель, поток edge → frontier → manager, карта контейнеров.
- Концепции — edge, device, alert rule, incident, investigation, channel, persona, skill, knowledge.
- Установка — полные пути установки: docker compose, edge curl-pipe, чек-лист первого запуска, апгрейд, air-gapped.
- Каналы — Slack, Telegram, Larksuite, DingTalk, WeCom, сырой webhook.
- Возможности — какие скиллы агент имеет из коробки (alerts, RCA, monitoring, logs, traces, topology, knowledge, WebShell).
- Модели — provider-матрица; правила маршрутизации; budget cap (см. секцию Models в сайдбаре).
- Справочник — каждая
ONGRID_*env-переменная; REST эндпоинты; CLI; схема правила алерта; формат skill-манифеста.
Лицензия и исходники
- Исходники: github.com/ongridio/ongrid
- Лицензия: Apache 2.0
- Последний релиз: GitHub Releases
- Issues / PR приветствуются.
Следующий шаг
Пройдите Quickstart — он занимает около 10 минут на свежей Linux-машине и доводит вас до реального edge, который check'ин'ится.