Skip to content

Введение

Ongrid — это open-source, self-hostable AI-агент для эксплуатации. Поставьте лёгкий ongrid-edge агент на каждый хост; облако рассуждает над вашими метриками, логами, трейсами, топологией и исходным кодом, чтобы точно указать корневую причину — на простом языке.

Он построен для SRE, DevOps и platform-команд, у которых уже есть сигналы (Prometheus, Loki, Tempo, journald, k8s), но которые проводят день, сшивая их вручную.

Что он решает

  • Высокий порог troubleshooting. Опишите симптом («почему load скачет?», «кто теряет пакеты?»). Агент выясняет, какую метрику смотреть, какие логи grep'нуть, какой trace обойти, и запускает запрос за вас.
  • Алерты, отвязанные от корневой причины. На алерте агент идёт по топологии для blast radius, коррелирует логи и трейсы, и указывает пальцем на location в исходном коде, стоящий за «почему» — не просто симптом.
  • Разбросанные сигналы. Метрики (Prometheus), логи (Loki), трейсы (Tempo), векторная база знаний и ваши source-репозитории унифицированы и анализируются в одной сессии — без copy-paste между пятью вкладками.
  • Нет выставленного intranet. Каждый edge дозванивается исходящим по одному туннелю; ноль входящих портов на хосте. Плоскость данных телеметрии намеренно отделена от control plane (см. архитектуру).
  • Self-hostable. Один docker compose поднимает полный стек; направьте модель на любой OpenAI-совместимый эндпоинт. Bundle для air-gapped установки доступен — см. air-gapped установку.

Для кого

Если вы…Ongrid даёт вам…
SRE на дежурстве«Почему order-service начал сбоить в 14:02?» — ответ с запуском PromQL, запуском LogQL, trace-span'ом и file:line в репозитории, который это вызвал.
Platform-инженерЕдиная agent-поверхность поверх host + k8s + ваших собственных сервисов, со скиллами, которые вы можете расширять. Read-only по умолчанию; подписанные действия opt-in.
DevOps leadДвусторонние разговоры в Slack / Telegram / Larksuite / DingTalk / WeCom. Тот же agent-reasoning на каждом канале.
Security-conscious операторEdge → frontier → manager поверх исходящего geminio-туннеля. Плоскость данных телеметрии несёт Loki / OTLP push отдельно. Audit log на каждый tool-вызов.
Self-hosting / privacy командаВсё состояние на вашей собственной файловой системе. Принесите свою модель (OpenAI, Anthropic, GLM, DeepSeek, Gemini, Kimi, vLLM, OpenRouter…). Air-gapped поддерживается.

Чем отличается от…

…chat-dashboard

Chat-dashboard оборачивает LLM вокруг search-box. Ongrid — это graph-kernel ReAct-агент: coordinator декомпозирует ваш вопрос, вызывает 30+ host / observability / knowledge скиллов, порождает specialist sub-agent'ов (incident-investigator, sre, network, compute, disk, ops) и возвращает структурированный отчёт — не просто транскрипт.

text
Ask:  "Why did the order service start dropping requests at 14:02?"

Agent:
  1. expand_topology(order-service) → 3 upstream, 5 downstream services
  2. query_promql(rate(http_500[2m])) by service → spike in payments
  3. search_logs(payments, 14:00..14:05) → "circuit breaker open"
  4. query_traceql(payments.error_rate) → 412 errors from cardholder-api
  5. read_repo(payments/circuit_breaker.go) → 5xx threshold = 3 in 30s
  6. Conclusion: payments tripped circuit on cardholder-api 5xx burst.
     Source: payments/circuit_breaker.go:42. Fix: bump threshold or
     fix cardholder-api retry budget.

…notebook-агента

Notebook-агенты рассуждают внутри песочницы. Ongrid рассуждает внутри вашей инфраструктуры. Скиллы — это реальные инструменты — bash, host_probe_*, query_promql, expand_topology, search_logs, read_repo — привязанные к конкретным хостам через edge-туннель. Каждый tool-вызов audit-логируется и (для write-действий) гейтится за approval-workflow.

…hosted SaaS

Ongrid — это single-binary + docker-compose. Вы запускаете его на одном VPS, в вашем VPC или полностью air-gapped. Нет usage-телеметрии к вендору; нет per-host pricing; нет data egress. Лицензия — Apache 2.0.

Что внутри

  • Cloud manager — Go-сервис. MySQL-персистенция. Geminio service-end SDK к frontier-брокеру. Graph-kernel ReAct-рантайм (ONGRID_AGENT_KERNEL=graph). Примерно 10 bounded-context handler'ов.
  • Edge-агент (ongrid-edge) — единый статический Go-бинарь плюс sub-плагины (promtail для логов, otelcol-contrib для трейсов, node_exporter + process_exporter для метрик). Всё исходящее.
  • Web — React + Vite + TanStack Query SPA. Per-org / per-role gating. Встроенный Grafana embed для Monitor-панелей.
  • Observability — Prometheus, Loki, Tempo, Grafana, Qdrant отгружаются в compose. Свопайте любой из них на managed-сервисы из Settings.

Data plane vs. control plane

Это архитектурное обязательство, которое заставляет security-историю работать, поэтому мы говорим это дважды:

  • Control plane = туннель от edge к manager. Одно исходящее TCP-соединение на хост к frontier:40012. Мультиплексированный request/response поверх geminio. Никакого входящего порта на хосте.
  • Data plane = ingestion логов + трейсов. Loki push (/loki/api/v1/push) и OTLP push (/v1/traces) идут через nginx на публичном URL manager. Каждый запрос auth-gated через nginx auth_request → manager edgeauth, так что не-зачисленные хосты не могут пушить.

Метрики в настоящее время всё ещё едут в туннеле как RPC push_host_metrics; миграция на прямой remote_write — на roadmap. См. запись Telemetry data plane под Reference в сайдбаре.

Что покрывает этот сайт

  • Quickstart — 10-минутная установка на одной Linux-машине; вход; регистрация первого edge; видим метрики.
  • Архитектура — 4-слойная модель, поток edge → frontier → manager, карта контейнеров.
  • Концепции — edge, device, alert rule, incident, investigation, channel, persona, skill, knowledge.
  • Установка — полные пути установки: docker compose, edge curl-pipe, чек-лист первого запуска, апгрейд, air-gapped.
  • Каналы — Slack, Telegram, Larksuite, DingTalk, WeCom, сырой webhook.
  • Возможности — какие скиллы агент имеет из коробки (alerts, RCA, monitoring, logs, traces, topology, knowledge, WebShell).
  • Модели — provider-матрица; правила маршрутизации; budget cap (см. секцию Models в сайдбаре).
  • Справочник — каждая ONGRID_* env-переменная; REST эндпоинты; CLI; схема правила алерта; формат skill-манифеста.

Лицензия и исходники

Следующий шаг

Пройдите Quickstart — он занимает около 10 минут на свежей Linux-машине и доводит вас до реального edge, который check'ин'ится.