简介
Ongrid 是一个开源、可自托管的运维 AI Agent。在每台主机上部署一个轻量的 ongrid-edge,云端综合分析你的指标、日志、链路、拓扑和源码,用自然语言定位根因。
它面向已经接好信号源(Prometheus、Loki、Tempo、journald、k8s)、但每天还在手工拼接这些信号的 SRE、DevOps、平台团队。
它解决什么问题
- 排障门槛高。 你只描述症状("负载为什么飙了?"、"谁在丢包?"),Agent 自己判断该看哪条指标、grep 哪份日志、追哪条链路,并替你跑查询。
- 告警与根因脱节。 触发告警后,Agent 自动沿拓扑评估爆炸半径,关联日志和链路,定位到"为什么"背后的源码位置——不仅仅是症状。
- 信号分散。 指标(Prometheus)、日志(Loki)、链路(Tempo)、向量知识库、你的源码仓库统一在一次会话里分析——不用在五个标签页之间复制粘贴。
- 不暴露内网。 每个 edge 主动外联一条隧道;主机零入站端口。遥测数据面与控制面有意分离(参见架构)。
- 可自托管。 一条
docker compose起整套栈;模型指向任意 OpenAI 兼容端点。提供离线安装包——参见离线安装。
它面向谁
| 如果你是…… | Ongrid 给你…… |
|---|---|
| 值班 SRE | "order-service 为什么 14:02 开始丢请求?"——回答里带跑过的 PromQL、跑过的 LogQL、链路 span,以及导致问题的仓库 file:line。 |
| 平台工程师 | 一个横跨主机 + k8s + 自研服务的统一 Agent,技能可扩展。默认只读;写操作需签字开启。 |
| DevOps 负责人 | 在 Slack / Telegram / 飞书 / 钉钉 / 企业微信上双向对话。每个通道都跑同一个 Agent。 |
| 重视安全的运维 | edge → frontier → manager 走出站 geminio 隧道。遥测数据面单独走 Loki / OTLP push。每次工具调用都有审计日志。 |
| 自托管 / 隐私团队 | 状态全部落在你自己的文件系统上。模型自带(OpenAI、Anthropic、GLM、DeepSeek、Gemini、Kimi、vLLM、OpenRouter……)。支持离线。 |
与以下东西的区别
……聊天面板
聊天面板就是给搜索框套了个 LLM。Ongrid 是一个graph-kernel ReAct agent:coordinator 拆解你的问题,调用 30+ 主机 / 可观测 / 知识技能,派生 specialist 子 Agent(incident-investigator、sre、network、compute、disk、ops),返回一份结构化报告——不是一份对话记录。
Ask: "Why did the order service start dropping requests at 14:02?"
Agent:
1. expand_topology(order-service) → 3 upstream, 5 downstream services
2. query_promql(rate(http_500[2m])) by service → spike in payments
3. search_logs(payments, 14:00..14:05) → "circuit breaker open"
4. query_traceql(payments.error_rate) → 412 errors from cardholder-api
5. read_repo(payments/circuit_breaker.go) → 5xx threshold = 3 in 30s
6. Conclusion: payments tripped circuit on cardholder-api 5xx burst.
Source: payments/circuit_breaker.go:42. Fix: bump threshold or
fix cardholder-api retry budget.……notebook agent
Notebook agent 是在沙箱里做推理。Ongrid 是在你的基础设施里做推理。它的技能是实打实的工具——bash、host_probe_*、query_promql、expand_topology、search_logs、read_repo——通过 edge 隧道绑定到具体主机。每次工具调用都进审计日志,写动作还要走审批流。
……托管 SaaS
Ongrid 是单二进制 + docker-compose。你在一台 VPS、在你的 VPC、或者完全离线环境里跑都行。没有给厂商的使用量遥测;没有按主机计费;没有数据出网。许可证是 Apache 2.0。
里面有什么
- 云端 manager —— Go 服务。MySQL 持久化。Geminio 服务端 SDK 连 frontier broker。Graph-kernel ReAct 运行时(
ONGRID_AGENT_KERNEL=graph)。大约 10 个 bounded context handler。 - Edge agent(
ongrid-edge) —— 单个静态 Go 二进制 + 子插件(promtail跑日志,otelcol-contrib跑链路,node_exporter+process_exporter跑指标)。全部外联。 - Web —— React + Vite + TanStack Query SPA。按组织 / 按角色门控。内置 Grafana 嵌入用于 Monitor 面板。
- 可观测 —— Prometheus、Loki、Tempo、Grafana、Qdrant 都在 compose 里。任意一个都可以从 Settings 切到托管服务。
数据面 vs 控制面
这是让安全故事成立的架构承诺,所以我们要说两遍:
- 控制面 = edge 到 manager 的隧道。每台主机一条到
frontier:40012的出站 TCP 连接。在geminio上多路复用 request/response。主机零入站端口。 - 数据面 = 日志 + 链路写入。Loki push(
/loki/api/v1/push)和 OTLP push(/v1/traces)通过 manager 公网 URL 的nginx走。每个请求都走nginx auth_request → manager edgeauth鉴权,未注册主机推不了。
指标目前仍走隧道,是 push_host_metrics RPC;切到直连 remote_write 在 roadmap 上。参见 Reference 边栏下的 Telemetry data plane。
本站涵盖什么
- 快速开始 —— 单台 Linux 机 10 分钟安装;登录;注册第一个 edge;看指标。
- 架构 —— 四层模型、edge → frontier → manager 链路、容器分布。
- 概念 —— edge、device、alert rule、incident、investigation、channel、persona、skill、knowledge。
- 安装 —— 完整安装路径:docker compose、edge curl-pipe、首次启动清单、升级、离线。
- 通道 —— Slack、Telegram、飞书、钉钉、企业微信、裸 webhook。
- 能力 —— Agent 开箱即用的技能(告警、RCA、监控、日志、链路、拓扑、知识库、WebShell)。
- 模型 —— 厂商矩阵;路由规则;预算上限(参见边栏 Models 区)。
- 参考 —— 所有
ONGRID_*环境变量;REST 端点;CLI;告警规则 schema;技能 manifest 格式。
许可与源码
- 源码:github.com/ongridio/ongrid
- 许可证:Apache 2.0
- 最新版本:GitHub Releases
- 欢迎提 Issue / PR。
下一步
跑一遍快速开始——干净的 Linux 机大约 10 分钟,就能让一台真实的 edge 接上来。