Skip to content

简介

Ongrid 是一个开源、可自托管的运维 AI Agent。在每台主机上部署一个轻量的 ongrid-edge,云端综合分析你的指标、日志、链路、拓扑和源码,用自然语言定位根因。

它面向已经接好信号源(Prometheus、Loki、Tempo、journald、k8s)、但每天还在手工拼接这些信号的 SRE、DevOps、平台团队。

它解决什么问题

  • 排障门槛高。 你只描述症状("负载为什么飙了?"、"谁在丢包?"),Agent 自己判断该看哪条指标、grep 哪份日志、追哪条链路,并替你跑查询。
  • 告警与根因脱节。 触发告警后,Agent 自动沿拓扑评估爆炸半径,关联日志和链路,定位到"为什么"背后的源码位置——不仅仅是症状。
  • 信号分散。 指标(Prometheus)、日志(Loki)、链路(Tempo)、向量知识库、你的源码仓库统一在一次会话里分析——不用在五个标签页之间复制粘贴。
  • 不暴露内网。 每个 edge 主动外联一条隧道;主机零入站端口。遥测数据面控制面有意分离(参见架构)。
  • 可自托管。 一条 docker compose 起整套栈;模型指向任意 OpenAI 兼容端点。提供离线安装包——参见离线安装

它面向谁

如果你是……Ongrid 给你……
值班 SRE"order-service 为什么 14:02 开始丢请求?"——回答里带跑过的 PromQL、跑过的 LogQL、链路 span,以及导致问题的仓库 file:line。
平台工程师一个横跨主机 + k8s + 自研服务的统一 Agent,技能可扩展。默认只读;写操作需签字开启。
DevOps 负责人在 Slack / Telegram / 飞书 / 钉钉 / 企业微信上双向对话。每个通道都跑同一个 Agent。
重视安全的运维edge → frontier → manager 走出站 geminio 隧道。遥测数据面单独走 Loki / OTLP push。每次工具调用都有审计日志。
自托管 / 隐私团队状态全部落在你自己的文件系统上。模型自带(OpenAI、Anthropic、GLM、DeepSeek、Gemini、Kimi、vLLM、OpenRouter……)。支持离线。

与以下东西的区别

……聊天面板

聊天面板就是给搜索框套了个 LLM。Ongrid 是一个graph-kernel ReAct agent:coordinator 拆解你的问题,调用 30+ 主机 / 可观测 / 知识技能,派生 specialist 子 Agent(incident-investigatorsrenetworkcomputediskops),返回一份结构化报告——不是一份对话记录。

text
Ask:  "Why did the order service start dropping requests at 14:02?"

Agent:
  1. expand_topology(order-service) → 3 upstream, 5 downstream services
  2. query_promql(rate(http_500[2m])) by service → spike in payments
  3. search_logs(payments, 14:00..14:05) → "circuit breaker open"
  4. query_traceql(payments.error_rate) → 412 errors from cardholder-api
  5. read_repo(payments/circuit_breaker.go) → 5xx threshold = 3 in 30s
  6. Conclusion: payments tripped circuit on cardholder-api 5xx burst.
     Source: payments/circuit_breaker.go:42. Fix: bump threshold or
     fix cardholder-api retry budget.

……notebook agent

Notebook agent 是在沙箱里做推理。Ongrid 是在你的基础设施里做推理。它的技能是实打实的工具——bashhost_probe_*query_promqlexpand_topologysearch_logsread_repo——通过 edge 隧道绑定到具体主机。每次工具调用都进审计日志,写动作还要走审批流。

……托管 SaaS

Ongrid 是单二进制 + docker-compose。你在一台 VPS、在你的 VPC、或者完全离线环境里跑都行。没有给厂商的使用量遥测;没有按主机计费;没有数据出网。许可证是 Apache 2.0。

里面有什么

  • 云端 manager —— Go 服务。MySQL 持久化。Geminio 服务端 SDK 连 frontier broker。Graph-kernel ReAct 运行时(ONGRID_AGENT_KERNEL=graph)。大约 10 个 bounded context handler。
  • Edge agent(ongrid-edge —— 单个静态 Go 二进制 + 子插件(promtail 跑日志,otelcol-contrib 跑链路,node_exporter + process_exporter 跑指标)。全部外联。
  • Web —— React + Vite + TanStack Query SPA。按组织 / 按角色门控。内置 Grafana 嵌入用于 Monitor 面板。
  • 可观测 —— Prometheus、Loki、Tempo、Grafana、Qdrant 都在 compose 里。任意一个都可以从 Settings 切到托管服务。

数据面 vs 控制面

这是让安全故事成立的架构承诺,所以我们要说两遍:

  • 控制面 = edge 到 manager 的隧道。每台主机一条到 frontier:40012 的出站 TCP 连接。在 geminio 上多路复用 request/response。主机零入站端口。
  • 数据面 = 日志 + 链路写入。Loki push(/loki/api/v1/push)和 OTLP push(/v1/traces)通过 manager 公网 URL 的 nginx 走。每个请求都走 nginx auth_request → manager edgeauth 鉴权,未注册主机推不了。

指标目前仍走隧道,是 push_host_metrics RPC;切到直连 remote_write 在 roadmap 上。参见 Reference 边栏下的 Telemetry data plane

本站涵盖什么

  • 快速开始 —— 单台 Linux 机 10 分钟安装;登录;注册第一个 edge;看指标。
  • 架构 —— 四层模型、edge → frontier → manager 链路、容器分布。
  • 概念 —— edge、device、alert rule、incident、investigation、channel、persona、skill、knowledge。
  • 安装 —— 完整安装路径:docker compose、edge curl-pipe、首次启动清单、升级、离线。
  • 通道 —— Slack、Telegram、飞书、钉钉、企业微信、裸 webhook。
  • 能力 —— Agent 开箱即用的技能(告警、RCA、监控、日志、链路、拓扑、知识库、WebShell)。
  • 模型 —— 厂商矩阵;路由规则;预算上限(参见边栏 Models 区)。
  • 参考 —— 所有 ONGRID_* 环境变量;REST 端点;CLI;告警规则 schema;技能 manifest 格式。

许可与源码

下一步

跑一遍快速开始——干净的 Linux 机大约 10 分钟,就能让一台真实的 edge 接上来。