术语表
文档和源码中使用的项目专属词。某个词有更长篇幅时,会链接到专属页。
A
Agent
在 Ongrid 里,agent 是一个配置好的 LLM worker,有特定任务(coordinator、 incident investigator、network specialist 等)。每个 agent 有一个 persona 描述跑什么 model、能调什么工具、有几轮 ReAct。跟 "edge agent" 不同 —— 见 Edge。
Agent kernel
驱动 agent ReAct 循环的运行时:prompt 装配、tool registry 解析、模型调用、 工具执行、响应解析。两个 kernel 存在:graph(默认;建在 eino 上)和 legacy(for 循环)。通过 ONGRID_AGENT_KERNEL 切。
Air-gapped(离线)
无公网出口的部署。Ongrid 在给定本地 LLM 中继(如 vLLM、Ollama)和 release tarball 里捆的本地 embedding 模型时完全离线跑。见 离线 / 私有化。
B
Blast radius(爆炸半径)
被一次改动或 incident 影响的服务或主机集合。Agent 通过走拓扑图(下游节点) 在推荐任何 destructive 动作前算它。
Bounded context (BC)
manager 的一个子域,有自己的 model、biz、data、server 包。例子:iam、 edge、device、alert、aiops。跨 BC 的 import 限于接口端口; go-arch-lint 强制边界。
Built-in vault
捆在 github.com/ongridio/vault 的默认知识库内容。manager 首次启动同步它, 按需重同步。公开 repo;约 96 份 markdown playbook。
C
Channel(通道)
通知投递目标。类型:webhook、slack、feishu、dingtalk、wecom、 telegram。每个 channel 可按 severity 和 scope 过滤。见 通道。
Class(tool class)
工具的爆炸半径分类:safe(只读)、mutating(可逆写)、dangerous (不可逆)。persona 的 permission_mode 字段卡哪些 class 可调。见 Skill manifest。
Cmdpolicy
卡 bash 技能调用的 edge 侧沙箱。定义二进制白名单、参数匹配、路径白名单、 网络白名单。在 internal/edgeagent/cmdpolicy 下。默认只读 —— 翻成 mutating 需要显式策略编辑。
Control plane(控制面)
geminio tunnel。承载 edge 生命周期、RPC、心跳、告警事件、(今天的)指标推 送。见 数据面。
Coordinator
顶层 agent,拆解用户问题、派 specialist 子 agent、装最终答案。persona 名: coordinator。见 Coordinator。
D
Data plane(数据面)
edge 用来把日志和链路直接推到 manager 公开摄入端点的独立出站 HTTPS 路径 —— 跟 tunnel(控制面)不同。见 遥测数据面。
Dedupe key(去重 key)
告警 evaluator 用来把重复触发坍缩成一条 open incident 的按规则、按 scope 的 key。从 rule_key + scope_type + scope identifier + (可选规则专属维度) 构成。alert_incidents.dedupe_key 上唯一索引。
Device(设备)
逻辑主机。跟 edge(tunnel 连接的 agent 进程)不同。一台 device 可 能有零个或多个 edge(如果重装)。device_id 是 PromQL label 和拓扑节点里 的规范连接 key。
E
Edge
tunnel 连接的 agent 进程 —— ongrid-edge。按 edge_id 识别。每个运行的 agent 进程一个 edge;一台 device 在其生命周期内可能装多个 edge(重装后)。 显示规则:Edges 页列 agent;Devices 页列 host。
Edge bundle
manager 发给 edge 做整包升级的 tarball(ADR-024)。含 agent 二进制加每个 插件二进制,全对准目标 arch。暂存在 /var/lib/ongrid-edge/.upgrade/, 下次启动交换。
eino
Ongrid 给 agent ReAct 循环用的 graph kernel 库(ONGRID_AGENT_KERNEL=graph)。 提供 prompt 装配、tool 调用、graph 执行原语。
F
Frontier
上游 geminio broker(github.com/singchia/frontier,ADR-007)。edge 拨 40012 端口;manager 通过 docker 网络拨 40011。作为 release tarball 里捆的 docker 镜像发。
G
geminio
Ongrid frontier broker 实现的 TLS 多流 tunnel 协议 (github.com/singchia/geminio)。在一条持久 TLS 连接上支持请求/响应 RPC
- 原始流。
Grafana embed
Monitor 页通过 iframe(solo-mode URL)在 /grafana/... 下渲染 Grafana 面板。 nginx 把 manager API 和 Grafana embed 放在同一 origin 下顶上;iframe 通过 GF_SECURITY_ALLOW_EMBEDDING=true 允许。
H
Health(plugin)
edge 插件的 supervisor 上报的运行时状态:running、crashed、starting、 stopping。通过 GET /v1/edges/{id}/plugins 露出来,在 Edges 页每个插件 开关旁。
I
IM bridge
把 Ongrid chat 连到外部 IM 平台(Slack、Telegram、飞书、钉钉、企业微信) 的 bounded context。每个注册 app 在 im_apps 里一行。/v1/im/<provider>/events 上的入站事件被转换成 chat 会话。
Incident
正触发的告警。每个 (rule, scope) tuple 一条 incident,通过 dedupe key 去重。有生命周期(open → acknowledged → resolved)、事件 timeline,可选 AI 生成的调查报告。
J
join_mode
规则字段:all 或 any。决定是 conditions[] 里每个条目都得匹配规则才 触发(默认 all),还是任一(any)。
K
Kind(规则 kind)
驱动哪个子 evaluator 跑规则 conditions 的判别符。Phase-A:metric_raw、 metric_anomaly、metric_forecast、metric_burn_rate。Phase-B: log_match、log_volume、trace_latency、trace_error_rate。加上仅 UI 输入 kind metric_threshold。见 告警规则 schema。
L
Loki
Grafana 的日志存储(ADR-012)。在 compose 栈里以 loki:3.4.0 捆。edge 通过 数据面推;manager 通过 /v1/logs/query_range 查。
M
Marketplace
技能包分发系统(ADR-017)。一个 pack 是技能 + agent 的目录加一份 manifest。 通过 POST /v1/marketplace/install 安装。registry 指向 HTTPS 托管索引。
Mention(提及)
chat 框里 @edge、@device、@dashboard、@incident 自动补全语法。 manager 在把消息发给 LLM 前把它们解析成结构化上下文。
N
NotifyWindowSeconds / NotifyMinFires
按规则的通知抑噪对。规则在尾随 NotifyWindowSeconds 内触发少于 NotifyMinFires 次写一条 repeat_suppressed 事件但不发通知。见 告警规则 schema。
O
OTLP
OpenTelemetry Protocol —— edge 用来把链路(通过 otelcol-contrib)发到 manager /v1/traces endpoint 的 wire format。
otelcol-contrib
OpenTelemetry Collector contrib 发行版。在 release tarball 里作为链路插件 捆。由 agent 的插件 supervisor 管的子进程。
P
Persona
agent 的行为定义 —— 带 YAML frontmatter 的 markdown 文件(name、 description、when_to_use、tools、model、permission_mode、 system prompt)。见 Agent persona 格式。
Pluggable embedding
RAG 管线支持三个 embedding provider:zhipu(默认,GLM embedding API)、 openai、local(磁盘上的 bge 模型)。通过 ONGRID_EMBEDDING_PROVIDER 切。
Plugin(edge 插件)
edge agent supervisor 管的子进程:promtail(日志)、node_exporter (主机指标)、process_exporter(进程指标)、otelcol-contrib(链路)。 通过 PUT /v1/edges/{id}/plugins/{name} 配。
promtail
Grafana 的日志投递器。在 release tarball 里作为日志插件捆。是 edge agent 的子进程。
push_prom_samples
tunnel 侧的指标推 RPC。把 edge 指标样本送到 manager 的云端 Prom。今天在控 制面;可能搬到数据面 —— 迁移触发条件见 遥测数据面。
Q
query_promql / query_traceql / search_logs
agent 能调的三大核心可观测工具。它们通过 manager 分别代理到 Prom / Tempo / Loki,返回 LLM 可推理的结构化结果。
R
RAG
Retrieval-Augmented Generation。Ongrid 知识库(vault + repo + 上传文档) 在 Qdrant 里建索引;对 agent 的查询自动取 top-k chunk。见 能力 → 知识库。
RCA
根因分析。agent 的调查管线,从告警症状走拓扑 + 指标 + 日志 + 链路 + 源码 到可验证的成因陈述。
ReAct
"Reason + Act" 循环:agent 思考(装工具方案)、动作(调工具)、观察(读 结果)、循环。由 persona 上的 max_turns 约束。
Rule key
告警规则的稳定 lower_snake 标识符。用在 dedupe key 和 incident.rule 里。在未软删除行里跨表唯一。
S
Scope type
规则字段:host、global 或 monitoring_pipeline。决定 evaluator 的分组 维度。host 每个 device_id 出一条 incident;global 全系统一条; monitoring_pipeline 给内部 pipeline 健康规则用。
Severity
告警 / 通道 severity 地板:info、warning、critical。通道 match_severity_min=warning 接受 warning + critical;critical 只接受 critical。
Skill(技能)
agent 能调的工具。要么内置(编进二进制),要么外部(带 skill.json manifest 的子进程)。两者都住在同一 registry;LLM 不区分。见 Skill manifest。
SOP(双签)
dangerous 工具调用的两步确认流。persona 必须有 permission_mode: dual-sign-required;运行时把计划调用展示出来 review, 显式确认后才执行。
Specialist
非 coordinator 的 agent persona —— incident investigator、network、compute、 disk、SRE。coordinator 通过把用户 query 跟每个 persona 的 when_to_use 字段匹配来挑一个。见 Specialists。
T
Tempo
Grafana 的链路存储(ADR-013)。作为 tempo:2.5.0 捆。edge 通过 OTLP 推; manager 通过 TraceQL 查。
Tenant(租户)
逻辑隔离边界(org + 成员)。开源 MVP 里单租户 —— 租户逻辑在 schema 里 存在,但在多租户特性上线前求值为"同一租户里所有人"。
Tool
skill 的 LLM 面 handle。一个 skill 可能声明多个 tool(通过 SKILL.md 的 tools: 列表)。运行时每个 tool 有名字、描述、JSON Schema、 class、when_to_use hint。
ToolBag deferral
大技能 registry 的优化。工具数超过 ONGRID_TOOLBAG_DEFERRAL_THRESHOLD (默认 30)时,specialty 层工具在 prompt 里收到打码的 schema。LLM 必 须调 ToolSearch 展开一个打码工具才能用。省 prompt token。
Topology(拓扑)
internal/manager/server/topology 下的带类型 CMDB(节点 + 关系)。节点有 type(service、host、database、queue、...)带 schema;关系有 type (depends_on、runs_on、served_by)。agent 走拓扑算 爆炸半径。
Tunnel
从 edge 到 broker(frontier)的 geminio TLS 连接。见 控制面 和 geminio。
V
Vault
内置知识库仓库(github.com/ongridio/vault)。首次启动同步到 manager 的 RAG 存储。见 Built-in vault。
W
WebSSH
基于 tunnel 的浏览器 shell。edge 把字节 port-forward 到本地 sshd;SSH client 完全住在 manager。见 能力 → WebShell。
when_to_use
persona / skill / tool 的 frontmatter 字段,给 coordinator(或 LLM)一行 "这个该什么时候挑"决定 hint。跟 description("是什么")不同。
Z
Zhipu / GLM
中国网络部署的默认 LLM provider。模型包括 glm-4.7、glm-5、glm-5.1。 通过 ONGRID_ZHIPU_* env 变量配。