Skip to content

术语表

文档和源码中使用的项目专属词。某个词有更长篇幅时,会链接到专属页。

A

Agent

在 Ongrid 里,agent 是一个配置好的 LLM worker,有特定任务(coordinator、 incident investigator、network specialist 等)。每个 agent 有一个 persona 描述跑什么 model、能调什么工具、有几轮 ReAct。跟 "edge agent" 不同 —— 见 Edge

Agent kernel

驱动 agent ReAct 循环的运行时:prompt 装配、tool registry 解析、模型调用、 工具执行、响应解析。两个 kernel 存在:graph(默认;建在 eino 上)和 legacy(for 循环)。通过 ONGRID_AGENT_KERNEL 切。

Air-gapped(离线)

无公网出口的部署。Ongrid 在给定本地 LLM 中继(如 vLLM、Ollama)和 release tarball 里捆的本地 embedding 模型时完全离线跑。见 离线 / 私有化

B

Blast radius(爆炸半径)

被一次改动或 incident 影响的服务或主机集合。Agent 通过走拓扑图(下游节点) 在推荐任何 destructive 动作前算它。

Bounded context (BC)

manager 的一个子域,有自己的 model、biz、data、server 包。例子:iamedgedevicealertaiops。跨 BC 的 import 限于接口端口; go-arch-lint 强制边界。

Built-in vault

捆在 github.com/ongridio/vault 的默认知识库内容。manager 首次启动同步它, 按需重同步。公开 repo;约 96 份 markdown playbook。

C

Channel(通道)

通知投递目标。类型:webhookslackfeishudingtalkwecomtelegram。每个 channel 可按 severity 和 scope 过滤。见 通道

Class(tool class)

工具的爆炸半径分类:safe(只读)、mutating(可逆写)、dangerous (不可逆)。persona 的 permission_mode 字段卡哪些 class 可调。见 Skill manifest

Cmdpolicy

bash 技能调用的 edge 侧沙箱。定义二进制白名单、参数匹配、路径白名单、 网络白名单。在 internal/edgeagent/cmdpolicy 下。默认只读 —— 翻成 mutating 需要显式策略编辑。

Control plane(控制面)

geminio tunnel。承载 edge 生命周期、RPC、心跳、告警事件、(今天的)指标推 送。见 数据面

Coordinator

顶层 agent,拆解用户问题、派 specialist 子 agent、装最终答案。persona 名: coordinator。见 Coordinator

D

Data plane(数据面)

edge 用来把日志和链路直接推到 manager 公开摄入端点的独立出站 HTTPS 路径 —— 跟 tunnel(控制面)不同。见 遥测数据面

Dedupe key(去重 key)

告警 evaluator 用来把重复触发坍缩成一条 open incident 的按规则、按 scope 的 key。从 rule_key + scope_type + scope identifier + (可选规则专属维度) 构成。alert_incidents.dedupe_key 上唯一索引。

Device(设备)

逻辑主机。跟 edge(tunnel 连接的 agent 进程)不同。一台 device 可 能有零个或多个 edge(如果重装)。device_id 是 PromQL label 和拓扑节点里 的规范连接 key。

E

Edge

tunnel 连接的 agent 进程 —— ongrid-edge。按 edge_id 识别。每个运行的 agent 进程一个 edge;一台 device 在其生命周期内可能装多个 edge(重装后)。 显示规则:Edges 页列 agent;Devices 页列 host。

Edge bundle

manager 发给 edge 做整包升级的 tarball(ADR-024)。含 agent 二进制加每个 插件二进制,全对准目标 arch。暂存在 /var/lib/ongrid-edge/.upgrade/, 下次启动交换。

eino

Ongrid 给 agent ReAct 循环用的 graph kernel 库(ONGRID_AGENT_KERNEL=graph)。 提供 prompt 装配、tool 调用、graph 执行原语。

F

Frontier

上游 geminio broker(github.com/singchia/frontier,ADR-007)。edge 拨 40012 端口;manager 通过 docker 网络拨 40011。作为 release tarball 里捆的 docker 镜像发。

G

geminio

Ongrid frontier broker 实现的 TLS 多流 tunnel 协议 (github.com/singchia/geminio)。在一条持久 TLS 连接上支持请求/响应 RPC

  • 原始流。

Grafana embed

Monitor 页通过 iframe(solo-mode URL)在 /grafana/... 下渲染 Grafana 面板。 nginx 把 manager API 和 Grafana embed 放在同一 origin 下顶上;iframe 通过 GF_SECURITY_ALLOW_EMBEDDING=true 允许。

H

Health(plugin)

edge 插件的 supervisor 上报的运行时状态:runningcrashedstartingstopping。通过 GET /v1/edges/{id}/plugins 露出来,在 Edges 页每个插件 开关旁。

I

IM bridge

把 Ongrid chat 连到外部 IM 平台(Slack、Telegram、飞书、钉钉、企业微信) 的 bounded context。每个注册 app 在 im_apps 里一行。/v1/im/<provider>/events 上的入站事件被转换成 chat 会话。

Incident

正触发的告警。每个 (rule, scope) tuple 一条 incident,通过 dedupe key 去重。有生命周期(open → acknowledged → resolved)、事件 timeline,可选 AI 生成的调查报告。

J

join_mode

规则字段:allany。决定是 conditions[] 里每个条目都得匹配规则才 触发(默认 all),还是任一(any)。

K

Kind(规则 kind)

驱动哪个子 evaluator 跑规则 conditions 的判别符。Phase-A:metric_rawmetric_anomalymetric_forecastmetric_burn_rate。Phase-B: log_matchlog_volumetrace_latencytrace_error_rate。加上仅 UI 输入 kind metric_threshold。见 告警规则 schema

L

Loki

Grafana 的日志存储(ADR-012)。在 compose 栈里以 loki:3.4.0 捆。edge 通过 数据面推;manager 通过 /v1/logs/query_range 查。

M

Marketplace

技能包分发系统(ADR-017)。一个 pack 是技能 + agent 的目录加一份 manifest。 通过 POST /v1/marketplace/install 安装。registry 指向 HTTPS 托管索引。

Mention(提及)

chat 框里 @edge@device@dashboard@incident 自动补全语法。 manager 在把消息发给 LLM 前把它们解析成结构化上下文。

N

NotifyWindowSeconds / NotifyMinFires

按规则的通知抑噪对。规则在尾随 NotifyWindowSeconds 内触发少于 NotifyMinFires 次写一条 repeat_suppressed 事件但发通知。见 告警规则 schema

O

OTLP

OpenTelemetry Protocol —— edge 用来把链路(通过 otelcol-contrib)发到 manager /v1/traces endpoint 的 wire format。

otelcol-contrib

OpenTelemetry Collector contrib 发行版。在 release tarball 里作为链路插件 捆。由 agent 的插件 supervisor 管的子进程。

P

Persona

agent 的行为定义 —— 带 YAML frontmatter 的 markdown 文件(namedescriptionwhen_to_usetoolsmodelpermission_modesystem prompt)。见 Agent persona 格式

Pluggable embedding

RAG 管线支持三个 embedding provider:zhipu(默认,GLM embedding API)、 openailocal(磁盘上的 bge 模型)。通过 ONGRID_EMBEDDING_PROVIDER 切。

Plugin(edge 插件)

edge agent supervisor 管的子进程:promtail(日志)、node_exporter (主机指标)、process_exporter(进程指标)、otelcol-contrib(链路)。 通过 PUT /v1/edges/{id}/plugins/{name} 配。

promtail

Grafana 的日志投递器。在 release tarball 里作为日志插件捆。是 edge agent 的子进程。

push_prom_samples

tunnel 侧的指标推 RPC。把 edge 指标样本送到 manager 的云端 Prom。今天在控 制面;可能搬到数据面 —— 迁移触发条件见 遥测数据面

Q

query_promql / query_traceql / search_logs

agent 能调的三大核心可观测工具。它们通过 manager 分别代理到 Prom / Tempo / Loki,返回 LLM 可推理的结构化结果。

R

RAG

Retrieval-Augmented Generation。Ongrid 知识库(vault + repo + 上传文档) 在 Qdrant 里建索引;对 agent 的查询自动取 top-k chunk。见 能力 → 知识库

RCA

根因分析。agent 的调查管线,从告警症状走拓扑 + 指标 + 日志 + 链路 + 源码 到可验证的成因陈述。

ReAct

"Reason + Act" 循环:agent 思考(装工具方案)、动作(调工具)、观察(读 结果)、循环。由 persona 上的 max_turns 约束。

Rule key

告警规则的稳定 lower_snake 标识符。用在 dedupe key 和 incident.rule 里。在未软删除行里跨表唯一。

S

Scope type

规则字段:hostglobalmonitoring_pipeline。决定 evaluator 的分组 维度。host 每个 device_id 出一条 incident;global 全系统一条; monitoring_pipeline 给内部 pipeline 健康规则用。

Severity

告警 / 通道 severity 地板:infowarningcritical。通道 match_severity_min=warning 接受 warning + criticalcritical 只接受 critical

Skill(技能)

agent 能调的工具。要么内置(编进二进制),要么外部(带 skill.json manifest 的子进程)。两者都住在同一 registry;LLM 不区分。见 Skill manifest

SOP(双签)

dangerous 工具调用的两步确认流。persona 必须有 permission_mode: dual-sign-required;运行时把计划调用展示出来 review, 显式确认后才执行。

Specialist

非 coordinator 的 agent persona —— incident investigator、network、compute、 disk、SRE。coordinator 通过把用户 query 跟每个 persona 的 when_to_use 字段匹配来挑一个。见 Specialists

T

Tempo

Grafana 的链路存储(ADR-013)。作为 tempo:2.5.0 捆。edge 通过 OTLP 推; manager 通过 TraceQL 查。

Tenant(租户)

逻辑隔离边界(org + 成员)。开源 MVP 里单租户 —— 租户逻辑在 schema 里 存在,但在多租户特性上线前求值为"同一租户里所有人"。

Tool

skill 的 LLM 面 handle。一个 skill 可能声明多个 tool(通过 SKILL.md 的 tools: 列表)。运行时每个 tool 有名字、描述、JSON Schema、 class、when_to_use hint。

ToolBag deferral

大技能 registry 的优化。工具数超过 ONGRID_TOOLBAG_DEFERRAL_THRESHOLD (默认 30)时,specialty 层工具在 prompt 里收到打码的 schema。LLM 必 须调 ToolSearch 展开一个打码工具才能用。省 prompt token。

Topology(拓扑)

internal/manager/server/topology 下的带类型 CMDB(节点 + 关系)。节点有 type(service、host、database、queue、...)带 schema;关系有 type (depends_on、runs_on、served_by)。agent 走拓扑算 爆炸半径

Tunnel

从 edge 到 broker(frontier)的 geminio TLS 连接。见 控制面geminio

V

Vault

内置知识库仓库(github.com/ongridio/vault)。首次启动同步到 manager 的 RAG 存储。见 Built-in vault

W

WebSSH

基于 tunnel 的浏览器 shell。edge 把字节 port-forward 到本地 sshd;SSH client 完全住在 manager。见 能力 → WebShell

when_to_use

persona / skill / tool 的 frontmatter 字段,给 coordinator(或 LLM)一行 "这个该什么时候挑"决定 hint。跟 description("是什么")不同。

Z

Zhipu / GLM

中国网络部署的默认 LLM provider。模型包括 glm-4.7glm-5glm-5.1。 通过 ONGRID_ZHIPU_* env 变量配。