Glosario

Términos específicos del proyecto usados a través de los docs y el código fuente. Si un término tiene un tratamiento más largo, la página dedicada está linkeada.

A

Agent

En Ongrid, un agent es un worker LLM configurado con un trabajo específico (coordinator, incident investigator, network specialist, etc.). Cada agent tiene una persona que describe qué modelo corre, qué tools puede llamar y cuántos turnos ReAct obtiene. Distinto de "edge agent" — ver Edge.

Agent kernel

El runtime que maneja el loop ReAct de un agent: ensamblaje de prompt, resolución del registry de tools, invocación del modelo, ejecución de tool, parseo de respuesta. Existen dos kernels: graph (default; construido sobre eino) y legacy (for-loop). Toggle vía ONGRID_AGENT_KERNEL.

Air-gapped

Un despliegue sin egreso de internet. Ongrid corre totalmente offline dado un relay LLM local (p. ej. vLLM, Ollama) y el modelo de embedding local bundled en el tarball de release. Ver Air-gapped / on-prem.

B

Blast radius

El conjunto de servicios o hosts afectados por un cambio o incidente. El agent lo computa recorriendo el grafo de topología (nodos downstream) antes de recomendar cualquier acción destructiva.

Bounded context (BC)

Un subdominio del manager con sus propios paquetes de model, biz, data y server. Ejemplos: iam, edge, device, alert, aiops. Los imports entre BCs están restringidos a puertos de interfaz; go-arch-lint refuerza el límite.

Built-in vault

El contenido de base de conocimiento default bundled en github.com/ongridio/vault. El manager lo sincroniza al primer boot y re-sincroniza bajo demanda. Repo público; alrededor de 96 playbooks markdown.

C

Channel

Un target de entrega para notificaciones. Tipos: webhook, slack, feishu, dingtalk, wecom, telegram. Cada canal puede filtrarse por severidad y scope. Ver Canales.

Class (tool class)

Clasificación de blast-radius de una tool: safe (read-only), mutating (escritura reversible), dangerous (irreversible). El campo permission_mode de la persona gatea qué clases son invocables. Ver Skill manifest.

Cmdpolicy

El sandbox del lado edge que gatea las invocaciones del skill bash. Define una whitelist de binario, matchers de argumento, allowlists de path y allowlists de red. Localizado bajo internal/edgeagent/cmdpolicy. Read-only por defecto — flippear a mutating requiere ediciones explícitas de política.

Control plane

El túnel geminio. Carga lifecycle del edge, RPC, heartbeats, eventos de alerta y (hoy) push de métricas. Ver Data plane.

Coordinator

El agent top-level que descompone preguntas del usuario, despacha sub-agents specialist y ensambla la respuesta final. Nombre de persona: coordinator. Ver Coordinator.

D

Data plane

El path HTTPS saliente independiente que los edges usan para enviar logs y trazas directamente a los endpoints públicos de ingest del manager — distinto del túnel (control plane). Ver Data plane de telemetría.

Dedupe key

Key per-rule, per-scope que el alert evaluator usa para colapsar firings repetidos en un incidente abierto. Construida desde rule_key + scope_type + scope identifier + (dimensiones rule-specific opcionales). Índice único en alert_incidents.dedupe_key.

Device

Un host lógico. Distinto de edge, que es el proceso del agente conectado al túnel. Un device puede tener cero o muchos edges (si se reinstala). El device_id es la join key canónica en labels de PromQL y nodos de topología.

E

Edge

El proceso del agente conectado al túnel — ongrid-edge. Identificado por edge_id. Un edge por proceso de agente corriendo; un device puede alojar múltiples edges a lo largo de su vida (después de reinstalaciones). Regla de display: la página Edges lista agents; la página Devices lista hosts.

Edge bundle

El tarball que el manager envía a un edge para upgrade de whole-bundle (ADR-024). Contiene el binario del agente más cada binario de plugin, todos para el arch target. Staged en /var/lib/ongrid-edge/.upgrade/ y swapped en el siguiente boot.

eino

La librería de kernel de grafo que Ongrid usa para el loop ReAct del agent (ONGRID_AGENT_KERNEL=graph). Provee las primitivas de ensamblaje de prompt, tool-call y ejecución de grafo.

F

Frontier

El broker geminio upstream (github.com/singchia/frontier, ADR-007). El edge marca al puerto 40012; el manager marca al puerto 40011 sobre la red docker. Se envía como una imagen docker bundled en el tarball de release.

G

geminio

El protocolo de túnel multi-stream basado en TLS (github.com/singchia/geminio) que el broker frontier de Ongrid implementa. Soporta RPC request/response + raw streams sobre una conexión TLS persistente.

Grafana embed

La página Monitor renderiza paneles de Grafana vía iframe (URLs solo-mode) bajo /grafana/.... nginx pone la cara a tanto el API del manager como el embed de Grafana en el mismo origin; el iframe está permitido vía GF_SECURITY_ALLOW_EMBEDDING=true.

H

Health (plugin)

El estado runtime reportado por el supervisor de un plugin del edge: running, crashed, starting, stopping. Mostrado vía GET /v1/edges/{id}/plugins y en la página Edges al lado de cada toggle de plugin.

I

IM bridge

El bounded context que conecta el chat de Ongrid a plataformas IM externas (Slack, Telegram, Lark, DingTalk, WeCom). Una fila en im_apps por app registrada. Los eventos entrantes en /v1/im/<provider>/events se convierten en sesiones de chat.

Incident

Una alerta disparando. Un incidente por tupla (rule, scope), deduped vía dedupe key. Tiene un ciclo de vida (open → acknowledged → resolved), una timeline de eventos, y opcionalmente un informe de investigación generado por IA.

J

join_mode

Campo de regla: all o any. Determina si cada entrada en conditions[] debe matchear para que la regla dispare (default all) o cualquiera (any).

K

Kind (rule kind)

El discriminador que maneja qué sub-evaluator corre sobre las conditions de una regla. Phase-A: metric_raw, metric_anomaly, metric_forecast, metric_burn_rate. Phase-B: log_match, log_volume, trace_latency, trace_error_rate. Más el kind UI-only de input metric_threshold. Ver Esquema de reglas de alerta.

L

Loki

El store de logs de Grafana (ADR-012). Bundled en el stack compose como loki:3.4.0. Los edges empujan vía el data plane; el manager consulta vía /v1/logs/query_range.

M

Marketplace

El sistema de distribución de skill packs (ADR-017). Un pack es un directorio de skills + agents + un manifest. Instala vía POST /v1/marketplace/install. Los registries apuntan a índices hosteados en HTTPS.

Mention

La sintaxis de autocomplete @edge, @device, @dashboard, @incident en la caja de chat. El manager las resuelve a contexto estructurado antes de enviar el mensaje al LLM.

N

NotifyWindowSeconds / NotifyMinFires

Par de dampening de notificación por-regla. Una regla disparando menos de NotifyMinFires veces dentro de los trailing NotifyWindowSeconds escribe un evento repeat_suppressed pero no envía una notificación. Ver Esquema de reglas de alerta.

O

OTLP

OpenTelemetry Protocol — el wire format que los edges usan para enviar trazas (vía otelcol-contrib) al endpoint /v1/traces del manager.

otelcol-contrib

La distribución contrib del OpenTelemetry Collector. Bundled en el tarball de release como el plugin de trazas. Subproceso manejado por el supervisor de plugin del agente.

P

Persona

La definición de comportamiento de un agent — un archivo markdown con frontmatter YAML (name, description, when_to_use, tools, model, permission_mode, system prompt). Ver Formato de persona de agente.

Pluggable embedding

El pipeline RAG soporta tres providers de embedding: zhipu (default, API de embedding de GLM), openai, y local (modelo bge en disco). Cambia vía ONGRID_EMBEDDING_PROVIDER.

Plugin (edge plugin)

Un subproceso manejado por el supervisor del agente edge: promtail (logs), node_exporter (host metrics), process_exporter (proc metrics), otelcol-contrib (trazas). Configurado vía PUT /v1/edges/{id}/plugins/{name}.

promtail

El log shipper de Grafana. Bundled en el tarball de release como el plugin de logs. Subproceso del agente edge.

push_prom_samples

El RPC de metric-push del lado del túnel. Carga muestras de métrica del edge al Prom cloud del manager. Hoy en el control plane; potencialmente se mueve al data plane — ver triggers de migración en Data plane de telemetría.

Q

query_promql / query_traceql / search_logs

Tres de las tools core de observabilidad que el agent puede llamar. Proxyan a través del manager a Prom / Tempo / Loki respectivamente, devolviendo resultados estructurados sobre los que el LLM puede razonar.

R

RAG

Retrieval-Augmented Generation. La base de conocimiento de Ongrid (vault + repos + docs subidos) está indexada en Qdrant; las queries al agent automáticamente recuperan chunks top-k. Ver Capacidades → Base de conocimiento.

RCA

Root Cause Analysis (causa raíz). El pipeline de investigación del agent que camina desde un síntoma de alerta a través de topología + métricas + logs + trazas + fuente a un statement de causa verificable.

ReAct

El loop "Reason + Act": el agent piensa (ensambla un plan de tool), actúa (llama una tool), observa (lee el resultado), luego loopea. Acotado por max_turns en la persona.

Rule key

Identificador lower_snake estable para una regla de alerta. Usado en dedupe keys y incident.rule. Único a través de filas no soft-deleted.

S

Scope type

Campo de regla: host, global, o monitoring_pipeline. Determina la dimensión de agrupamiento del evaluator. host produce un incidente por device_id; global produce un incidente system-wide; monitoring_pipeline es para reglas internas de pipeline-health.

Severity

Suelo de severidad de alerta / canal: info, warning, critical. Un canal con match_severity_min=warning acepta warning + critical; critical acepta solo critical.

Skill

Una tool que el agent puede llamar. O built-in (compilada en el binario) o externa (subproceso con un manifest skill.json). Ambas viven en el mismo registry; el LLM no distingue. Ver Skill manifest.

SOP (dual-sign)

El flujo de confirmación de dos pasos para llamadas de tool dangerous. La persona debe tener permission_mode: dual-sign-required; el runtime presenta la llamada planeada para review, luego ejecuta solo después de confirmación explícita.

Specialist

Una persona de agent no-coordinator — incident investigator, network, compute, disk, SRE. El coordinator elige una matcheando la query del usuario contra el campo when_to_use de cada persona. Ver Specialists.

T

Tempo

El store de trazas de Grafana (ADR-013). Bundled como tempo:2.5.0. Los edges empujan vía OTLP; el manager consulta vía TraceQL.

Tenant

Un límite de aislamiento lógico (org + miembros). Single-tenant en el MVP open-source — la lógica de tenant existe en el schema pero evalúa a "todos en el mismo tenant" hasta que las features multi-tenant lleguen.

Tool

El handle cara-al-LLM a un skill. Un skill puede declarar múltiples tools (vía la lista tools: del SKILL.md). En runtime, cada tool tiene un nombre, descripción, JSON Schema, class y hint when_to_use.

ToolBag deferral

Optimización para registries grandes de skills. Cuando el conteo de tool excede ONGRID_TOOLBAG_DEFERRAL_THRESHOLD (default 30), las tools de specialty-tier obtienen schemas redactados en el prompt. El LLM debe llamar a ToolSearch para expandir una tool redactada antes de usarla. Ahorra tokens de prompt.

Topology

La CMDB tipada (nodos + relaciones) bajo internal/manager/server/topology. Los nodos tienen un type (service, host, database, queue, ...) con un schema; las relaciones tienen un type (depends_on, runs_on, served_by). El agent camina la topología para computar blast radius.

Tunnel

La conexión TLS geminio del edge al broker (frontier). Ver Control plane y geminio.

V

Vault

El repositorio de base de conocimiento integrado (github.com/ongridio/vault). Sincronizado al RAG store del manager en el primer boot. Ver Built-in vault.

W

WebSSH

Shell basado en navegador sobre el túnel. El edge port-forwardea bytes al sshd local; el cliente SSH vive enteramente en el manager. Ver Capacidades → WebShell.

when_to_use

Un campo de frontmatter de persona / skill / tool que da al coordinator (o al LLM) un hint de decisión de una línea "cuándo debería elegirse esto". Distinto de description que es "qué es".

Z

Zhipu / GLM

Provider LLM default en despliegues de red china. Los modelos incluyen glm-4.7, glm-5, glm-5.1. Configurado vía env vars ONGRID_ZHIPU_*.

Glosario ​

A ​

Agent ​

Agent kernel ​

Air-gapped ​

B ​

Blast radius ​

Bounded context (BC) ​

Built-in vault ​

C ​

Channel ​

Class (tool class) ​

Cmdpolicy ​

Control plane ​

Coordinator ​

D ​

Data plane ​

Dedupe key ​

Device ​

E ​

Edge ​

Edge bundle ​

eino ​

F ​

Frontier ​

G ​

geminio ​

Grafana embed ​

H ​

Health (plugin) ​

I ​

IM bridge ​

Incident ​

J ​

join_mode ​

K ​

Kind (rule kind) ​

L ​

Loki ​

M ​

Marketplace ​

Mention ​

N ​

NotifyWindowSeconds / NotifyMinFires ​

O ​

OTLP ​

otelcol-contrib ​

P ​

Persona ​

Pluggable embedding ​

Plugin (edge plugin) ​

promtail ​

push_prom_samples ​

Q ​

query_promql / query_traceql / search_logs ​

R ​

RAG ​

RCA ​

ReAct ​

Rule key ​

S ​

Scope type ​

Severity ​

Skill ​

SOP (dual-sign) ​

Specialist ​

T ​

Tempo ​

Tenant ​

Tool ​

ToolBag deferral ​

Topology ​

Tunnel ​

V ​

Vault ​

W ​

WebSSH ​

when_to_use ​

Z ​

Zhipu / GLM ​