Glossar
Projektspezifische Begriffe, die in den Docs und im Quellcode verwendet werden. Wenn ein Begriff eine längere Behandlung hat, ist die zugehörige Seite verlinkt.
A
Agent
In Ongrid ist ein Agent ein konfigurierter LLM-Worker mit einer bestimmten Aufgabe (coordinator, incident investigator, network specialist usw.). Jeder Agent hat eine Persona, die beschreibt, welches Modell er ausführt, welche Werkzeuge er aufrufen kann und wie viele ReAct-Turns er bekommt. Unterscheidet sich von „Edge-Agent" — siehe Edge.
Agent-Kernel
Die Laufzeit, die die ReAct-Schleife eines Agenten antreibt: Prompt-Zusammenstellung, Tool-Registry-Auflösung, Modell-Aufruf, Tool-Ausführung, Response-Parsing. Zwei Kernel existieren: graph (Standard; auf eino aufgebaut) und legacy (For-Loop). Umschalten via ONGRID_AGENT_KERNEL.
Air-Gapped
Ein Deployment ohne Internet-Egress. Ongrid läuft vollständig offline, sofern ein lokales LLM-Relay vorhanden ist (z. B. vLLM, Ollama) und das im Release-Tarball mitgelieferte lokale Embedding-Modell. Siehe Air-Gapped / On-Prem.
B
Blast Radius (Wirkungsradius)
Die Menge der Dienste oder Hosts, die von einer Änderung oder einem Incident betroffen sind. Der Agent berechnet dies, indem er die Topologie durchläuft (Downstream-Knoten), bevor er irgendeine destruktive Aktion empfiehlt.
Bounded Context (BC)
Eine Subdomain des Managers mit eigenen model-, biz-, data- und server-Paketen. Beispiele: iam, edge, device, alert, aiops. Imports über BCs hinweg sind auf Interface-Ports beschränkt; go-arch-lint erzwingt die Grenze.
Eingebauter Vault
Der Standard-Wissensbasis-Inhalt, der unter github.com/ongridio/vault mitgeliefert wird. Der Manager synchronisiert ihn beim ersten Boot und re-synchronisiert auf Nachfrage. Öffentliches Repo; etwa 96 Markdown-Playbooks.
C
Channel (Kanal)
Ein Auslieferungsziel für Benachrichtigungen. Typen: webhook, slack, feishu, dingtalk, wecom, telegram. Jeder Kanal kann nach Severity und Scope gefiltert werden. Siehe Kanäle.
Class (Tool-Klasse)
Wirkungsradius-Klassifizierung eines Werkzeugs: safe (read-only), mutating (reversibler Schreibvorgang), dangerous (irreversibel). Das permission_mode-Feld der Persona steuert, welche Klassen aufrufbar sind. Siehe Skill-Manifest.
Cmdpolicy
Die Edge-seitige Sandbox, die bash-Skill-Invokationen steuert. Definiert eine Binary-Whitelist, Argument-Matcher, Pfad-Allowlists und Netzwerk-Allowlists. Liegt unter internal/edgeagent/cmdpolicy. Standardmäßig read-only — der Wechsel zu mutating erfordert explizite Policy-Edits.
Steuerungsebene
Der geminio-Tunnel. Trägt Edge-Lifecycle, RPC, Heartbeats, Alarm-Events und (heute) Metrik-Push. Siehe Datenebene.
Coordinator
Der oberste Agent, der Benutzerfragen zerlegt, Specialist-Sub-Agenten dispatcht und die finale Antwort zusammenstellt. Persona-Name: coordinator. Siehe Coordinator.
D
Datenebene
Der unabhängige ausgehende HTTPS-Pfad, den Edges verwenden, um Logs und Traces direkt an die öffentlichen Ingest-Endpunkte des Managers zu versenden — unterschieden vom Tunnel (Steuerungsebene). Siehe Telemetrie-Datenebene.
Dedupe-Key
Per-Regel-, per-Scope-Schlüssel, den der Alarm-Evaluator verwendet, um wiederholte Feuerungen zu einem einzigen offenen Incident zusammenzufassen. Gebildet aus rule_key + scope_type + scope identifier + (optional rule-specific dimensions). Unique Index auf alert_incidents.dedupe_key.
Device (Gerät)
Ein logischer Host. Unterschieden von Edge, das der tunnelverbundene Agentprozess ist. Ein Device kann null oder viele Edges haben (bei Neuinstallationen). Die device_id ist der kanonische Join-Key in PromQL-Labels und Topologie-Knoten.
E
Edge
Der tunnelverbundene Agentprozess — ongrid-edge. Identifiziert durch edge_id. Eine Edge pro laufendem Agentprozess; ein Device kann im Laufe seines Lebens mehrere Edges hosten (nach Neuinstallationen). Anzeigeregel: die Edges-Seite listet Agenten; die Devices-Seite listet Hosts.
Edge-Bundle
Das Tarball, das der Manager an eine Edge für ein Whole-Bundle-Upgrade ausliefert (ADR-024). Enthält das Agent-Binary plus jedes Plugin-Binary, alles für die Ziel-Architektur. Stageeted in /var/lib/ongrid-edge/.upgrade/ und beim nächsten Boot umgeschaltet.
eino
Die Graph-Kernel-Bibliothek, die Ongrid für die ReAct-Schleife des Agenten verwendet (ONGRID_AGENT_KERNEL=graph). Liefert die Prompt-Assembly-, Tool-Call- und Graph-Execution-Primitive.
F
Frontier
Der Upstream-geminio-Broker (github.com/singchia/frontier, ADR-007). Edge wählt Port 40012; Manager wählt Port 40011 über das Docker-Netzwerk. Wird als Docker-Image im Release-Tarball mitgeliefert.
G
geminio
Das TLS-basierte Multi-Stream-Tunnel-Protokoll (github.com/singchia/geminio), das der Frontier-Broker von Ongrid implementiert. Unterstützt Request/Response-RPC + Raw-Streams über eine persistente TLS-Verbindung.
Grafana-Embed
Die Monitor-Seite rendert Grafana-Panels per iframe (Solo-Mode-URLs) unter /grafana/.... nginx liefert sowohl die Manager-API als auch den Grafana-Embed auf demselben Origin aus; der iframe ist via GF_SECURITY_ALLOW_EMBEDDING=true erlaubt.
H
Health (Plugin)
Der vom Supervisor gemeldete Laufzeitzustand eines Edge-Plugins: running, crashed, starting, stopping. Sichtbar über GET /v1/edges/{id}/plugins und auf der Edges-Seite neben jedem Plugin-Toggle.
I
IM-Bridge
Der Bounded Context, der den Ongrid-Chat mit externen IM-Plattformen verbindet (Slack, Telegram, Lark, DingTalk, WeCom). Eine Zeile in im_apps pro registrierter App. Eingehende Events auf /v1/im/<provider>/events werden in Chat-Sessions umgewandelt.
Incident
Ein feuernder Alarm. Ein Incident pro (Regel, Scope)-Tupel, dedupliziert via Dedupe-Key. Hat einen Lebenszyklus (open → acknowledged → resolved), eine Event-Timeline und optional einen KI-generierten Investigation-Bericht.
J
join_mode
Regelfeld: all oder any. Bestimmt, ob jeder Eintrag in conditions[] zutreffen muss, damit die Regel feuert (Standard all), oder irgendeiner (any).
K
Kind (Regelart)
Der Diskriminator, der antreibt, welcher Sub-Evaluator über die conditions einer Regel läuft. Phase-A: metric_raw, metric_anomaly, metric_forecast, metric_burn_rate. Phase-B: log_match, log_volume, trace_latency, trace_error_rate. Plus die UI-only-Input-Art metric_threshold. Siehe Alarmregel-Schema.
L
Loki
Grafanas Log-Store (ADR-012). Im Compose-Stack als loki:3.4.0 mitgeliefert. Edges pushen über die Datenebene; der Manager fragt über /v1/logs/query_range ab.
M
Marketplace
Das Skill-Pack-Distributionssystem (ADR-017). Ein Pack ist ein Verzeichnis aus Skills + Agenten + einem Manifest. Installieren via POST /v1/marketplace/install. Registries zeigen auf HTTPS-gehostete Indizes.
Mention
Die @edge-, @device-, @dashboard-, @incident-Autovervollständigungs-Syntax im Chat-Feld. Der Manager löst sie in strukturierten Kontext auf, bevor er die Nachricht an das LLM sendet.
N
NotifyWindowSeconds / NotifyMinFires
Per-Regel-Benachrichtigungs-Dampening-Paar. Eine Regel, die innerhalb des trailing NotifyWindowSeconds weniger als NotifyMinFires-mal feuert, schreibt ein repeat_suppressed-Event, sendet aber keine Benachrichtigung. Siehe Alarmregel-Schema.
O
OTLP
OpenTelemetry Protocol — das Wire-Format, das Edges verwenden, um Traces (über otelcol-contrib) an den /v1/traces-Endpunkt des Managers zu versenden.
otelcol-contrib
Die OpenTelemetry-Collector-Contrib-Distribution. Im Release-Tarball als Traces-Plugin mitgeliefert. Subprozess, der vom Plugin-Supervisor des Agents verwaltet wird.
P
Persona
Die Verhaltensdefinition eines Agenten — eine Markdown-Datei mit YAML-Frontmatter (name, description, when_to_use, tools, model, permission_mode, system prompt). Siehe Agent-Persona-Format.
Pluggable Embedding
Die RAG-Pipeline unterstützt drei Embedding-Provider: zhipu (Standard, GLM-Embedding-API), openai und local (On-Disk-bge-Modell). Umschalten via ONGRID_EMBEDDING_PROVIDER.
Plugin (Edge-Plugin)
Ein Subprozess, der vom Supervisor des Edge-Agents verwaltet wird: promtail (Logs), node_exporter (Host-Metriken), process_exporter (Proc-Metriken), otelcol-contrib (Traces). Konfiguriert via PUT /v1/edges/{id}/plugins/{name}.
promtail
Grafanas Log-Shipper. Im Release-Tarball als Logs-Plugin mitgeliefert. Subprozess des Edge-Agents.
push_prom_samples
Der Tunnel-seitige Metrik-Push-RPC. Trägt Edge-Metrik-Samples an das Cloud-Prom des Managers. Heute auf der Steuerungsebene; bewegt sich potenziell zur Datenebene — siehe Migrationsauslöser in Telemetrie-Datenebene.
Q
query_promql / query_traceql / search_logs
Drei der zentralen Observability-Werkzeuge, die der Agent aufrufen kann. Sie proxen durch den Manager zu Prom / Tempo / Loki und geben strukturierte Ergebnisse zurück, über die das LLM räsonnieren kann.
R
RAG
Retrieval-Augmented Generation. Die Wissensbasis von Ongrid (Vault + Repos + hochgeladene Dokumente) ist in Qdrant indexiert; Abfragen an den Agenten holen automatisch Top-k-Chunks. Siehe Fähigkeiten → Wissensbasis.
RCA
Grundursachenanalyse (Root Cause Analysis). Die Investigation-Pipeline des Agenten, die von einem Alarmsymptom durch Topologie + Metriken + Logs + Traces + Quellcode zu einer verifizierbaren Ursachenaussage läuft.
ReAct
Die „Reason + Act"-Schleife: der Agent denkt (stellt einen Tool-Plan zusammen), handelt (ruft ein Werkzeug auf), beobachtet (liest das Ergebnis) und schleift dann. Begrenzt durch max_turns an der Persona.
Rule-Key
Stabiler lower_snake-Bezeichner für eine Alarmregel. Verwendet in Dedupe-Keys und incident.rule. Einzigartig über nicht-soft-deleted Zeilen hinweg.
S
Scope-Type
Regelfeld: host, global oder monitoring_pipeline. Bestimmt die Gruppierungsdimension des Evaluators. host erzeugt einen Incident pro device_id; global erzeugt einen Incident systemweit; monitoring_pipeline ist für interne Pipeline-Health-Regeln.
Severity
Alarm- / Kanal-Severity-Untergrenze: info, warning, critical. Eines Kanals match_severity_min=warning akzeptiert warning + critical; critical akzeptiert nur critical.
Skill
Ein Werkzeug, das der Agent aufrufen kann. Entweder eingebaut (in das Binary kompiliert) oder extern (Subprozess mit einem skill.json-Manifest). Beide leben in derselben Registry; das LLM unterscheidet sie nicht. Siehe Skill-Manifest.
SOP (Dual-Sign)
Der Zweistufen-Bestätigungsfluss für dangerous-Tool-Aufrufe. Die Persona muss permission_mode: dual-sign-required haben; die Laufzeit zeigt den geplanten Aufruf zur Prüfung an und führt erst nach expliziter Bestätigung aus.
Specialist
Eine Nicht-Coordinator-Agent-Persona — incident investigator, network, compute, disk, SRE. Der Coordinator wählt einen aus, indem er die Anfrage des Benutzers mit dem when_to_use-Feld jeder Persona abgleicht. Siehe Specialists.
T
Tempo
Grafanas Trace-Store (ADR-013). Mitgeliefert als tempo:2.5.0. Edges pushen via OTLP; Manager fragt via TraceQL ab.
Tenant
Eine logische Isolationsgrenze (Org + Mitglieder). Single-Tenant im Open-Source-MVP — Tenant-Logik existiert im Schema, evaluiert aber zu „jeder im selben Tenant", bis Multi-Tenant-Features ausgeliefert werden.
Tool (Werkzeug)
Der LLM-zugewandte Handle auf einen Skill. Ein Skill kann mehrere Werkzeuge deklarieren (über die tools:-Liste in SKILL.md). Zur Laufzeit hat jedes Werkzeug einen Namen, eine Beschreibung, ein JSON Schema, eine Klasse und einen when_to_use-Hinweis.
ToolBag-Deferral
Optimierung für große Skill-Registries. Wenn die Tool-Anzahl ONGRID_TOOLBAG_DEFERRAL_THRESHOLD (Standard 30) überschreitet, erhalten Specialty-Tier-Tools im Prompt redigierte Schemata. Das LLM muss ToolSearch aufrufen, um ein redigiertes Werkzeug zu expandieren, bevor es verwendet werden kann. Spart Prompt-Token.
Topologie
Die typisierte CMDB (Knoten + Relationen) unter internal/manager/server/topology. Knoten haben einen type (service, host, database, queue, ...) mit einem Schema; Relationen haben einen type (depends_on, runs_on, served_by). Der Agent durchläuft die Topologie, um den Blast Radius zu berechnen.
Tunnel
Die geminio-TLS-Verbindung von Edge zu Broker (Frontier). Siehe Steuerungsebene und geminio.
V
Vault
Das eingebaute Wissensbasis-Repository (github.com/ongridio/vault). Beim ersten Boot in den RAG-Store des Managers synchronisiert. Siehe Eingebauter Vault.
W
WebSSH
Browserbasierte Shell über den Tunnel. Die Edge leitet Bytes per Port-Forward an das lokale sshd weiter; der SSH-Client lebt komplett im Manager. Siehe Fähigkeiten → WebShell.
when_to_use
Ein Frontmatter-Feld von Persona / Skill / Tool, das dem Coordinator (oder dem LLM) einen einzeiligen „Wann sollte dies gewählt werden"-Entscheidungshinweis gibt. Unterschieden von description, das „was ist es" ist.
Z
Zhipu / GLM
Default-LLM-Provider in China-Netzwerk-Deployments. Modelle umfassen glm-4.7, glm-5, glm-5.1. Konfiguriert via ONGRID_ZHIPU_*-Env-Variablen.