Glossaire
Termes spécifiques au projet utilisés à travers la doc et les sources. Si un terme a un traitement plus long, la page dédiée est liée.
A
Agent
Dans Ongrid, un agent est un worker LLM configuré avec un job spécifique (coordinator, incident investigator, network specialist, etc.). Chaque agent a une persona décrivant quel modèle il exécute, quels outils il peut appeler, et combien de tours ReAct il obtient. Distinct d'« edge agent » — voir Edge.
Kernel d'agent
Le runtime qui pilote la boucle ReAct d'un agent : assemblage de prompt, résolution de registre d'outils, invocation de modèle, exécution d'outil, parsing de réponse. Deux kernels existent : graph (défaut ; bâti sur eino) et legacy (boucle for). Bascule via ONGRID_AGENT_KERNEL.
Air-gappé
Un déploiement sans egress internet. Ongrid tourne entièrement offline étant donné un relais LLM local (par ex. vLLM, Ollama) et le modèle d'embedding local embarqué dans le tarball de release. Voir Air-gappé / on-prem.
B
Blast radius
L'ensemble de services ou hosts affectés par un changement ou incident. L'agent calcule ceci en parcourant le graphe de topologie (nœuds aval) avant de recommander toute action destructive.
Bounded context (BC)
Un sous-domaine du manager avec ses propres packages model, biz, data et server. Exemples : iam, edge, device, alert, aiops. Les imports à travers les BCs sont restreints aux ports d'interface ; go-arch-lint impose la frontière.
Vault intégré
Le contenu de base de connaissances par défaut embarqué à github.com/ongridio/vault. Le manager le sync au premier boot et re-sync à la demande. Repo public ; environ 96 playbooks markdown.
C
Canal
Une cible de livraison pour les notifications. Types : webhook, slack, feishu, dingtalk, wecom, telegram. Chaque canal peut être filtré par sévérité et scope. Voir Canaux.
Class (classe d'outil)
Classification de blast-radius d'un outil : safe (lecture seule), mutating (écriture réversible), dangerous (irréversible). Le champ permission_mode de la persona gate quelles classes sont appelables. Voir Manifeste de skill.
Cmdpolicy
Le sandbox côté edge qui gate les invocations du skill bash. Définit une whitelist de binaires, des matchers d'argument, des allowlists de chemin, et des allowlists réseau. Localisé sous internal/edgeagent/cmdpolicy. Lecture seule par défaut — basculer vers mutating nécessite des éditions de politique explicites.
Plan de contrôle
Le tunnel geminio. Porte le cycle de vie d'edge, RPC, heartbeats, événements d'alerte, et (aujourd'hui) push de métriques. Voir Plan de données.
Coordinator
L'agent racine qui décompose les questions utilisateur, dispatche les sous-agents specialist, et assemble la réponse finale. Nom de persona : coordinator. Voir Coordinator.
D
Plan de données
Le chemin HTTPS sortant indépendant que les edges utilisent pour livrer les logs et traces directement aux endpoints d'ingest publics du manager — distinct du tunnel (plan de contrôle). Voir Plan de données de télémétrie.
Clé de dédoublonnage
Clé par-règle, par-scope que l'evaluator d'alerte utilise pour collapsing les firings répétés en un seul incident ouvert. Construite depuis rule_key + scope_type + identifiant de scope + (dimensions spécifiques à la règle optionnelles). Index unique sur alert_incidents.dedupe_key.
Device
Un host logique. Distinct d'edge, qui est le processus d'agent connecté au tunnel. Un device peut avoir zéro ou plusieurs edges (s'il est réinstallé). Le device_id est la clé de join canonique dans les labels PromQL et les nœuds de topologie.
E
Edge
Le processus d'agent connecté au tunnel — ongrid-edge. Identifié par edge_id. Un edge par processus d'agent tournant ; un device peut héberger plusieurs edges au cours de sa vie (après réinstalls). Règle d'affichage : la page Edges liste les agents ; la page Devices liste les hosts.
Bundle edge
Le tarball que le manager livre à un edge pour l'upgrade de bundle entier (ADR-024). Contient le binaire agent plus chaque binaire de plugin, tous pour l'arch cible. Staged dans /var/lib/ongrid-edge/.upgrade/ et swappé au prochain boot.
eino
La bibliothèque de kernel de graphe qu'Ongrid utilise pour la boucle ReAct de l'agent (ONGRID_AGENT_KERNEL=graph). Fournit les primitives d'assemblage de prompt, tool-call et exécution de graphe.
F
Frontier
Le broker geminio upstream (github.com/singchia/frontier, ADR-007). L'edge compose le port 40012 ; le manager compose le port 40011 sur le réseau docker. Livré comme image docker embarquée dans le tarball de release.
G
geminio
Le protocole de tunnel multi-stream basé TLS (github.com/singchia/geminio) que le broker frontier d'Ongrid implémente. Supporte RPC requête/réponse + streams bruts sur une seule connexion TLS persistante.
Embed Grafana
La page Monitor rend des panels Grafana via iframe (URLs solo-mode) sous /grafana/.... nginx fronte à la fois l'API du manager et l'embed Grafana sur la même origine ; l'iframe est autorisée via GF_SECURITY_ALLOW_EMBEDDING=true.
H
Health (plugin)
L'état runtime rapporté par le superviseur d'un plugin edge : running, crashed, starting, stopping. Présent via GET /v1/edges/{id}/plugins et sur la page Edges à côté de chaque toggle de plugin.
I
Pont IM
Le bounded context qui connecte le chat Ongrid aux plateformes IM externes (Slack, Telegram, Lark, DingTalk, WeCom). Une ligne dans im_apps par app enregistrée. Les événements entrants sur /v1/im/<provider>/events sont convertis en sessions de chat.
Incident
Une alerte qui part. Un incident par tuple (règle, scope), dédoublonné via la clé de dédoublonnage. A un cycle de vie (open → acknowledged → resolved), une timeline d'événements, et optionnellement un rapport d'investigation généré par IA.
J
join_mode
Champ de règle : all ou any. Détermine si chaque entrée dans conditions[] doit matcher pour que la règle parte (défaut all) ou n'importe laquelle (any).
K
Kind (type de règle)
Le discriminateur qui pilote quel sub-evaluator tourne sur les conditions d'une règle. Phase-A : metric_raw, metric_anomaly, metric_forecast, metric_burn_rate. Phase-B : log_match, log_volume, trace_latency, trace_error_rate. Plus le kind d'input UI-only metric_threshold. Voir Schéma de règle d'alerte.
L
Loki
Le store de logs de Grafana (ADR-012). Embarqué dans la stack compose comme loki:3.4.0. Les edges poussent via le plan de données ; le manager interroge via /v1/logs/query_range.
M
Marketplace
Le système de distribution de skill-packs (ADR-017). Un pack est un répertoire de skills + agents + un manifeste. Installer via POST /v1/marketplace/install. Les registries pointent vers des indexes hostés en HTTPS.
Mention
La syntaxe d'autocomplete @edge, @device, @dashboard, @incident dans la boîte de chat. Le manager les résout en contexte structuré avant d'envoyer le message au LLM.
N
NotifyWindowSeconds / NotifyMinFires
Paire de dampening de notification par règle. Une règle qui part moins de NotifyMinFires fois à l'intérieur du NotifyWindowSeconds traînant écrit un événement repeat_suppressed mais n'envoie pas de notification. Voir Schéma de règle d'alerte.
O
OTLP
OpenTelemetry Protocol — le format wire que les edges utilisent pour livrer les traces (via otelcol-contrib) à l'endpoint /v1/traces du manager.
otelcol-contrib
La distribution contrib d'OpenTelemetry Collector. Embarquée dans le tarball de release comme plugin traces. Sous-processus géré par le superviseur de plugin de l'agent.
P
Persona
La définition de comportement d'un agent — un fichier markdown avec frontmatter YAML (name, description, when_to_use, tools, model, permission_mode, system prompt). Voir Format de persona d'agent.
Embedding pluggable
Le pipeline RAG supporte trois providers d'embedding : zhipu (défaut, API embedding GLM), openai, et local (modèle bge sur disque). Bascule via ONGRID_EMBEDDING_PROVIDER.
Plugin (plugin edge)
Un sous-processus géré par le superviseur de l'agent edge : promtail (logs), node_exporter (métriques host), process_exporter (métriques proc), otelcol-contrib (traces). Configuré via PUT /v1/edges/{id}/plugins/{name}.
promtail
Le shipper de logs de Grafana. Embarqué dans le tarball de release comme plugin logs. Sous-processus de l'agent edge.
push_prom_samples
Le RPC de push de métriques côté tunnel. Porte les samples de métriques d'edge vers le Prom cloud du manager. Aujourd'hui sur le plan de contrôle ; potentiellement déplacé vers le plan de données — voir les déclencheurs de migration dans Plan de données de télémétrie.
Q
query_promql / query_traceql / search_logs
Trois des outils d'observabilité de base que l'agent peut appeler. Ils proxify à travers le manager vers Prom / Tempo / Loki respectivement, renvoyant des résultats structurés sur lesquels le LLM peut raisonner.
R
RAG
Retrieval-Augmented Generation. La base de connaissances d'Ongrid (vault + repos + docs uploadés) est indexée dans Qdrant ; les requêtes à l'agent récupèrent automatiquement les top-k chunks. Voir Capacités → Base de connaissances.
RCA
Root Cause Analysis. Le pipeline d'investigation de l'agent qui parcourt d'un symptôme d'alerte à travers topologie + métriques + logs + traces + source vers une déclaration de cause vérifiable.
ReAct
La boucle « Reason + Act » : l'agent pense (assemble un plan d'outils), agit (appelle un outil), observe (lit le résultat), puis boucle. Bornée par max_turns sur la persona.
Rule key
Identifiant stable lower_snake pour une règle d'alerte. Utilisé dans les clés de dédoublonnage et incident.rule. Unique à travers les lignes non soft-deletées.
S
Scope type
Champ de règle : host, global, ou monitoring_pipeline. Détermine la dimension de groupement de l'evaluator. host produit un incident par device_id ; global produit un incident system-wide ; monitoring_pipeline est pour les règles internes de santé du pipeline.
Sévérité
Plancher de sévérité alerte / canal : info, warning, critical. Un match_severity_min=warning de canal accepte warning + critical ; critical n'accepte que critical.
Skill
Un outil que l'agent peut appeler. Soit intégré (compilé dans le binaire) soit externe (sous-processus avec un manifeste skill.json). Les deux vivent dans le même registre ; le LLM ne distingue pas. Voir Manifeste de skill.
SOP (dual-sign)
Le flux de confirmation à deux étapes pour les appels d'outils dangerous. La persona doit avoir permission_mode: dual-sign-required ; le runtime présente l'appel planifié pour revue, puis exécute seulement après confirmation explicite.
Specialist
Une persona d'agent non-coordinator — incident investigator, network, compute, disk, SRE. Le coordinator en choisit un en matchant la requête de l'utilisateur contre le champ when_to_use de chaque persona. Voir Specialists.
T
Tempo
Le store de traces de Grafana (ADR-013). Embarqué comme tempo:2.5.0. Les edges poussent via OTLP ; le manager interroge via TraceQL.
Tenant
Une frontière d'isolation logique (org + membres). Mono-tenant dans le MVP open-source — la logique tenant existe dans le schéma mais évalue à « tout le monde dans le même tenant » jusqu'à ce que les features multi-tenant sortent.
Tool
La poignée présentée au LLM d'un skill. Un skill peut déclarer plusieurs outils (via la liste tools: de SKILL.md). Au runtime, chaque outil a un nom, une description, un JSON Schema, une class et un hint when_to_use.
ToolBag deferral
Optimisation pour les gros registres de skills. Quand le compte d'outils dépasse ONGRID_TOOLBAG_DEFERRAL_THRESHOLD (défaut 30), les outils de tier specialty reçoivent des schémas redacted dans le prompt. Le LLM doit appeler ToolSearch pour expand un outil redacted avant de l'utiliser. Économise des tokens de prompt.
Topologie
Le CMDB typé (nœuds + relations) sous internal/manager/server/topology. Les nœuds ont un type (service, host, database, queue, ...) avec un schéma ; les relations ont un type (depends_on, runs_on, served_by). L'agent parcourt la topologie pour calculer le blast radius.
Tunnel
La connexion TLS geminio de l'edge au broker (frontier). Voir Plan de contrôle et geminio.
V
Vault
Le dépôt de base de connaissances intégré (github.com/ongridio/vault). Synced au store RAG du manager au premier boot. Voir Vault intégré.
W
WebSSH
Shell présenté au navigateur sur le tunnel. L'edge port-forward les octets au sshd local ; le client SSH vit entièrement dans le manager. Voir Capacités → WebShell.
when_to_use
Un champ de frontmatter de persona / skill / tool qui donne au coordinator (ou au LLM) un hint de décision d'une ligne « quand devrait-on choisir ceci ». Distinct de description qui est « ce que c'est ».
Z
Zhipu / GLM
Provider LLM par défaut dans les déploiements en réseau chinois. Les modèles incluent glm-4.7, glm-5, glm-5.1. Configuré via les variables d'env ONGRID_ZHIPU_*.