Glossaire

Termes spécifiques au projet utilisés à travers la doc et les sources. Si un terme a un traitement plus long, la page dédiée est liée.

A

Agent

Dans Ongrid, un agent est un worker LLM configuré avec un job spécifique (coordinator, incident investigator, network specialist, etc.). Chaque agent a une persona décrivant quel modèle il exécute, quels outils il peut appeler, et combien de tours ReAct il obtient. Distinct d'« edge agent » — voir Edge.

Kernel d'agent

Le runtime qui pilote la boucle ReAct d'un agent : assemblage de prompt, résolution de registre d'outils, invocation de modèle, exécution d'outil, parsing de réponse. Deux kernels existent : graph (défaut ; bâti sur eino) et legacy (boucle for). Bascule via ONGRID_AGENT_KERNEL.

Air-gappé

Un déploiement sans egress internet. Ongrid tourne entièrement offline étant donné un relais LLM local (par ex. vLLM, Ollama) et le modèle d'embedding local embarqué dans le tarball de release. Voir Air-gappé / on-prem.

B

Blast radius

L'ensemble de services ou hosts affectés par un changement ou incident. L'agent calcule ceci en parcourant le graphe de topologie (nœuds aval) avant de recommander toute action destructive.

Bounded context (BC)

Un sous-domaine du manager avec ses propres packages model, biz, data et server. Exemples : iam, edge, device, alert, aiops. Les imports à travers les BCs sont restreints aux ports d'interface ; go-arch-lint impose la frontière.

Vault intégré

Le contenu de base de connaissances par défaut embarqué à github.com/ongridio/vault. Le manager le sync au premier boot et re-sync à la demande. Repo public ; environ 96 playbooks markdown.

C

Canal

Une cible de livraison pour les notifications. Types : webhook, slack, feishu, dingtalk, wecom, telegram. Chaque canal peut être filtré par sévérité et scope. Voir Canaux.

Class (classe d'outil)

Classification de blast-radius d'un outil : safe (lecture seule), mutating (écriture réversible), dangerous (irréversible). Le champ permission_mode de la persona gate quelles classes sont appelables. Voir Manifeste de skill.

Cmdpolicy

Le sandbox côté edge qui gate les invocations du skill bash. Définit une whitelist de binaires, des matchers d'argument, des allowlists de chemin, et des allowlists réseau. Localisé sous internal/edgeagent/cmdpolicy. Lecture seule par défaut — basculer vers mutating nécessite des éditions de politique explicites.

Plan de contrôle

Le tunnel geminio. Porte le cycle de vie d'edge, RPC, heartbeats, événements d'alerte, et (aujourd'hui) push de métriques. Voir Plan de données.

Coordinator

L'agent racine qui décompose les questions utilisateur, dispatche les sous-agents specialist, et assemble la réponse finale. Nom de persona : coordinator. Voir Coordinator.

D

Plan de données

Le chemin HTTPS sortant indépendant que les edges utilisent pour livrer les logs et traces directement aux endpoints d'ingest publics du manager — distinct du tunnel (plan de contrôle). Voir Plan de données de télémétrie.

Clé de dédoublonnage

Clé par-règle, par-scope que l'evaluator d'alerte utilise pour collapsing les firings répétés en un seul incident ouvert. Construite depuis rule_key + scope_type + identifiant de scope + (dimensions spécifiques à la règle optionnelles). Index unique sur alert_incidents.dedupe_key.

Device

Un host logique. Distinct d'edge, qui est le processus d'agent connecté au tunnel. Un device peut avoir zéro ou plusieurs edges (s'il est réinstallé). Le device_id est la clé de join canonique dans les labels PromQL et les nœuds de topologie.

E

Edge

Le processus d'agent connecté au tunnel — ongrid-edge. Identifié par edge_id. Un edge par processus d'agent tournant ; un device peut héberger plusieurs edges au cours de sa vie (après réinstalls). Règle d'affichage : la page Edges liste les agents ; la page Devices liste les hosts.

Bundle edge

Le tarball que le manager livre à un edge pour l'upgrade de bundle entier (ADR-024). Contient le binaire agent plus chaque binaire de plugin, tous pour l'arch cible. Staged dans /var/lib/ongrid-edge/.upgrade/ et swappé au prochain boot.

eino

La bibliothèque de kernel de graphe qu'Ongrid utilise pour la boucle ReAct de l'agent (ONGRID_AGENT_KERNEL=graph). Fournit les primitives d'assemblage de prompt, tool-call et exécution de graphe.

F

Frontier

Le broker geminio upstream (github.com/singchia/frontier, ADR-007). L'edge compose le port 40012 ; le manager compose le port 40011 sur le réseau docker. Livré comme image docker embarquée dans le tarball de release.

G

geminio

Le protocole de tunnel multi-stream basé TLS (github.com/singchia/geminio) que le broker frontier d'Ongrid implémente. Supporte RPC requête/réponse + streams bruts sur une seule connexion TLS persistante.

Embed Grafana

La page Monitor rend des panels Grafana via iframe (URLs solo-mode) sous /grafana/.... nginx fronte à la fois l'API du manager et l'embed Grafana sur la même origine ; l'iframe est autorisée via GF_SECURITY_ALLOW_EMBEDDING=true.

H

Health (plugin)

L'état runtime rapporté par le superviseur d'un plugin edge : running, crashed, starting, stopping. Présent via GET /v1/edges/{id}/plugins et sur la page Edges à côté de chaque toggle de plugin.

I

Pont IM

Le bounded context qui connecte le chat Ongrid aux plateformes IM externes (Slack, Telegram, Lark, DingTalk, WeCom). Une ligne dans im_apps par app enregistrée. Les événements entrants sur /v1/im/<provider>/events sont convertis en sessions de chat.

Incident

Une alerte qui part. Un incident par tuple (règle, scope), dédoublonné via la clé de dédoublonnage. A un cycle de vie (open → acknowledged → resolved), une timeline d'événements, et optionnellement un rapport d'investigation généré par IA.

J

join_mode

Champ de règle : all ou any. Détermine si chaque entrée dans conditions[] doit matcher pour que la règle parte (défaut all) ou n'importe laquelle (any).

K

Kind (type de règle)

Le discriminateur qui pilote quel sub-evaluator tourne sur les conditions d'une règle. Phase-A : metric_raw, metric_anomaly, metric_forecast, metric_burn_rate. Phase-B : log_match, log_volume, trace_latency, trace_error_rate. Plus le kind d'input UI-only metric_threshold. Voir Schéma de règle d'alerte.

L

Loki

Le store de logs de Grafana (ADR-012). Embarqué dans la stack compose comme loki:3.4.0. Les edges poussent via le plan de données ; le manager interroge via /v1/logs/query_range.

M

Marketplace

Le système de distribution de skill-packs (ADR-017). Un pack est un répertoire de skills + agents + un manifeste. Installer via POST /v1/marketplace/install. Les registries pointent vers des indexes hostés en HTTPS.

Mention

La syntaxe d'autocomplete @edge, @device, @dashboard, @incident dans la boîte de chat. Le manager les résout en contexte structuré avant d'envoyer le message au LLM.

N

NotifyWindowSeconds / NotifyMinFires

Paire de dampening de notification par règle. Une règle qui part moins de NotifyMinFires fois à l'intérieur du NotifyWindowSeconds traînant écrit un événement repeat_suppressed mais n'envoie pas de notification. Voir Schéma de règle d'alerte.

O

OTLP

OpenTelemetry Protocol — le format wire que les edges utilisent pour livrer les traces (via otelcol-contrib) à l'endpoint /v1/traces du manager.

otelcol-contrib

La distribution contrib d'OpenTelemetry Collector. Embarquée dans le tarball de release comme plugin traces. Sous-processus géré par le superviseur de plugin de l'agent.

P

Persona

La définition de comportement d'un agent — un fichier markdown avec frontmatter YAML (name, description, when_to_use, tools, model, permission_mode, system prompt). Voir Format de persona d'agent.

Embedding pluggable

Le pipeline RAG supporte trois providers d'embedding : zhipu (défaut, API embedding GLM), openai, et local (modèle bge sur disque). Bascule via ONGRID_EMBEDDING_PROVIDER.

Plugin (plugin edge)

Un sous-processus géré par le superviseur de l'agent edge : promtail (logs), node_exporter (métriques host), process_exporter (métriques proc), otelcol-contrib (traces). Configuré via PUT /v1/edges/{id}/plugins/{name}.

promtail

Le shipper de logs de Grafana. Embarqué dans le tarball de release comme plugin logs. Sous-processus de l'agent edge.

push_prom_samples

Le RPC de push de métriques côté tunnel. Porte les samples de métriques d'edge vers le Prom cloud du manager. Aujourd'hui sur le plan de contrôle ; potentiellement déplacé vers le plan de données — voir les déclencheurs de migration dans Plan de données de télémétrie.

Q

query_promql / query_traceql / search_logs

Trois des outils d'observabilité de base que l'agent peut appeler. Ils proxify à travers le manager vers Prom / Tempo / Loki respectivement, renvoyant des résultats structurés sur lesquels le LLM peut raisonner.

R

RAG

Retrieval-Augmented Generation. La base de connaissances d'Ongrid (vault + repos + docs uploadés) est indexée dans Qdrant ; les requêtes à l'agent récupèrent automatiquement les top-k chunks. Voir Capacités → Base de connaissances.

RCA

Root Cause Analysis. Le pipeline d'investigation de l'agent qui parcourt d'un symptôme d'alerte à travers topologie + métriques + logs + traces + source vers une déclaration de cause vérifiable.

ReAct

La boucle « Reason + Act » : l'agent pense (assemble un plan d'outils), agit (appelle un outil), observe (lit le résultat), puis boucle. Bornée par max_turns sur la persona.

Rule key

Identifiant stable lower_snake pour une règle d'alerte. Utilisé dans les clés de dédoublonnage et incident.rule. Unique à travers les lignes non soft-deletées.

S

Scope type

Champ de règle : host, global, ou monitoring_pipeline. Détermine la dimension de groupement de l'evaluator. host produit un incident par device_id ; global produit un incident system-wide ; monitoring_pipeline est pour les règles internes de santé du pipeline.

Sévérité

Plancher de sévérité alerte / canal : info, warning, critical. Un match_severity_min=warning de canal accepte warning + critical ; critical n'accepte que critical.

Skill

Un outil que l'agent peut appeler. Soit intégré (compilé dans le binaire) soit externe (sous-processus avec un manifeste skill.json). Les deux vivent dans le même registre ; le LLM ne distingue pas. Voir Manifeste de skill.

SOP (dual-sign)

Le flux de confirmation à deux étapes pour les appels d'outils dangerous. La persona doit avoir permission_mode: dual-sign-required ; le runtime présente l'appel planifié pour revue, puis exécute seulement après confirmation explicite.

Specialist

Une persona d'agent non-coordinator — incident investigator, network, compute, disk, SRE. Le coordinator en choisit un en matchant la requête de l'utilisateur contre le champ when_to_use de chaque persona. Voir Specialists.

T

Tempo

Le store de traces de Grafana (ADR-013). Embarqué comme tempo:2.5.0. Les edges poussent via OTLP ; le manager interroge via TraceQL.

Tenant

Une frontière d'isolation logique (org + membres). Mono-tenant dans le MVP open-source — la logique tenant existe dans le schéma mais évalue à « tout le monde dans le même tenant » jusqu'à ce que les features multi-tenant sortent.

Tool

La poignée présentée au LLM d'un skill. Un skill peut déclarer plusieurs outils (via la liste tools: de SKILL.md). Au runtime, chaque outil a un nom, une description, un JSON Schema, une class et un hint when_to_use.

ToolBag deferral

Optimisation pour les gros registres de skills. Quand le compte d'outils dépasse ONGRID_TOOLBAG_DEFERRAL_THRESHOLD (défaut 30), les outils de tier specialty reçoivent des schémas redacted dans le prompt. Le LLM doit appeler ToolSearch pour expand un outil redacted avant de l'utiliser. Économise des tokens de prompt.

Topologie

Le CMDB typé (nœuds + relations) sous internal/manager/server/topology. Les nœuds ont un type (service, host, database, queue, ...) avec un schéma ; les relations ont un type (depends_on, runs_on, served_by). L'agent parcourt la topologie pour calculer le blast radius.

Tunnel

La connexion TLS geminio de l'edge au broker (frontier). Voir Plan de contrôle et geminio.

V

Vault

Le dépôt de base de connaissances intégré (github.com/ongridio/vault). Synced au store RAG du manager au premier boot. Voir Vault intégré.

W

WebSSH

Shell présenté au navigateur sur le tunnel. L'edge port-forward les octets au sshd local ; le client SSH vit entièrement dans le manager. Voir Capacités → WebShell.

when_to_use

Un champ de frontmatter de persona / skill / tool qui donne au coordinator (ou au LLM) un hint de décision d'une ligne « quand devrait-on choisir ceci ». Distinct de description qui est « ce que c'est ».

Z

Zhipu / GLM

Provider LLM par défaut dans les déploiements en réseau chinois. Les modèles incluent glm-4.7, glm-5, glm-5.1. Configuré via les variables d'env ONGRID_ZHIPU_*.

Glossaire ​

A ​

Agent ​

Kernel d'agent ​

Air-gappé ​

B ​

Blast radius ​

Bounded context (BC) ​

Vault intégré ​

C ​

Canal ​

Class (classe d'outil) ​

Cmdpolicy ​

Plan de contrôle ​

Coordinator ​

D ​

Plan de données ​

Clé de dédoublonnage ​

Device ​

E ​

Edge ​

Bundle edge ​

eino ​

F ​

Frontier ​

G ​

geminio ​

Embed Grafana ​

H ​

Health (plugin) ​

I ​

Pont IM ​

Incident ​

J ​

join_mode ​

K ​

Kind (type de règle) ​

L ​

Loki ​

M ​

Marketplace ​

Mention ​

N ​

NotifyWindowSeconds / NotifyMinFires ​

O ​

OTLP ​

otelcol-contrib ​

P ​

Persona ​

Embedding pluggable ​

Plugin (plugin edge) ​

promtail ​

push_prom_samples ​

Q ​

query_promql / query_traceql / search_logs ​

R ​

RAG ​

RCA ​

ReAct ​

Rule key ​

S ​

Scope type ​

Sévérité ​

Skill ​

SOP (dual-sign) ​

Specialist ​

T ​

Tempo ​

Tenant ​

Tool ​

ToolBag deferral ​

Topologie ​

Tunnel ​

V ​

Vault ​

W ​

WebSSH ​

when_to_use ​

Z ​

Zhipu / GLM ​