Skip to content

機能概要

Ongrid は 4 レイヤーのスタックとして編成されています。この分割が存在 するのは、各レイヤーが異なる更新頻度、異なるブラスト半径、異なる監査 態勢を持つからです —— それらを潰すと、初期プロトタイプが失敗した 「あちこちに ssh する AI エージェント」アンチパターンが生まれました。

なぜ operator にとって重要か

下の横断的機能(監査、ロールゲーティング、ホットなプロバイダー スワップ、ブラスト半径ウォーク)のほとんどは 1 つの特定のレイヤーに 住みます。「X が動かない」質問があるとき、このページがそれを割り当てる レイヤーが設定の置き場所です。

4 つのレイヤー

L1 —— クラスタ

物理または仮想インフラストラクチャ:ホスト、manager プロセス、組み込みの MySQL / Prometheus / Loki / Tempo / Grafana / Qdrant スタック、双方向の geminio トンネルブローカー。

Ongrid はこのレイヤーを抽象化しません —— インベントリスキーマも CMDB も ありません。ホストは edge エージェントがホームへダイヤルしたときに 発見されます。クラスタレイヤーは「ランタイムで manager バイナリが触る すべて」です。

L2 —— Edge トンネル + デバイス直達

各ホストは 1 つの ongrid-edge バイナリを動かし、manager への単一の アウトバウンド geminio 接続を確立します。トンネルは以下を多重化します:

  • 逆 RPC —— manager → edge 呼び出しで、ホスト上のスキルを発動 (Caller.Call(ctx, edgeID, method, body)internal/manager/biz/aiops/tools/registry.go:34)。
  • WebSSH ストリーム —— 専用ストリームクラス上の対話的ターミナル トラフィック、WebShell を参照。
  • プラグインシグナリング —— どのサブプラグイン(promtailotelcolnode-exporter)を spawn するか edge に伝えるコントロール チャネル。

「デバイス直達」のアイデアが L2 を定義する賭けです:manager はサービス 抽象ではなく実ホストにアドレスします。エージェントが「edge-prod-04 で nginx を再起動」と言うとき、ちょうど 1 つのホストがコマンドを動かします。

L3 —— 知能

グラフカーネル ReAct エージェント、ツールレジストリ、ペルソナレジストリ、 ナレッジベース、LLM プロバイダールーター。完全に manager 側に居住し、 L2 とは tool bag を通してのみ話します。

主要ファイル:

L4 —— アラート

ルール評価、インシデントライフサイクル、自動 RCA ファンアウト、チャネル ルーティング、抑制。L1 が収集する Prometheus + Loki + Tempo のシグナル で駆動され、インシデント発火時に L3(investigator ペルソナ)を介して 書き戻します。

主要ファイル:

機能マトリクス

機能レイヤーページ
アラートルール(8 メトリクス + 6 ログ/トレース種別)L4アラート
インシデント発火時の自動根本原因分析L3 + L4RCA
Prometheus + Grafana 埋め込みL1モニタリング
Loki ログ検索 + ログアラートL1 + L4ログ
Tempo トレース検索 + トレースアラートL1 + L4トレース
ブラスト半径ウォーク付きサービス / デバイスグラフL3トポロジー
vault + 自前リポジトリに対する RAGL3ナレッジ
30+ のホスト / 可観測性 / ナレッジツールL2 + L3スキル
フルセッション録画付き WebSSHL2WebShell

このページでないもの

これは operator 向けの概要です。設計の理由(なぜ PromQL を正典の述語 として保ったか、なぜ edge がダイヤルアウトするか、なぜ remote_write が スクレイプより好まれるか)は GitHub リポジトリの docs/ ツリーにある ADR/HLD インデックスを参照してください。

関連