Skip to content

はじめに

Ongrid は オープンソースかつセルフホスト可能な運用向け AI エージェント です。軽量な ongrid-edge エージェントを各ホストに配置すると、クラウド側がメトリクス、ログ、トレース、 トポロジー、ソースコードを横断的に推論し、根本原因を自然言語で特定します。

Prometheus、Loki、Tempo、journald、k8s といったシグナルを既に持っているものの、 毎日それらを手作業でつなぎ合わせている SRE、DevOps、プラットフォームチーム向けに設計されています。

解決する課題

  • トラブルシューティングのハードルが高い。 症状(「なぜ負荷が急上昇しているのか?」 「誰がパケットを落としているのか?」)を述べるだけで、エージェントが どのメトリクスを見るか、どのログを grep するか、どのトレースをたどるかを判断し、 クエリを実行します。
  • アラートと根本原因が結びついていない。 アラート発生時にエージェントは トポロジーをたどって影響範囲を調べ、ログとトレースを相関させ、症状ではなく 「なぜ」の背後にある ソースコード上の位置 まで特定します。
  • シグナルが散在している。 メトリクス(Prometheus)、ログ(Loki)、 トレース(Tempo)、ベクトルナレッジベース、そしてソースリポジトリが 単一のセッション内で統合・分析されます —— 5 つのタブをコピペで往復する必要はありません。
  • イントラネットの露出がない。 各 edge は 1 本のトンネルで アウトバウンド に ダイヤルし、ホストにインバウンドポートは一切開きません。テレメトリの データプレーンコントロールプレーン から意図的に分離されています (アーキテクチャ を参照)。
  • セルフホスト可能。 docker compose 一発でフルスタックが立ち上がり、 任意の OpenAI 互換エンドポイントにモデルを向けられます。エアギャップ用の インストールバンドルもあります —— エアギャップインストール を参照。

対象ユーザー

あなたが…Ongrid が提供するもの
オンコール SRE「14:02 に order-service がドロップし始めたのはなぜか?」に対し、実行された PromQL、LogQL、トレーススパン、原因となったリポジトリの file:line まで含めて回答。
プラットフォームエンジニアホスト + k8s + 自社サービスにまたがる単一のエージェント窓口と、拡張可能なスキル。デフォルトは読み取り専用、署名付きアクションは opt-in。
DevOps リードSlack / Telegram / Larksuite / DingTalk / WeCom 上の双方向会話。すべてのチャネルで同じエージェント推論。
セキュリティ重視のオペレーターedge → frontier → manager がアウトバウンド geminio トンネル上を流れる。テレメトリのデータプレーンは Loki / OTLP push を別経路で運ぶ。すべてのツール呼び出しが監査ログに残る。
セルフホスト / プライバシーチームすべての状態が自分のファイルシステム上。任意のモデル持ち込み(OpenAI、Anthropic、GLM、DeepSeek、Gemini、Kimi、vLLM、OpenRouter…)。エアギャップ対応。

何が違うのか

…チャットダッシュボードと

チャットダッシュボードは検索ボックスを LLM でラップしただけです。Ongrid は グラフカーネル ReAct エージェント です。coordinator が質問を分解し、 30 以上のホスト / 可観測性 / ナレッジスキルを呼び、specialist サブエージェント (incident-investigatorsrenetworkcomputediskops)を起動し、 対話ログではなく構造化レポートを返します。

text
Ask:  "Why did the order service start dropping requests at 14:02?"

Agent:
  1. expand_topology(order-service) → 3 upstream, 5 downstream services
  2. query_promql(rate(http_500[2m])) by service → spike in payments
  3. search_logs(payments, 14:00..14:05) → "circuit breaker open"
  4. query_traceql(payments.error_rate) → 412 errors from cardholder-api
  5. read_repo(payments/circuit_breaker.go) → 5xx threshold = 3 in 30s
  6. Conclusion: payments tripped circuit on cardholder-api 5xx burst.
     Source: payments/circuit_breaker.go:42. Fix: bump threshold or
     fix cardholder-api retry budget.

…ノートブックエージェントと

ノートブックエージェントはサンドボックス内で推論します。Ongrid は インフラの中で 推論します。スキルは bashhost_probe_*query_promqlexpand_topologysearch_logsread_repo といった 実ツールであり、edge トンネル経由で特定のホストにバインドされています。 すべてのツール呼び出しが監査ログに残り、書き込みアクションは承認ワークフローでゲートされます。

…ホスト型 SaaS と

Ongrid はシングルバイナリ + docker-compose です。1 台の VPS、自社 VPC、 あるいは完全エアギャップで運用できます。ベンダーへの利用状況テレメトリはなく、 ホスト単価もデータエグレスもありません。ライセンスは Apache 2.0 です。

構成要素

  • Cloud manager —— Go サービス。MySQL で永続化。frontier ブローカーへの geminio service-end SDK。グラフカーネル ReAct ランタイム (ONGRID_AGENT_KERNEL=graph)。約 10 個の bounded-context ハンドラー。
  • Edge エージェント(ongrid-edge —— 単一の静的 Go バイナリ + サブプラグイン (ログ用 promtail、トレース用 otelcol-contrib、メトリクス用 node_exporter + process_exporter)。すべてアウトバウンド。
  • Web —— React + Vite + TanStack Query SPA。組織別 / ロール別のゲーティング。 Monitor パネル用に Grafana を埋め込み。
  • 可観測性 —— Prometheus、Loki、Tempo、Grafana、Qdrant が compose に同梱。 Settings から任意のマネージドサービスに差し替え可能。

データプレーン vs. コントロールプレーン

セキュリティを成立させる根幹のアーキテクチャ上の取り決めなので、二度説明します。

  • コントロールプレーン = edge から manager へのトンネル。ホストごとに frontier:40012 へのアウトバウンド TCP 接続 1 本。geminio 上で リクエスト / レスポンスを多重化。ホストにインバウンドポートなし。
  • データプレーン = ログ + トレースの取り込み。Loki push (/loki/api/v1/push)と OTLP push(/v1/traces)は manager の 公開 URL にある nginx を経由。各リクエストは nginx auth_request → manager edgeauth で認証ゲートされ、 未登録のホストは push できません。

メトリクスは現状まだ push_host_metrics RPC としてトンネル上を流れています。 直接 remote_write への移行はロードマップ上にあります。サイドバーの Reference 配下にある Telemetry data plane のエントリを参照してください。

このサイトでカバーする内容

  • クイックスタート —— 単一の Linux マシン上で 10 分インストール。サインインし、最初の edge を登録し、メトリクスを確認。
  • アーキテクチャ —— 4 レイヤーモデル、 edge → frontier → manager の流れ、コンテナマップ。
  • コンセプト —— edge、device、alert rule、incident、investigation、channel、persona、skill、knowledge。
  • インストール —— 完全なインストール手順: docker compose、edge の curl-pipe、初回起動チェックリスト、アップグレード、エアギャップ。
  • チャネル —— Slack、Telegram、Larksuite、 DingTalk、WeCom、生 webhook。
  • 機能 —— 標準でエージェントが持つスキル (アラート、RCA、モニタリング、ログ、トレース、トポロジー、ナレッジ、WebShell)。
  • モデル —— プロバイダーマトリクス、ルーティングルール、バジェット上限 (サイドバーの Models セクション参照)。
  • リファレンス —— すべての ONGRID_* 環境変数、 REST エンドポイント、CLI、alert rule スキーマ、skill マニフェスト形式。

ライセンス & ソース

次のステップ

クイックスタート を進めてください —— 新しい Linux マシンで約 10 分、実 edge がチェックインするところまで進みます。