Skip to content

소개

Ongrid 는 오픈 소스, 셀프 호스팅 가능한 운영용 AI 에이전트입니다. 모든 호스트에 가벼운 ongrid-edge 에이전트를 두면, 클라우드가 메트릭, 로그, 트레이스, 토폴로지, 소스 코드를 함께 추론하여 자연어로 근본 원인을 짚어 줍니다.

이미 Prometheus, Loki, Tempo, journald, k8s 같은 신호를 보유하고 있으나 하루 종일 손으로 이들을 엮고 있는 SRE, DevOps, 플랫폼 팀을 위해 만들어졌습니다.

무엇을 해결하나

  • 트러블슈팅 진입 장벽이 높다. 증상만 말하세요 ("왜 load 가 치솟지?", "누가 패킷을 떨구고 있지?"). 에이전트가 어떤 메트릭을 볼지, 어떤 로그를 grep 할지, 어떤 트레이스를 따라갈지 판단해 쿼리를 직접 실행합니다.
  • 알림과 근본 원인이 단절되어 있다. 알림이 발생하면 에이전트는 토폴로지를 따라 영향 범위를 파악하고, 로그와 트레이스를 상관 분석하며, "왜"의 배경에 있는 소스 코드 위치까지 짚어 줍니다 — 증상만이 아니라.
  • 신호가 흩어져 있다. 메트릭 (Prometheus), 로그 (Loki), 트레이스 (Tempo), 벡터 지식 베이스, 소스 저장소를 한 세션 안에서 통합 분석합니다 — 탭 다섯 개 사이를 복사-붙여넣기 할 필요가 없습니다.
  • 내부망을 외부에 노출하지 않는다. 모든 edge 는 아웃바운드 터널 하나로 발신합니다. 호스트에는 인바운드 포트가 없습니다. 텔레메트리 데이터 플레인컨트롤 플레인과 의도적으로 분리되어 있습니다 (architecture 참고).
  • 셀프 호스팅 가능. docker compose 한 번으로 전체 스택을 띄울 수 있고, 모델은 OpenAI 호환 엔드포인트 어디로든 가리킬 수 있습니다. 에어갭 설치 번들도 제공됩니다 — 에어갭 설치 참고.

누구를 위한 것인가

당신이 … 라면Ongrid 가 주는 것
온콜 SRE"왜 order-service 가 14:02 에 드롭되기 시작했지?" 질문에 실행된 PromQL, 실행된 LogQL, 트레이스 span, 그리고 저장소의 file:line 까지 함께 답해 줍니다.
플랫폼 엔지니어호스트 + k8s + 자체 서비스를 아우르는 단일 에이전트 표면, 확장 가능한 기능. 기본은 읽기 전용, 서명된 액션은 opt-in.
DevOps 리드Slack / Telegram / Larksuite / DingTalk / WeCom 양방향 대화. 모든 채널에서 동일한 에이전트 추론.
보안 의식이 높은 운영자Edge → frontier → manager 를 아웃바운드 geminio 터널 위에서 실행. 텔레메트리 데이터 플레인은 Loki / OTLP push 를 별도로 운반. 모든 도구 호출에 감사 로그.
셀프 호스팅 / 프라이버시 팀모든 상태가 자체 파일시스템에. 자신의 모델 가져오기 (OpenAI, Anthropic, GLM, DeepSeek, Gemini, Kimi, vLLM, OpenRouter…). 에어갭 지원.

다음과 어떻게 다른가…

…채팅 대시보드

채팅 대시보드는 검색창 둘레에 LLM 을 감싼 것에 가깝습니다. Ongrid 는 그래프 커널 기반 ReAct 에이전트입니다. coordinator 가 질문을 분해하고, 30+ 개의 호스트 / 가관측성 / 지식 기능을 호출하며, specialist 서브 에이전트 (incident-investigator, sre, network, compute, disk, ops) 를 띄우고, 단순 대화 로그가 아닌 구조화된 리포트를 돌려줍니다.

text
Ask:  "Why did the order service start dropping requests at 14:02?"

Agent:
  1. expand_topology(order-service) → 3 upstream, 5 downstream services
  2. query_promql(rate(http_500[2m])) by service → spike in payments
  3. search_logs(payments, 14:00..14:05) → "circuit breaker open"
  4. query_traceql(payments.error_rate) → 412 errors from cardholder-api
  5. read_repo(payments/circuit_breaker.go) → 5xx threshold = 3 in 30s
  6. Conclusion: payments tripped circuit on cardholder-api 5xx burst.
     Source: payments/circuit_breaker.go:42. Fix: bump threshold or
     fix cardholder-api retry budget.

…노트북 에이전트

노트북 에이전트는 샌드박스 안에서 추론합니다. Ongrid 는 인프라 내부에서 추론합니다. 기능 (skills) 은 실제 도구입니다 — bash, host_probe_*, query_promql, expand_topology, search_logs, read_repo —— edge 터널을 통해 특정 호스트에 바인딩됩니다. 모든 도구 호출은 감사 로그에 남고, 쓰기 액션은 승인 워크플로 뒤에 게이트됩니다.

…호스팅 SaaS

Ongrid 는 단일 바이너리 + docker-compose 입니다. VPS 하나, 사내 VPC, 또는 완전 에어갭에서 실행할 수 있습니다. 벤더로 보내는 사용량 텔레메트리도 없고, 호스트당 요금도 없고, 데이터 egress 도 없습니다. 라이선스는 Apache 2.0 입니다.

내부 구성

  • Cloud manager — Go 서비스. MySQL 영속화. frontier 브로커에 대한 Geminio 서비스-엔드 SDK. 그래프 커널 기반 ReAct 런타임 (ONGRID_AGENT_KERNEL=graph). 대략 10 개의 bounded-context 핸들러.
  • Edge agent (ongrid-edge) — 단일 정적 Go 바이너리에 서브 플러그인 (promtail 로그용, otelcol-contrib 트레이스용, node_exporter + process_exporter 메트릭용) 이 붙습니다. 모두 아웃바운드.
  • Web — React + Vite + TanStack Query SPA. 조직/롤별 게이팅. Monitor 패널을 위한 Grafana 임베드 내장.
  • Observability — Prometheus, Loki, Tempo, Grafana, Qdrant 가 compose 에 포함됩니다. 설정에서 매니지드 서비스로 교체 가능.

데이터 플레인 vs. 컨트롤 플레인

이것이 보안 모델을 성립시키는 구조적 약속이므로 두 번 강조합니다.

  • 컨트롤 플레인 = edge 에서 manager 로 가는 터널. 호스트당 한 개의 아웃바운드 TCP 연결을 frontier:40012 로. geminio 위에서 요청/응답이 멀티플렉싱됩니다. 호스트에는 인바운드 포트가 없습니다.
  • 데이터 플레인 = 로그 + 트레이스 인제스션. Loki push (/loki/api/v1/push) 와 OTLP push (/v1/traces) 가 manager 의 공개 URL 의 nginx 를 통해 들어갑니다. 각 요청은 nginx auth_request → manager edgeauth 로 인증이 게이트되어 등록되지 않은 호스트는 push 할 수 없습니다.

메트릭은 현재까지 push_host_metrics RPC 로 터널을 탑니다. 직접 remote_write 로의 마이그레이션은 로드맵에 있습니다. 사이드바의 Reference 아래 Telemetry data plane 항목을 참고하세요.

이 사이트의 구성

  • Quickstart — Linux 한 대에서 10 분 설치, 로그인, 첫 edge 등록, 메트릭 확인.
  • Architecture — 4-레이어 모델, edge → frontier → manager 흐름, 컨테이너 맵.
  • Concepts — edge, device, alert rule, incident, investigation, channel, persona, skill, knowledge.
  • Install — 전체 설치 경로: docker compose, edge curl-pipe, 첫 부팅 체크리스트, 업그레이드, 에어갭.
  • Channels — Slack, Telegram, Larksuite, DingTalk, WeCom, 원시 webhook.
  • Capabilities — 에이전트가 기본 제공하는 기능 (알림, RCA, monitoring, 로그, 트레이스, 토폴로지, 지식 베이스, WebShell).
  • Models — 제공자 매트릭스; 라우팅 규칙; 예산 상한 (사이드바의 Models 섹션 참고).
  • Reference — 모든 ONGRID_* 환경 변수; REST 엔드포인트; CLI; 알림 규칙 스키마; 기능 매니페스트 포맷.

라이선스 & 소스

다음 단계

Quickstart 를 한 번 끝까지 따라가 보세요. 갓 설치된 Linux 호스트에서 약 10 분이면 실제 edge 가 체크인하는 상태까지 갑니다.