Skip to content

DeepSeek

TL;DR

bash
ONGRID_DEEPSEEK_API_KEY=sk-...
ONGRID_DEEPSEEK_MODEL=deepseek-v4-flash     # default
ONGRID_DEEPSEEK_BASE_URL=                   # optional; defaults to api.deepseek.com/v1

Provider id: deepseek. SDK adapter: OpenAI-совместимый.

Семейство V4 DeepSeek — дешёвый-и-быстрый вариант. Эндпоинт — OpenAI-совместимый на wire-уровне.

Env-переменные

VarПо умолчаниюЗаметки
ONGRID_DEEPSEEK_API_KEYПусто = provider выпадает
ONGRID_DEEPSEEK_MODELdeepseek-v4-flashДефолтная модель
ONGRID_DEEPSEEK_BASE_URLhttps://api.deepseek.com/v1Override для VPC-эндпоинтов
ONGRID_DEEPSEEK_MODELSdeepseek-v4-pro,deepseek-v4-flash,deepseek-reasonerКаталог-список

Дефолтный каталог

  • deepseek-v4-pro — топ семейства V4; ближе всего к frontier- качеству за часть стоимости.
  • deepseek-v4-flash — каталог-дефолт; рекомендуется для chat.
  • deepseek-reasoner — chain-of-thought variant. См. особенности ниже.

Caveats deepseek-reasoner

deepseek-reasoner эмитит блок <thinking>...</thinking> до своего финального ответа. Ongrid LLM-адаптер НЕ срезает их — они показываются в chat-транскрипте и в RCA-отчёте findings_md.

Если вы не хотите, чтобы thinking-блоки рендерились:

  1. Используйте другую модель для chat (deepseek-v4-pro).
  2. Или post-process транскрипт CSS-правилом, которое скрывает details[open] > summary:contains("thinking") — SPA оборачивает их в collapsible <details> по умолчанию.

Ответ reasoner медленнее, чем v4-flash (chain-of- thought — это реальный compute). Не используйте его для Pass-2 structured extractor — таймаут попадётся.

Сделать DeepSeek дефолтным

bash
ONGRID_LLM_DEFAULT_PROVIDER=deepseek

Agent runtime авто-выбирает default-resolver-provided модель для вызовов персоны investigator; это значит, переключение default на DeepSeek немедленно маршрутизирует все auto-RCA туда — за гораздо более низкую стоимость чем Claude / GPT для схожего качества на структурно-extraction половине конвейера.

BaseURL

Эндпоинт api.deepseek.com/v1 глобально достижим. Нет China-based тега в SPA. Используйте BaseURL override только для relays.

Особенности

  • OpenAI-совместимый wire — flat tool_calls, OpenAI streaming формат. Адаптер тот же, что и для Custom / Zhipu / Kimi / Gemini-OAI-режима.
  • Длинный контекст — V4 поддерживает 64k токенов; Ongrid budget estimator использует консервативный len(text)/4, так что вы увидите budget reject до того, как реально упрётесь в model-лимит.

См. также