DeepSeek
TL;DR
ONGRID_DEEPSEEK_API_KEY=sk-...
ONGRID_DEEPSEEK_MODEL=deepseek-v4-flash # default
ONGRID_DEEPSEEK_BASE_URL= # optional; defaults to api.deepseek.com/v1Provider id: deepseek. SDK adapter: OpenAI-совместимый.
Семейство V4 DeepSeek — дешёвый-и-быстрый вариант. Эндпоинт — OpenAI-совместимый на wire-уровне.
Env-переменные
| Var | По умолчанию | Заметки |
|---|---|---|
ONGRID_DEEPSEEK_API_KEY | — | Пусто = provider выпадает |
ONGRID_DEEPSEEK_MODEL | deepseek-v4-flash | Дефолтная модель |
ONGRID_DEEPSEEK_BASE_URL | https://api.deepseek.com/v1 | Override для VPC-эндпоинтов |
ONGRID_DEEPSEEK_MODELS | deepseek-v4-pro,deepseek-v4-flash,deepseek-reasoner | Каталог-список |
Дефолтный каталог
deepseek-v4-pro— топ семейства V4; ближе всего к frontier- качеству за часть стоимости.deepseek-v4-flash— каталог-дефолт; рекомендуется для chat.deepseek-reasoner— chain-of-thought variant. См. особенности ниже.
Caveats deepseek-reasoner
deepseek-reasoner эмитит блок <thinking>...</thinking> до своего финального ответа. Ongrid LLM-адаптер НЕ срезает их — они показываются в chat-транскрипте и в RCA-отчёте findings_md.
Если вы не хотите, чтобы thinking-блоки рендерились:
- Используйте другую модель для chat (
deepseek-v4-pro). - Или post-process транскрипт CSS-правилом, которое скрывает
details[open] > summary:contains("thinking")— SPA оборачивает их в collapsible<details>по умолчанию.
Ответ reasoner медленнее, чем v4-flash (chain-of- thought — это реальный compute). Не используйте его для Pass-2 structured extractor — таймаут попадётся.
Сделать DeepSeek дефолтным
ONGRID_LLM_DEFAULT_PROVIDER=deepseekAgent runtime авто-выбирает default-resolver-provided модель для вызовов персоны investigator; это значит, переключение default на DeepSeek немедленно маршрутизирует все auto-RCA туда — за гораздо более низкую стоимость чем Claude / GPT для схожего качества на структурно-extraction половине конвейера.
BaseURL
Эндпоинт api.deepseek.com/v1 глобально достижим. Нет China-based тега в SPA. Используйте BaseURL override только для relays.
Особенности
- OpenAI-совместимый wire — flat
tool_calls, OpenAI streaming формат. Адаптер тот же, что и для Custom / Zhipu / Kimi / Gemini-OAI-режима. - Длинный контекст — V4 поддерживает 64k токенов; Ongrid budget estimator использует консервативный
len(text)/4, так что вы увидите budget reject до того, как реально упрётесь в model-лимит.
См. также
- Обзор моделей.
- Routing.
- Budget — per-day token cap, который ограничивает суммарную стоимость по providers.