DeepSeek
TL;DR
ONGRID_DEEPSEEK_API_KEY=sk-...
ONGRID_DEEPSEEK_MODEL=deepseek-v4-flash # default
ONGRID_DEEPSEEK_BASE_URL= # optional; defaults to api.deepseek.com/v1Provider-ID: deepseek. SDK-Adapter: OpenAI-kompatibel.
DeepSeeks V4-Familie ist die günstig-und-schnell-Option. Der Endpunkt ist auf Wire-Level OpenAI-kompatibel.
Umgebungsvariablen
| Var | Default | Notizen |
|---|---|---|
ONGRID_DEEPSEEK_API_KEY | — | Leer = Provider gedroppt |
ONGRID_DEEPSEEK_MODEL | deepseek-v4-flash | Standardmodell |
ONGRID_DEEPSEEK_BASE_URL | https://api.deepseek.com/v1 | Override für VPC-Endpunkte |
ONGRID_DEEPSEEK_MODELS | deepseek-v4-pro,deepseek-v4-flash,deepseek-reasoner | Katalog-Liste |
Standardkatalog
deepseek-v4-pro— Top der V4-Familie; am nächsten an Frontier-Qualität bei einem Bruchteil der Kosten.deepseek-v4-flash— der Katalog-Default; empfohlen für Chat.deepseek-reasoner— Chain-of-Thought-Variante. Siehe Eigenheiten unten.
deepseek-reasoner-Vorbehalte
deepseek-reasoner emittiert einen <thinking>...</thinking>-Block vor seiner finalen Antwort. Der Ongrid-LLM-Adapter strippt diese NICHT — sie erscheinen im Chat-Transkript und im findings_md des RCA-Reports.
Wenn Sie die Thinking-Blöcke nicht gerendert haben möchten:
- Verwenden Sie ein anderes Modell für Chat (
deepseek-v4-pro). - Oder post-prozessieren Sie das Transkript mit einer CSS-Regel, die
details[open] > summary:contains("thinking")versteckt — die SPA wickelt sie standardmäßig in kollabierbare<details>ein.
Die Antwort des Reasoners ist langsamer als v4-flash (die Chain-of-Thought ist echtes Computing). Verwenden Sie ihn nicht für den Pass-2-strukturierten-Extraktor — der Timeout trifft.
DeepSeek zum Default machen
ONGRID_LLM_DEFAULT_PROVIDER=deepseekDie Agent-Runtime wählt das vom Default-Resolver gelieferte Modell für die Aufrufe der Investigator-Persona automatisch; das heißt, den Default auf DeepSeek umzuschalten routet sofort alle Auto-RCAs dorthin — zu viel niedrigeren Kosten als Claude / GPT bei ähnlicher Qualität auf der strukturierten-Extraktion-Hälfte der Pipeline.
BaseURL
Der api.deepseek.com/v1-Endpunkt ist global erreichbar. Kein China-basierter Tag in der SPA. Verwenden Sie BaseURL-Override nur für Relays.
Eigenheiten
- OpenAI-kompatible Wire — Flat-
tool_calls, OpenAI-Streaming-Format. Der Adapter ist derselbe wie für Custom / Zhipu / Kimi / Gemini-OAI-Mode. - Langer Kontext — V4 unterstützt 64k Tokens; der Ongrid-Budget-Schätzer verwendet ein konservatives
len(text)/4, sodass Sie das Budget ablehnen sehen, bevor Sie tatsächlich das Modell-Limit treffen.
Siehe auch
- Modelle-Übersicht.
- Routing.
- Budget — der Per-Tag-Token-Cap, der die Gesamtkosten über Provider hinweg begrenzt.