DeepSeek
TL;DR
ONGRID_DEEPSEEK_API_KEY=sk-...
ONGRID_DEEPSEEK_MODEL=deepseek-v4-flash # padrão
ONGRID_DEEPSEEK_BASE_URL= # opcional; padrão api.deepseek.com/v1Provider id: deepseek. Adapter SDK: compatível com OpenAI.
A família V4 do DeepSeek é a opção barata-e-rápida. O endpoint é compatível com OpenAI no nível wire.
Env vars
| Var | Padrão | Notas |
|---|---|---|
ONGRID_DEEPSEEK_API_KEY | — | Vazio = provider removido |
ONGRID_DEEPSEEK_MODEL | deepseek-v4-flash | Modelo padrão |
ONGRID_DEEPSEEK_BASE_URL | https://api.deepseek.com/v1 | Override para endpoints VPC |
ONGRID_DEEPSEEK_MODELS | deepseek-v4-pro,deepseek-v4-flash,deepseek-reasoner | Lista do catálogo |
Catálogo padrão
deepseek-v4-pro— topo da família V4; mais próximo da qualidade frontier a uma fração do custo.deepseek-v4-flash— o padrão do catálogo; recomendado para chat.deepseek-reasoner— variante chain-of-thought. Veja pegadinhas abaixo.
Caveats do deepseek-reasoner
deepseek-reasoner emite um bloco <thinking>...</thinking> antes de sua resposta final. O adapter LLM do Ongrid NÃO os remove — eles aparecem no transcript do chat e no findings_md do report do RCA.
Se você não quer os blocos thinking renderizados:
- Use um modelo diferente para chat (
deepseek-v4-pro). - Ou pós-processe o transcript com uma regra CSS que esconde
details[open] > summary:contains("thinking")— o SPA os envolve em<details>colapsíveis por padrão.
A resposta do reasoner é mais lenta que v4-flash (a chain-of-thought é compute real). Não use para o extractor estruturado Pass-2 — o timeout vai bater.
Tornando o DeepSeek o padrão
ONGRID_LLM_DEFAULT_PROVIDER=deepseekO runtime do agent auto-escolhe o modelo fornecido pelo default-resolver para as chamadas da persona investigator; isso significa virar o default para DeepSeek imediatamente roteia todos os auto-RCAs para lá — a custo muito menor que Claude / GPT para qualidade similar na metade de extração estruturada do pipeline.
BaseURL
O endpoint api.deepseek.com/v1 é alcançável globalmente. Sem tag China-based no SPA. Use o override de BaseURL apenas para relays.
Pegadinhas
- Wire compatível com OpenAI —
tool_callsflat, formato de streaming OpenAI. O adapter é o mesmo que para Custom / Zhipu / Kimi / Gemini-OAI-mode. - Long context — V4 suporta 64k tokens; o estimator de budget do Ongrid usa um
len(text)/4conservador então você vai ver o budget rejeitar antes de bater no limite do modelo de fato.
Veja também
- Visão geral dos modelos.
- Roteamento.
- Budget — o cap de tokens por-dia que limita o custo total entre providers.