DeepSeek

TL;DR

bash

ONGRID_DEEPSEEK_API_KEY=sk-...
ONGRID_DEEPSEEK_MODEL=deepseek-v4-flash     # padrão
ONGRID_DEEPSEEK_BASE_URL=                   # opcional; padrão api.deepseek.com/v1

Provider id: deepseek. Adapter SDK: compatível com OpenAI.

A família V4 do DeepSeek é a opção barata-e-rápida. O endpoint é compatível com OpenAI no nível wire.

Env vars

Var	Padrão	Notas
`ONGRID_DEEPSEEK_API_KEY`	—	Vazio = provider removido
`ONGRID_DEEPSEEK_MODEL`	`deepseek-v4-flash`	Modelo padrão
`ONGRID_DEEPSEEK_BASE_URL`	`https://api.deepseek.com/v1`	Override para endpoints VPC
`ONGRID_DEEPSEEK_MODELS`	`deepseek-v4-pro,deepseek-v4-flash,deepseek-reasoner`	Lista do catálogo

Catálogo padrão

deepseek-v4-pro — topo da família V4; mais próximo da qualidade frontier a uma fração do custo.
deepseek-v4-flash — o padrão do catálogo; recomendado para chat.
deepseek-reasoner — variante chain-of-thought. Veja pegadinhas abaixo.

Caveats do `deepseek-reasoner`

deepseek-reasoner emite um bloco <thinking>...</thinking> antes de sua resposta final. O adapter LLM do Ongrid NÃO os remove — eles aparecem no transcript do chat e no findings_md do report do RCA.

Se você não quer os blocos thinking renderizados:

Use um modelo diferente para chat (deepseek-v4-pro).
Ou pós-processe o transcript com uma regra CSS que esconde details[open] > summary:contains("thinking") — o SPA os envolve em <details> colapsíveis por padrão.

A resposta do reasoner é mais lenta que v4-flash (a chain-of-thought é compute real). Não use para o extractor estruturado Pass-2 — o timeout vai bater.

Tornando o DeepSeek o padrão

bash

ONGRID_LLM_DEFAULT_PROVIDER=deepseek

O runtime do agent auto-escolhe o modelo fornecido pelo default-resolver para as chamadas da persona investigator; isso significa virar o default para DeepSeek imediatamente roteia todos os auto-RCAs para lá — a custo muito menor que Claude / GPT para qualidade similar na metade de extração estruturada do pipeline.

BaseURL

O endpoint api.deepseek.com/v1 é alcançável globalmente. Sem tag China-based no SPA. Use o override de BaseURL apenas para relays.

Pegadinhas

Wire compatível com OpenAI — tool_calls flat, formato de streaming OpenAI. O adapter é o mesmo que para Custom / Zhipu / Kimi / Gemini-OAI-mode.
Long context — V4 suporta 64k tokens; o estimator de budget do Ongrid usa um len(text)/4 conservador então você vai ver o budget rejeitar antes de bater no limite do modelo de fato.

Veja também

Visão geral dos modelos.
Roteamento.
Budget — o cap de tokens por-dia que limita o custo total entre providers.

DeepSeek ​

Env vars ​

Catálogo padrão ​

Caveats do deepseek-reasoner ​

Tornando o DeepSeek o padrão ​

BaseURL ​

Pegadinhas ​

Veja também ​