DeepSeek
TL;DR
ONGRID_DEEPSEEK_API_KEY=sk-...
ONGRID_DEEPSEEK_MODEL=deepseek-v4-flash # default
ONGRID_DEEPSEEK_BASE_URL= # optional; defaults to api.deepseek.com/v1Provider id: deepseek. Adapter SDK: compatible con OpenAI.
La familia V4 de DeepSeek es la opción cheap-and-fast. El endpoint es compatible con OpenAI a nivel wire.
Env vars
| Var | Default | Notas |
|---|---|---|
ONGRID_DEEPSEEK_API_KEY | — | Vacío = provider descartado |
ONGRID_DEEPSEEK_MODEL | deepseek-v4-flash | Modelo default |
ONGRID_DEEPSEEK_BASE_URL | https://api.deepseek.com/v1 | Override para endpoints VPC |
ONGRID_DEEPSEEK_MODELS | deepseek-v4-pro,deepseek-v4-flash,deepseek-reasoner | Lista de catálogo |
Catálogo default
deepseek-v4-pro— top de la familia V4; más cerca de calidad frontier a una fracción del costo.deepseek-v4-flash— el default del catálogo; recomendado para chat.deepseek-reasoner— variante chain-of-thought. Ver quirks abajo.
Caveats de deepseek-reasoner
deepseek-reasoner emite un bloque <thinking>...</thinking> antes de su respuesta final. El adapter LLM de Ongrid NO los elimina — aparecen en la transcripción de chat y en el findings_md del informe RCA.
Si no quieres que los bloques de thinking se rendericen:
- Usa un modelo distinto para chat (
deepseek-v4-pro). - O post-procesa la transcripción con una regla CSS que oculte
details[open] > summary:contains("thinking")— la SPA los envuelve en<details>colapsables por defecto.
La respuesta del reasoner es más lenta que la de v4-flash (el chain-of-thought es compute real). No lo uses para el extractor estructurado Pass-2 — pegarás el timeout.
Haciendo a DeepSeek el default
ONGRID_LLM_DEFAULT_PROVIDER=deepseekEl agent runtime auto-elige el modelo provisto por el default-resolver para las llamadas de la persona investigator; esto significa que flippear el default a DeepSeek inmediatamente rutea todas las auto-RCAs ahí — a costo mucho menor que Claude / GPT por calidad similar en la mitad de extracción estructurada del pipeline.
BaseURL
El endpoint api.deepseek.com/v1 es globalmente alcanzable. Sin tag China-based en la SPA. Usa override de BaseURL solo para relays.
Quirks
- Wire compatible con OpenAI —
tool_callsplanos, formato de streaming OpenAI. El adapter es el mismo que para Custom / Zhipu / Kimi / Gemini-OAI-mode. - Long context — V4 soporta 64k tokens; el estimador de presupuesto de Ongrid usa un conservador
len(text)/4así que verás al budget rechazar antes de pegar al límite del modelo realmente.
Ver también
- Overview de modelos.
- Routing.
- Budget — el tope de tokens por-día que acota el costo total a través de providers.