Skip to content

DeepSeek

TL;DR

bash
ONGRID_DEEPSEEK_API_KEY=sk-...
ONGRID_DEEPSEEK_MODEL=deepseek-v4-flash     # default
ONGRID_DEEPSEEK_BASE_URL=                   # optional; defaults to api.deepseek.com/v1

Provider id: deepseek. Adapter SDK: compatible con OpenAI.

La familia V4 de DeepSeek es la opción cheap-and-fast. El endpoint es compatible con OpenAI a nivel wire.

Env vars

VarDefaultNotas
ONGRID_DEEPSEEK_API_KEYVacío = provider descartado
ONGRID_DEEPSEEK_MODELdeepseek-v4-flashModelo default
ONGRID_DEEPSEEK_BASE_URLhttps://api.deepseek.com/v1Override para endpoints VPC
ONGRID_DEEPSEEK_MODELSdeepseek-v4-pro,deepseek-v4-flash,deepseek-reasonerLista de catálogo

Catálogo default

  • deepseek-v4-pro — top de la familia V4; más cerca de calidad frontier a una fracción del costo.
  • deepseek-v4-flash — el default del catálogo; recomendado para chat.
  • deepseek-reasoner — variante chain-of-thought. Ver quirks abajo.

Caveats de deepseek-reasoner

deepseek-reasoner emite un bloque <thinking>...</thinking> antes de su respuesta final. El adapter LLM de Ongrid NO los elimina — aparecen en la transcripción de chat y en el findings_md del informe RCA.

Si no quieres que los bloques de thinking se rendericen:

  1. Usa un modelo distinto para chat (deepseek-v4-pro).
  2. O post-procesa la transcripción con una regla CSS que oculte details[open] > summary:contains("thinking") — la SPA los envuelve en <details> colapsables por defecto.

La respuesta del reasoner es más lenta que la de v4-flash (el chain-of-thought es compute real). No lo uses para el extractor estructurado Pass-2 — pegarás el timeout.

Haciendo a DeepSeek el default

bash
ONGRID_LLM_DEFAULT_PROVIDER=deepseek

El agent runtime auto-elige el modelo provisto por el default-resolver para las llamadas de la persona investigator; esto significa que flippear el default a DeepSeek inmediatamente rutea todas las auto-RCAs ahí — a costo mucho menor que Claude / GPT por calidad similar en la mitad de extracción estructurada del pipeline.

BaseURL

El endpoint api.deepseek.com/v1 es globalmente alcanzable. Sin tag China-based en la SPA. Usa override de BaseURL solo para relays.

Quirks

  • Wire compatible con OpenAItool_calls planos, formato de streaming OpenAI. El adapter es el mismo que para Custom / Zhipu / Kimi / Gemini-OAI-mode.
  • Long context — V4 soporta 64k tokens; el estimador de presupuesto de Ongrid usa un conservador len(text)/4 así que verás al budget rechazar antes de pegar al límite del modelo realmente.

Ver también