Le 24 avril 2026, DeepSeek publie simultanément deux nouveaux modèles en open source : V4-Pro et V4-Flash. Le premier revendique des performances comparables aux meilleurs systèmes fermés de Google et OpenAI dans les domaines des mathématiques, de la programmation et des tâches agentiques. Le second, plus compact, maintient des capacités de raisonnement proches de son aîné pour des coûts opérationnels réduits. La mise à disposition immédiate via API, compatible avec les formats d'OpenAI et d'Anthropic, relance un débat structurant pour l'industrie : l'IA propriétaire conserve-t-elle encore un avantage décisif face aux modèles libres ?
Les modèles
V4-Pro repose sur une architecture de type Mixture of Experts (MoE) : 1 600 milliards de paramètres au total, dont 49 milliards activés à chaque inférence. V4-Flash présente un format plus compact avec 284 milliards de paramètres totaux et 13 milliards actifs. Les deux variantes intègrent la technologie DSA (DeepSeek Sparse Attention), un mécanisme d'attention optimisé qui permet de traiter 1 million de tokens de contexte en limitant les coûts de calcul et de mémoire.
Dans l'architecture MoE classique, le réseau active des sous-réseaux d'experts de façon sélective selon le token traité. La DSA affine cette sélection au niveau du token lui-même, réduisant la redondance de calcul tout en maintenant la qualité des représentations sur de longues séquences. Cette propriété est centrale pour les usages sur documents longs, les workflows agentiques multi-étapes et les tâches de programmation avec large base de code.
Les deux modèles supportent les modes de raisonnement avec et sans chaîne de pensée explicite (thinking et non-thinking), le tool calling et les pipelines agentiques. Ils sont directement utilisables avec les identifiants deepseek-v4-pro et deepseek-v4-flash, et acceptent les formats d'appel des API d'OpenAI et d'Anthropic.
Positionnement concurrentiel
DeepSeek positionne explicitement V4-Pro contre les systèmes frontier fermés. La formulation officielle parle de "rivalité avec les meilleurs modèles fermés au monde", un positionnement qui rappelle celui de DeepSeek R1 en début 2025, lorsque le modèle avait été rendu public avec un coût de développement inférieur à 6 millions de dollars. Cette annonce avait provoqué une réévaluation générale des hypothèses sur le coût nécessaire pour entraîner des modèles de niveau frontier.
La documentation de V4 ne précise ni les protocoles d'évaluation utilisés pour les comparaisons, ni la version exacte des modèles concurrents pris comme référence. Ces limitations méthodologiques, courantes dans les annonces de laboratoires, réduisent la portée analytique des affirmations. Les évaluations indépendantes permettront de confirmer ou de nuancer les résultats dans les semaines à venir.
Ce que l'on peut observer sans ambiguïté : l'architecture MoE permet d'atteindre des performances comparables à celles de modèles denses beaucoup plus coûteux à l'inférence. Activer 49 milliards de paramètres sur 1 600 milliards revient à mobiliser un sous-réseau spécialisé, ce qui réduit mécaniquement les coûts de calcul par rapport à un modèle dense équivalent en capacité. Sur un volume d'inférence élevé, l'écart économique est substantiel.
L'open source comme vecteur de disruption
La publication des poids en open source constitue l'élément le plus structurellement déstabilisant pour les laboratoires propriétaires. Les modèles sont hébergeables sur infrastructure propre, modifiables et redistribuables. Pour les entreprises qui cherchent à éviter une dépendance exclusive vis-à-vis des fournisseurs américains, cette disponibilité représente une alternative directement opérationnelle.
La compatibilité simultanée avec les APIs d'OpenAI et d'Anthropic est un choix technique délibéré : elle réduit le coût de migration pour les équipes déjà intégrées dans ces écosystèmes. Un développeur utilisant le SDK d'Anthropic peut substituer un appel à Claude par un appel à V4-Pro sans réécrire la logique applicative. Cette interopérabilité élargit considérablement le bassin d'utilisateurs potentiels et accélère l'adoption.
Ce qu'il faut retenir
- V4-Pro : 1 600 milliards de paramètres totaux, 49 milliards actifs à l'inférence, architecture MoE avec DSA.
- V4-Flash : 284 milliards de paramètres totaux, 13 milliards actifs, raisonnement proche de V4-Pro sur tâches agentiques simples.
- Fenêtre de contexte : 1 million de tokens pour les deux variantes, disponibles immédiatement via API.
- Compatibilité native avec les formats d'API d'OpenAI et d'Anthropic, sans réécriture du code existant.
- Anciens modèles DeepSeek (deepseek-chat, deepseek-reasoner) retirés du service le 24 juillet 2026.
Implications pour les entreprises et les acteurs souverains
Pour OpenAI et Anthropic, dont les revenus reposent sur l'accès payant à leurs modèles, la publication de systèmes open source aux performances comparables exerce une pression tarifaire structurelle. Le différentiel de qualité perçu, qui justifiait jusqu'ici les prix des API propriétaires, devient plus difficile à maintenir au fur et à mesure que les modèles libres atteignent le niveau frontier.
Pour les entreprises utilisatrices exposées à des volumes d'inférence élevés, l'accès à des modèles hébergeables ouvre des arbitrages économiques significatifs. Le coût total d'hébergement d'un modèle MoE comme V4-Pro sur infrastructure propre peut, au-delà d'un certain seuil de volume, devenir inférieur aux coûts d'API des modèles fermés équivalents.
En Europe, la question de la souveraineté numérique prend une dimension supplémentaire. Les acteurs publics et les opérateurs d'importance vitale qui cherchent à maîtriser leur infrastructure d'IA disposent désormais de modèles de niveau frontier déployables sur leurs propres serveurs, sans dépendance vis-à-vis de fournisseurs étrangers pour l'accès aux capacités d'inférence.
DeepSeek V4 illustre une tendance de fond qui dépasse les comparaisons sur benchmark : le centre de gravité de l'industrie de l'IA se déplace. Les modèles ouverts atteignent le niveau frontier. Les coûts d'inférence baissent. La dépendance aux fournisseurs propriétaires devient une décision stratégique explicite plutôt qu'une nécessité technique. Pour les décideurs, la question n'est plus de savoir si ces modèles sont utilisables, mais à quelles conditions les intégrer dans une architecture durable et maîtrisée.