À la fin septembre 2025, DeepSeek a de nouveau fait parler d’elle en introduisant un modèle inédit, DeepSeek-V3.2-Exp, présenté comme une étape expérimentale vers sa prochaine génération d’IA. Dévoilé le 29 septembre sur le hub Hugging Face, V3.2-Exp se distingue par l’intégration d’une innovation technique majeure : la DeepSeek Sparse Attention (DSA), ou « attention clairsemée » en français.
Ce mécanisme permet au modèle de traiter de très longues séquences de texte de manière plus efficiente, en n’accordant une attention fine qu’aux segments pertinents de la séquence plutôt qu’à l’entièreté du contexte. Concrètement, DSA réduit drastiquement les calculs inutiles lorsque le modèle doit analyser des documents volumineux, sans sacrifier la qualité des réponses.
Les ingénieurs de DeepSeek annoncent ainsi des gains de vitesse et d’économie de calcul notables en inférence sur textes longs, tout en maintenant des performances équivalentes à la version précédente V3.1-Terminus sur les benchmarks classiques.
Le modèle V3.2-Exp marque également un tournant stratégique : il a été conçu pour fonctionner de façon optimale sur des infrastructures matérielles 100 % chinoises. Dès son lancement, DeepSeek a publié des optimisations spécifiques pour les processeurs d’IA Ascend de Huawei et pour le framework CANN (Compute Architecture for Neural Networks), l’écosystème logiciel maison destiné à remplacer CUDA de Nvidia en Chine.
Cette attention portée à la compatibilité domestique s’inscrit dans la volonté plus large du secteur technologique chinois de réduire sa dépendance aux composants américains. De fait, l’arrivée de V3.2-Exp a été suivie d’une coordination exemplaire entre DeepSeek et les acteurs locaux : l’équipe Huawei Ascend a annoncé avoir intégré le support du modèle en à peine 24 heures via le projet open source vLLM-Ascend, en partageant le code nécessaire pour tirer parti des accélérateurs Ascend NPUs.
Cambricon, concepteur chinois de puces IA, a également adapté son moteur d’inférence pour exploiter la sparse attention de V3.2-Exp sur ses unités MLU, affirmant que la combinaison de leur technologie et du modèle réduisait significativement les coûts de traitement des séquences longues.
Même Hygon, fabricant chinois de GPU, a indiqué avoir ajusté ses accélérateurs DCU via son kit DTK afin de permettre un déploiement « zero-latency » de DeepSeek-V3.2 sur ses machines. En un temps record, l’écosystème chinois a donc embrassé cette version expérimentale, illustrant un effort concerté d’indépendance technologique.
Du côté de DeepSeek, V3.2-Exp s’accompagne d’une révision tarifaire audacieuse. Profitant des gains d’efficacité apportés par DSA, la startup a annoncé une baisse de plus de 50 % des prix de son API pour tous les utilisateurs.
Ce geste, loin d’être anodin, accroît encore la pression sur les concurrents commerciaux : DeepSeek défie ainsi ouvertement les modèles économiques d’OpenAI ou d’Anthropic en rendant l’accès à une IA de pointe toujours plus abordable.
Officiellement, V3.2-Exp est décrit comme un « stade intermédiaire vers notre prochaine architecture ». Certains y voient la préparation du terrain pour DeepSeek V4, la future génération attendue en 2026, qui pourrait introduire des changements plus profonds. En attendant, l’entreprise assure que cette version expérimentale sera mise à l’épreuve de la communauté pendant plusieurs mois, afin de recueillir des retours pour affiner l’architecture à venir.
Il est à noter que, fidèle à ses principes, DeepSeek a rendu V3.2-Exp entièrement open source dès sa sortie. Le modèle et son rapport technique détaillé ont été publiés en libre accès, accompagnés du code de certaines composantes clés (notamment les kernels GPU implémentant la sparse attention, disponibles en TileLang et en CUDA) pour encourager la recherche reproductible.
Cette transparence vise à dissiper tout doute quant aux performances annoncées. Elle permet déjà à des laboratoires académiques de vérifier par eux-mêmes les apports de la sparse attention : les premiers tests indépendants confirment que V3.2-Exp gère effectivement mieux les entrées massives sans explosion de calcul, ouvrant de nouvelles perspectives pour des applications comme l’analyse de corpus scientifiques volumineux ou la synthèse de longs rapports d’entreprise.
Avec DeepSeek-V3.2-Exp, la startup montre qu’elle ne se repose pas sur ses lauriers. En moins d’un an, elle est parvenue à diminuer d’un facteur deux le coût d’utilisation de ses modèles tout en étendant leurs capacités. Pour les observateurs, ce rythme d’innovation rappelle celui des grandes années de la Silicon Valley – à ceci près qu’il se déroule aujourd’hui en Chine, et en grande partie en open source.
Si l’avenir de DeepSeek tient encore des promesses, chaque réalisation concrète, comme ce V3.2-Exp, vient un peu plus crédibiliser son positionnement face aux ténors américains.
La prochaine véritable révolution sera sans doute l’avènement d’une architecture de nouvelle génération (peut-être DeepSeek-R2 ou V4), mais en attendant, ces évolutions incrémentales consolident la base d’utilisateurs et l’avance technologique de DeepSeek dans la course à l’IA de pointe.