Le 17 septembre 2025, la prestigieuse revue Nature a publié la première étude scientifique détaillant les rouages de DeepSeek-R1, offrant un sceau de crédibilité académique à la startup chinoise.
Cet article, revu par les pairs, révèle comment DeepSeek est parvenu à mettre au point son modèle « market-shaking » (ébranlant le marché) pour un coût d’environ 300 000 dollars seulement.
Ce chiffre, bien en deçà des estimations initiales, a de quoi surprendre : il représente le budget de calcul annoncé pour entraîner R1, là où les observateurs parlaient plutôt de plusieurs millions.
Les chercheurs de DeepSeek expliquent dans ces travaux avoir maximisé l’utilisation de leurs ressources matérielles moins sophistiquées et recouru à des méthodes d’optimisation extrêmes pour minimiser les dépenses, confirmant ainsi que **leur succès ne repose pas sur une « triche » ** utilisant les modèles concurrents, mais bien sur des innovations propres.
L’un des points saillants de l’étude concerne justement les accusations voilées qui avaient circulé début 2025, selon lesquelles DeepSeek aurait pu s’appuyer sur les réponses de ChatGPT ou d’autres IA occidentales pour entraîner ses modèles, contournant de fait les obstacles techniques.
Les chercheurs de DeepSeek réfutent explicitement ce scénario dans l’article : ils assurent que leur approche n’a pas nécessité d’être « entraînée sur les sorties de ses rivaux », mettant ainsi fin aux spéculations sur un possible siphonnage intellectuel.
Au contraire, la clé de DeepSeek-R1 résiderait dans son algorithme d’apprentissage par renforcement direct, sans phase de pré-entraînement classique sur un corpus géant comme c’est l’usage courant. Cette technique consisterait à laisser le modèle explorer par lui-même les chemins de résolution de problèmes, guidé par un système de récompense interne, plutôt que de lui fournir d’emblée d’innombrables exemples de texte à imiter.
Elle aurait permis à R1 de développer des capacités de « pensée » originales, notamment en logique et en mathématiques, pour un coût modique en données et en calcul par rapport aux approches traditionnelles.
L’enthousiasme de la communauté scientifique est palpable. « DeepSeek est le modèle le plus excitant de 2025 pour la recherche », affirme un éditorial associé dans Nature, qui souligne que l’open source du code a permis aux universitaires de s’approprier l’outil bien plus facilement que les IA propriétaires des géants du secteur.
De fait, depuis la mise en ligne de R1, de nombreux laboratoires ont commencé à tester ses capacités sur des tâches variées. Mathématiciens, linguistes, neuroscientifiques : tous veulent voir ce que ce nouvel acteur peut apporter dans leurs domaines respectifs.
L’article de Nature recense ainsi des expériences où DeepSeek est évalué pour résoudre des problèmes mathématiques ouverts, modéliser des interactions moléculaires complexes ou encore simuler des raisonnements cognitifs humainement plausibles – des champs où il aurait obtenu des résultats comparables aux meilleures IA existantes.
Le fait que ces premiers essais aient été menés de manière indépendante renforce la crédibilité des performances de DeepSeek.
Au-delà des chiffres, cette publication valide la démarche de DeepSeek en termes de science ouverte. Elle dresse en effet un pont entre l’exploit technique et sa compréhension théorique par les pairs.
Le coût d’entraînement très faible (300 k$) est analysé en détail : il correspondrait aux seules dépenses d’énergie et de temps machine, hors coûts d’infrastructure déjà possédée par l’entreprise, nuancent les auteurs.
Ils évoquent par ailleurs les choix architecturaux tels que le mixture of experts et l’attention latente multi-tête, confirmant qu’ils ont joué un rôle crucial dans l’efficacité du modèle. Le fait que Nature ait accepté l’article en un temps record (moins de 9 mois après la sortie de R1) témoigne de l’intérêt scientifique de ces apports.
Pour Kevin Chen, chercheur en IA à l’Université de Pékin, « l’effet DeepSeek se fait sentir aussi en recherche : presque tous les travaux de 2025 sur l’apprentissage par renforcement des LLM font référence à R1 d’une manière ou d’une autre ».
Le modèle chinois, en plus d’avoir bousculé l’industrie, est ainsi devenu un sujet d’étude et une source d’inspiration pour la communauté scientifique internationale.
En filigrane, cette reconnaissance académique accrédite l’idée que l’innovation en IA ne vient plus uniquement de la Silicon Valley. La recette DeepSeek – moins d’argent, plus d’astuce algorithmique – pourrait influencer la manière dont on conçoit les futures générations de modèles.
Certains commentateurs n’hésitent pas à comparer cet article fondateur à celui de Google sur Transformers en 2017, qui avait marqué un tournant.
Signe des temps, c’est d’ailleurs en Chine qu’est né ce nouvel étendard de l’IA efficace, résultat d’un écosystème mêlant soutien étatique, vivier de jeunes talents formés localement et esprit start-up affûté.
À mesure que DeepSeek poursuivra son développement, nul doute que d’autres publications viendront éclairer ses avancées. Mais d’ores et déjà, l’entrée de DeepSeek dans la littérature scientifique consacre son statut de game changer : le phénomène sort renforcé de l’examen rigoureux des faits, prêt à écrire un nouveau chapitre de la recherche en intelligence artificielle.