Aller au contenu

DeepSeek se précipite pour lancer un nouveau modèle d’IA alors que la Chine s’engage à fond

PEKIN/HONG KONG/SINGAPOUR, 25 février (Reuters)DeepSeek cherche à tirer parti de son avantage.
La startup chinoise a déclenché une baisse de plus de 1 000 milliards de dollars sur les marchés boursiers mondiaux le mois dernier avec un modèle d’IA de raisonnement à prix réduit qui a surpassé de nombreux concurrents occidentaux.

Maintenant, la société basée à Hangzhou accélère le lancement du successeur du modèle R1 de janvier, selon trois personnes proches de l’entreprise.

Accélération du lancement de R2

Deepseek prévoyait de publier R2 début mai, mais souhaite maintenant le sortir le plus tôt possible, ont déclaré deux d’entre elles, sans donner de précisions.

La société affirme espérer que le nouveau modèle produira un meilleur codage et pourra raisonner dans des langues autres que l’anglais. Les détails du calendrier accéléré de la sortie de R2 n’ont pas été rapportés auparavant.

Réactions des concurrents

DeepSeek n’a pas répondu à une demande de commentaire pour cet article.

Les concurrents digèrent encore les implications de R1, qui a été construit avec des puces Nvidia moins puissantes mais qui est compétitif avec celles développées à des coûts de centaines de milliards de dollars par les géants technologiques américains.

Impact potentiel sur le marché de l’IA

« Le lancement du modèle R2 de DeepSeek pourrait être un moment pivot dans l’industrie de l’IA », a déclaré Vijayasimha Alilughatta, directeur des opérations du fournisseur indien de services technologiques Zensar.

Le succès de DeepSeek à créer des modèles d’IA rentables « incitera probablement les entreprises du monde entier à accélérer leurs propres efforts… brisant le monopole des quelques acteurs dominants du secteur », a-t-il déclaré.

Inquiétudes du gouvernement américain

R2 risque d’inquiéter le gouvernement américain, qui a identifié le leadership de l’IA comme une priorité nationale. Sa sortie pourrait galvaniser davantage les autorités et entreprises chinoises, dont des dizaines affirment avoir commencé à intégrer les modèles DeepSeek dans leurs produits.

Histoire de DeepSeek et de son fondateur

Peu de choses sont connues sur DeepSeek, dont le fondateur Liang Wenfeng est devenu milliardaire grâce à son fonds spéculatif quantitatif High-Flyer. Liang, décrit par un ancien employeur comme « discret et introverti », n’a parlé à aucun média depuis juillet 2024.

Culture d’entreprise et stratégies de développement

Reuters a interviewé une douzaine d’anciens employés, ainsi que des professionnels de fonds quantitatifs connaissant les opérations de DeepSeek et de sa société mère High-Flyer. Elle a également examiné des articles de médias d’État, des publications sur les réseaux sociaux des entreprises et des articles de recherche remontant à 2019.

Ils ont raconté l’histoire d’une entreprise qui fonctionnait plus comme un laboratoire de recherche que comme une entreprise à but lucratif et qui n’était pas entravée par les traditions hiérarchiques de l’industrie technologique chinoise à haute pression, même si elle était responsable de ce que beaucoup d’investisseurs considèrent comme la dernière percée en matière d’IA.

Investissements dans la recherche et la puissance de calcul

Le succès de DeepSeek avec un modèle d’IA à faible coût repose sur l’investissement substantiel et décennal de High-Flyer dans la recherche et la puissance de calcul, ont déclaré trois personnes.

Le fonds quantitatif a été l’un des pionniers du trading d’IA et un cadre supérieur a déclaré en 2020 que High-Flyer misait « tout » sur l’IA en réinvestissant 70 % de ses revenus, principalement dans la recherche en IA.

Réactions des régulateurs chinois

High-Flyer et DeepSeek ont pu attirer certains des meilleurs talents de recherche chinois, ont déclaré deux anciens employés.

« Le principal avantage de vastes ressources (de calcul) est qu’elles permettent une expérimentation à grande échelle », a déclaré Liu, l’ancien employé.

Techniques d’architecture d’IA

Certains entrepreneurs occidentaux en IA, comme le PDG de Scale AI Alexandr Wang, ont affirmé que DeepSeek possédait jusqu’à 50 000 puces Nvidia haut de gamme interdites d’exportation vers la Chine. Il n’a pas fourni de preuves de cette allégation ni répondu aux demandes de Reuters de fournir des preuves.

DeepSeek n’a pas répondu aux affirmations de Wang. Deux anciens employés ont attribué le succès de l’entreprise à la concentration de Liang sur une architecture d’IA plus rentable.

Comparaison avec les concurrents

La startup a utilisé des techniques telles que Mixture-of-Experts (MoE) et multihead latent attention (MLA), qui entraînent des coûts de calcul beaucoup plus faibles, comme le montrent ses articles de recherche.

Alors que des concurrents comme Mistral en France ont développé des modèles basés sur MoE, DeepSeek a été la première entreprise à dépendre fortement de cette architecture tout en atteignant la parité avec des modèles construits de manière plus coûteuse.

Réactions des géants technologiques

Les prix de DeepSeek étaient 20 à 40 fois moins chers que ceux facturés par OpenAI pour des modèles équivalents, ont estimé les analystes du courtier Bernstein début février.

Pour l’instant, les géants technologiques occidentaux et chinois ont indiqué leur intention de continuer à dépenser massivement dans l’IA, mais le succès de DeepSeek avec R1 et son modèle antérieur V3 a incité certains à modifier leurs stratégies.

Soutien de l’État chinois

Même avant que R1 ne capte l’attention mondiale, il y avait des signes que DeepSeek avait gagné les faveurs de Pékin. En janvier, les médias d’État ont rapporté que Liang avait assisté à une réunion avec le Premier ministre chinois Li Qiang à Pékin en tant que représentant désigné du secteur de l’IA, avant les dirigeants d’entreprises mieux connues.

L’engouement qui a suivi pour la compétitivité des coûts de ses modèles a renforcé la conviction de Pékin qu’elle peut surpasser les États-Unis en matière d’innovation, les entreprises et organismes gouvernementaux chinois adoptant les modèles DeepSeek à un rythme qui n’a pas été offert à d’autres entreprises.

Adoption rapide en Chine

Au moins 13 gouvernements municipaux chinois et 10 entreprises énergétiques publiques déclarent avoir déployé DeepSeek dans leurs systèmes, tandis que les géants technologiques Lenovo, Baidu et Tencent – propriétaire de la plus grande application de réseaux sociaux de Chine, WeChat – ont intégré les modèles de DeepSeek dans leurs produits.

Réactions internationales

Cette adoption par la Chine intervient alors que des gouvernements, de la Corée du Sud à l’Italie, retirent DeepSeek de leurs magasins d’applications nationaux, invoquant des préoccupations en matière de confidentialité.

« Si DeepSeek devient le modèle d’IA de référence dans les entités étatiques chinoises, les régulateurs occidentaux pourraient y voir une raison supplémentaire d’intensifier les restrictions sur les puces et les collaborations logicielles d’IA », a déclaré Stephen Wu, expert en IA et fondateur du fonds spéculatif Carthage Capital.

Défis futurs

Des limites supplémentaires sur les puces d’IA avancées sont un défi que Liang a reconnu.

« Notre problème n’a jamais été le financement », a-t-il déclaré à Waves en juillet. « C’est l’embargo sur les puces haut de gamme. »

Source: Reuters

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *