Prix DeepSeek 2026 : tarifs de l’API V4 Flash et V4 Pro

Tarifs vérifiés le 19 juillet 2026 — montants en dollars américains pour un million de tokens.

L’API officielle DeepSeek est facturée à l’usage. Le montant dépend du modèle, des tokens d’entrée trouvés ou non dans le cache de contexte et des tokens générés en sortie. Les deux modèles actuellement documentés sont deepseek-v4-flash et deepseek-v4-pro.

Site indépendant : deepseek-fr.ai n’est ni exploité, ni affilié, ni approuvé par Hangzhou DeepSeek Artificial Intelligence Co., Ltd. Ce site ne vend ni abonnement, ni crédit API et ne traite aucune requête destinée aux modèles DeepSeek. Les tarifs ci-dessous sont retranscrits depuis la documentation officielle.

Anciens identifiants API : retrait annoncé le 24 juillet 2026

Au moment de cette vérification, deepseek-chat et deepseek-reasoner restent des alias temporaires des modes sans raisonnement et avec raisonnement de deepseek-v4-flash. DeepSeek annonce leur retrait le 24 juillet 2026 à 15 h 59 UTC. Utilisez deepseek-v4-flash ou deepseek-v4-pro dans toute nouvelle intégration.

Vérifier les tarifs officiels ↗

Comprendre l’API en français

DeepSeek est-il gratuit ou payant ?

Chat officiel

Le site officiel présente actuellement l’accès au chat DeepSeek comme gratuit. Cela ne constitue pas une promesse de gratuité permanente, de capacité illimitée ou de disponibilité continue.

Application officielle

L’application grand public est actuellement proposée gratuitement. Vérifiez sa fiche et les conditions en vigueur au moment du téléchargement.

API officielle

L’API destinée aux développeurs est payante et mesurée en tokens. Le modèle, le cache, l’entrée et la sortie influencent le coût.

deepseek-fr.ai ne propose pas de chat intégré et ne facture aucun accès à DeepSeek. La page /chat/ explique comment reconnaître et ouvrir le chat officiel sans faire croire que ce site fournit le service.

Tableau des tarifs de l’API DeepSeek

Les montants suivants sont affichés par DeepSeek en USD pour un million de tokens. Un token d’entrée en cache hit, un token d’entrée en cache miss et un token de sortie n’ont pas le même prix.

Modèle	Entrée — cache hit	Entrée — cache miss	Sortie	Contexte	Sortie maximale
`deepseek-v4-flash`	0,0028 $ / 1M	0,14 $ / 1M	0,28 $ / 1M	1M tokens	384K tokens
`deepseek-v4-pro`	0,003625 $ / 1M	0,435 $ / 1M	0,87 $ / 1M	1M tokens	384K tokens

Tarifs et limites consultés dans la documentation officielle le 19 juillet 2026. Les prix peuvent changer.

Cache hit : partie de l’entrée correspondant à un préfixe déjà persisté et réutilisé par le cache.
Cache miss : partie de l’entrée qui n’a pas été trouvée dans le cache et doit être traitée au tarif normal.
Sortie : tokens générés par le modèle. Ils sont calculés à chaque réponse.
1M : un million de tokens, et non un million de mots ou de requêtes.

V4 Flash ou V4 Pro : quel modèle coûte le moins cher ?

Critère	V4 Flash	V4 Pro
Priorité	Vitesse, volume et maîtrise du coût	Raisonnement et tâches agentiques plus exigeantes
Point de départ conseillé	Classification, extraction, résumé, brouillons et automatisations fréquentes	Problèmes complexes, code avancé, analyses multi-étapes et agents
Mode de raisonnement	Pris en charge	Pris en charge
Coût relatif	Le moins cher des deux modèles actuels	Plus cher en entrée comme en sortie

V4 Pro n’est pas automatiquement le meilleur choix pour chaque requête. Commencez par V4 Flash, mesurez la qualité sur un jeu de tests représentatif, puis réservez V4 Pro aux tâches où l’amélioration observée compense réellement la différence de coût et de latence.

Comment fonctionne la facturation par token ?

Un token est une unité utilisée par le modèle pour représenter le texte et par l’API pour mesurer l’utilisation. Il peut correspondre à une partie de mot, un mot, un nombre, un signe ou un autre fragment. La conversion entre caractères, mots et tokens reste approximative et varie selon la langue et le modèle.

Le nombre faisant foi est celui retourné dans l’objet usage de la réponse API. Pour le cache, surveillez notamment prompt_cache_hit_tokens et prompt_cache_miss_tokens.

coût =
(tokens d’entrée cache hit / 1 000 000 × tarif cache hit)
+ (tokens d’entrée cache miss / 1 000 000 × tarif cache miss)
+ (tokens de sortie / 1 000 000 × tarif de sortie)

La facturation ne dépend donc pas seulement du nombre de requêtes. Deux appels peuvent avoir des coûts très différents selon la longueur du contexte, le taux de cache hit et la longueur de la réponse.

Exemple de calcul du coût d’un appel

Supposons un appel contenant 80 000 tokens d’entrée en cache hit, 20 000 tokens d’entrée en cache miss et 50 000 tokens de sortie. Les hypothèses sont identiques pour les deux modèles.

Modèle	Entrée hit	Entrée miss	Sortie	Total estimé
V4 Flash	0,000224 $	0,0028 $	0,014 $	0,017024 $
V4 Pro	0,00029 $	0,0087 $	0,0435 $	0,05249 $

Exemple mathématique fondé sur les tarifs vérifiés le 19 juillet 2026. Il ne s’agit pas d’un devis ni d’un coût mensuel garanti.

Pour estimer un budget mensuel, additionnez les mesures réelles de vos appels ou projetez séparément les tokens cache hit, cache miss et sortie. Une estimation indiquant seulement un nombre de messages peut être fortement trompeuse.

Comment fonctionne le cache de contexte DeepSeek ?

Le cache de contexte est activé par défaut pour les utilisateurs de l’API. Lorsqu’une nouvelle requête réutilise exactement une unité de préfixe déjà persistée, les tokens correspondants peuvent être comptés en cache hit. Aucun changement de code n’est nécessaire pour activer ce mécanisme.

Le cache porte sur des préfixes d’entrée réutilisés, pas sur une réponse finale prête à être resservie.
Les tokens en cache hit restent payants, mais au tarif cache hit du modèle.
La construction du cache peut prendre quelques secondes.
Le système fonctionne en best effort et ne garantit pas un taux de hit de 100 %.
Les entrées non utilisées sont généralement supprimées après quelques heures à quelques jours.
Une modification au début du prompt peut empêcher la réutilisation du préfixe.

Bonnes pratiques pour augmenter les cache hits

Placez les instructions système et le contexte stable au début.
Conservez des préfixes identiques entre les requêtes similaires.
Ajoutez les données variables après le bloc stable.
Évitez de modifier inutilement les premiers messages.
Mesurez les champs de cache dans usage au lieu de supposer un taux fixe.

Consulter la documentation officielle du cache ↗

Paiement, solde et limites de concurrence

Selon la règle de déduction publiée par DeepSeek, le coût est retiré du solde rechargé ou du solde accordé au compte. Si les deux existent, le solde accordé est utilisé en priorité. Un éventuel crédit promotionnel dépend du compte et ne doit pas être considéré comme garanti.

La documentation consultée affiche également des limites de concurrence au niveau du compte :

Modèle	Limite de concurrence documentée
V4 Flash	2 500
V4 Pro	500

Ces limites sont calculées par compte, indépendamment du nombre de clés API. Un dépassement peut produire une erreur HTTP 429. Vérifiez la documentation actuelle avant de dimensionner une production.

Réduire le coût de l’API sans dégrader le service

Commencez par V4 Flash. Passez à V4 Pro seulement après un test montrant un bénéfice mesurable.
Stabilisez les préfixes. Placez les instructions et documents réutilisés avant les variables.
Limitez les sorties. Demandez un format et une longueur adaptés, puis fixez une limite raisonnable.
Mesurez chaque composante. Enregistrez les tokens cache hit, cache miss et sortie, ainsi que le modèle utilisé.
Évaluez le mode de raisonnement. Une réponse plus longue peut coûter davantage sans garantir une meilleure exactitude.
Testez avant la production. Comparez coût, latence et qualité sur un jeu représentatif.
Protégez la clé API. Conservez-la côté serveur ou dans un gestionnaire de secrets ; ne l’intégrez jamais dans un front-end public.

Pour la configuration et les exemples de code, consultez le guide complet de l’API DeepSeek en français.

Questions fréquentes sur les tarifs DeepSeek

L’API DeepSeek est-elle gratuite ?

Non. L’API officielle est facturée selon les tokens d’entrée et de sortie. Un crédit éventuellement accordé à un compte est distinct de la grille tarifaire et ne doit pas être considéré comme une offre garantie à tous.

Combien coûte un million de tokens avec DeepSeek V4 ?

Il n’existe pas un seul tarif. Pour V4 Flash, un million de tokens coûte 0,0028 $ en entrée cache hit, 0,14 $ en entrée cache miss ou 0,28 $ en sortie. Pour V4 Pro, les trois prix sont respectivement 0,003625 $, 0,435 $ et 0,87 $. Ces montants ont été vérifiés le 19 juillet 2026.

Faut-il un abonnement mensuel pour utiliser l’API ?

La grille publique actuelle décrit une facturation à l’usage, déduite du solde du compte. Elle ne présente pas de forfait mensuel public incluant un volume fixe de tokens.

Un cache hit est-il gratuit ?

Non. Les tokens trouvés dans le cache sont facturés à un tarif très inférieur au cache miss, mais leur prix n’est pas nul. Le cache fonctionne en best effort et ne garantit pas un taux de hit déterminé.

DeepSeek offre-t-il cinq millions de tokens aux nouveaux comptes ?

La documentation publique actuelle ne garantit pas cette offre à chaque nouveau compte. Ne planifiez pas un budget sur cette promesse. Vérifiez les éventuels crédits et leur validité directement dans la section de facturation de votre compte.

Les prix sont-ils facturés en euros en France ?

La page officielle affiche les tarifs en dollars américains. Une conversion en euros dépend du taux de change et des modalités de paiement au moment de l’opération. Consultez le montant et la devise affichés dans votre compte avant de payer.

Les noms deepseek-chat et deepseek-reasoner fonctionnent-ils encore ?

Au 19 juillet 2026, ils sont encore documentés comme alias temporaires de V4 Flash. DeepSeek annonce leur retrait le 24 juillet 2026 à 15 h 59 UTC. Migrez vers deepseek-v4-flash ou deepseek-v4-pro.

Les tarifs de DeepSeek peuvent-ils changer ?

Oui. DeepSeek indique que ses prix peuvent varier et se réserve le droit de les ajuster. Vérifiez la page officielle avant tout rechargement, devis ou calcul de marge.

Sources officielles

En cas de différence entre cette page et la documentation officielle publiée plus récemment, la documentation officielle doit être considérée comme prioritaire.