Benchmark NVIDIA GB10 Grace Blackwell : 17 LLM locaux testés en 2026 (qwen3 à 82,5 tok/s)
Tests réels de 17 modèles LLM locaux sur NVIDIA GB10 (DGX Spark, 121 Go unified). qwen3:30b-a3b écrase tout à 82,5 tok/s. Données chiffrées, comparatif RAM, verdict MoE vs dense.
TL;DR : Sur un NVIDIA GB10 Grace Blackwell (121 Go unified memory), qwen3:30b-a3b (MoE) crache 82,5 tok/s en chat — le meilleur ratio vitesse/qualité du marché en 2026. Les modèles 70B dense (llama3.3, nemotron, deepseek-r1) tournent tous à 4,7 tok/s : utilisables uniquement en async. Au-delà de 123B, on touche le plafond mémoire. Tableau complet ci-dessous.
Pourquoi ce benchmark
J’ai eu accès pendant quelques jours à un NVIDIA DGX Spark (MSI EdgeXpert MS-C931), une machine ARM64 équipée du GB10 Grace Blackwell Superchip (20 cœurs ARMv9.2, 121 GiB unified LPDDR5x, GPU Blackwell intégré, CUDA 13). C’est l’une des premières plateformes “edge” capables de faire tourner du 70B dense en local sans paginer sur le disque.
J’ai testé 17 modèles via Ollama + llama.cpp (pour ceux qu’Ollama 0.21.2 refusait encore en mai 2026, notamment Qwen 3.5/3.6). Tous les tests utilisent le même prompt technique (200 tokens prédits) pour garantir la comparabilité.
Spoiler : les chiffres confirment ce que la théorie suggérait — les MoE écrasent les denses comparables grâce à la mémoire unifiée, et la RTX 3090 reste meilleure sur dense 7B-32B malgré sa VRAM limitée.
Méthodologie
- Hardware : NVIDIA GB10 Grace Blackwell, 121 GiB unified LPDDR5x, GPU Blackwell intégré, CUDA 13 driver 580.142, DGX OS (Ubuntu 24.04 NVIDIA), kernel 6.17.0-1014-nvidia
- Runtime : Ollama 0.21.3-rc0 + llama.cpp main (pour les archis Qwen 3.5/3.6 non supportées par Ollama)
- Prompt fixé : « Explique en 5 phrases courtes pourquoi le NVIDIA GB10… » (cf. note méthodo en fin d’article)
- Métrique principale :
eval_tps(tokens/seconde générés, hors prompt eval) - Métriques secondaires :
prompt_tps, temps de chargement initial (cold start), delta RAM consommée
Classement complet (eval tok/s décroissant)
| # | Modèle | Type | Params total / actif | eval tok/s | prompt tok/s | Load | Δ RAM |
|---|---|---|---|---|---|---|---|
| 🥇 1 | qwen3:30b-a3b | MoE | 30B / 3B | 82,5 | 442 | 19s | 45 GB |
| 🥈 2 | qwen2.5:7b | dense | 7B | 47,8 | 2 379 | 30s | 7 GB |
| 🥉 3 | mistral:7b | dense | 7B | 47,0 | 2 194 | 3s | 9 GB |
| 4 | gemma2:9b | dense | 9B | 40,0 | 1 709 | 14s | 9 GB |
| 5 | mixtral:8x7b | MoE | 46B / 12B | 30,8 | 518 | 23s | 30 GB |
| 6 | qwen2.5:14b | dense | 14B | 24,6 | 1 295 | 5s | 15 GB |
| 7 | phi4 | dense | 14B | 23,2 | 1 235 | 9s | 12 GB |
| 8 | gemma2:27b | dense | 27B | 14,3 | 689 | 6s | 19 GB |
| 9 | qwen2.5:32b | dense | 32B | 10,6 | 631 | 13s | 27 GB |
| 10 | nemotron:70b | dense | 70B | 4,7 | 260 | 27s | (cache) |
| 11 | llama3.3:70b | dense | 70B | 4,7 | 254 | 91s | 81 GB |
| 12 | deepseek-r1:70b | dense | 70B | 4,7 | 218 | 30s | 81 GB |
| 13 | mistral-large:123b | dense | 123B | 2,3 | 119 | 72s | 115 GB ⚠ |
Bonus : modèles bloqués par Ollama 0.21.2
Quatre modèles que j’ai tentés mais qui n’ont pas pu charger :
- qwen3:235b-a22b (142 Go) → dépasse les 121 Go unified, débordement swap
- Qwen3.5-27B (Unsloth HF) → architecture
qwen35non supportée par Ollama 0.21.2 - Qwen3.6-35B-A3B (Unsloth HF) → architecture
qwen35moenon supportée - Qwen3.5-122B-A10B (Unsloth HF) → même problème d’arch
→ Ces 3 derniers tournent par contre via llama.cpp main compilé from source (avec CUDA 13 + arch qwen35moe). Plus de détails dans un prochain article dédié.
Lecture des résultats
1. Le sweet spot vitesse : qwen3:30b-a3b (MoE)
À 82,5 tok/s, qwen3:30b-a3b est 1,7× plus rapide que le meilleur dense 7B et 17× plus rapide que le meilleur 70B. Avantage MoE : seulement 3B paramètres “actifs” sont effectivement calculés à chaque token, mais les 27B restants sont disponibles instantanément en mémoire unifiée pour le routage des experts.
Sur une RTX 3090 24 Go, ce modèle est impossible à charger entièrement en VRAM (45 Go nécessaires) — il faut partager avec la RAM système, ce qui divise les performances par 3-5×.
2. Le plafond 70B : tous à 4,7 tok/s
llama3.3:70b, nemotron:70b et deepseek-r1:70b sont tous au même plancher de 4,7 tok/s. C’est limité par la bande passante de la LPDDR5x (~273 Go/s) vs un GPU dédié type RTX 3090 (936 Go/s).
Mais : sur RTX 3090, ces 70B sont physiquement impossibles à faire tourner car leur poids dépasse les 24 Go VRAM. Le GB10 les rend accessibles, même à 4,7 tok/s — soit ~280 tokens/minute, ce qui reste utilisable pour des analyses async (résumés long, classification batch, raisonnement CoT).
3. Le plafond absolu : 123B dense
Mistral-Large 123B atteint 2,3 tok/s mais consomme 115 Go sur 121 Go disponibles — la marge est trop juste pour un usage interactif (le système swappe au moindre process annexe). En pratique, c’est le mur.
→ La conclusion : un MoE 122B/10B (Qwen3.5-122B-A10B) serait infiniment mieux sur cette machine. ~50 Go en mémoire (3× moins), avec une qualité comparable, et vitesse estimée à 25-30 tok/s. Affaire à suivre dès qu’Ollama supporte l’arch.
4. Le dense 7B-32B : RTX 3090 reste reine
À taille de modèle égale et FP16, une RTX 3090 dépasse le GB10 sur tout ce qui tient en 24 Go de VRAM. Le GB10 est imbattable uniquement quand le modèle ne tient pas en VRAM dédiée. Donc :
- Si vous comptez tourner principalement du dense ≤ 32B → une RTX 3090 d’occasion (~700 €) reste plus rapide
- Si vous voulez tourner du 70B+ ou des MoE 30B+ → GB10 / DGX Spark écrase tout
Verdict pratique 2026
| Cas d’usage | Modèle recommandé sur GB10 | tok/s |
|---|---|---|
| Chat ultra-rapide, qualité 30B | qwen3:30b-a3b | 82,5 |
| Compact qualité Opus-lite | qwen2.5:14b ou phi4 | ~24 |
| Reasoning long (CoT) | deepseek-r1:70b | 4,7 |
| Tâches “70B général” max qualité | nemotron:70b | 4,7 |
| OCR / vision | qwen3-vl-30b-a3b (non testé ici, voir article dédié) | 42 |
Pour aller plus loin
Si vous montez votre propre stack self-hosted LLM avec une machine comparable, voici les ressources qui valent vraiment le coup d’œil :
- Hostinger VPS propose des plans avec GPU NVIDIA H100 / A100 louables à l’heure. Pour les benchmarks lourds sans engager 6 000 € de matos, c’est l’option la plus efficace pour tester en 2026 (lien affilié — disclosure ci-dessous).
- Bitdefender GravityZone : si votre machine de bench est exposée (tunnel SSH, IPMI distant), un EDR pro est non négociable. [Test approfondi à venir sur ce site].
- Documentation officielle Ollama : github.com/ollama/ollama
- Documentation llama.cpp main : github.com/ggerganov/llama.cpp
FAQ
Le GB10 Grace Blackwell vaut-il le DGX Spark pour du LLM 70B+ ? Oui, à condition d’accepter ~5 tok/s en génération. Pour de l’async (batch analyses, résumés long-form), c’est parfait. Pour du chat interactif, restez sur du 30B MoE.
Pourquoi qwen3:30b-a3b écrase qwen2.5:32b alors qu’il a moins de paramètres ? Parce qu’il est MoE 30B/3B : seulement 3 milliards de paramètres sont activés par token (un sous-ensemble d’experts). qwen2.5:32b dense calcule 32B de paramètres à chaque token. Sur du hardware bande-passante-limité comme le GB10, c’est 8× plus efficace.
Comment reproduire ce benchmark ?
Installez Ollama via le script officiel, ollama pull <model>, puis ollama run <model> --verbose avec le même prompt. Le champ eval rate donne tok/s.
Et les modèles ChatGPT / Claude / Gemini ? Hors scope : ce benchmark concerne uniquement les modèles locaux self-hostés. Les APIs cloud sont une autre catégorie de problème (latence réseau, coût par token, dépendance fournisseur).
Note méthodologie
Tous les tests utilisent le même prompt (200 tokens prédits) :
“Explique en 5 phrases courtes pourquoi le NVIDIA GB10 Grace Blackwell (unified memory 128 Go, FP4 natif, ARMv9.2) excelle sur les modèles MoE et les LLM 70B+, mais peut être dépassé par une RTX 3090 sur des modèles denses 7B-32B. Sois technique et précis.”
Pourquoi ce prompt : il est suffisamment technique pour engager les couches de raisonnement, suffisamment court pour ne pas biaiser le temps de prompt eval, et neutre sur la langue (FR + termes EN). Tous les tests ont été lancés à froid (modèle déchargé entre runs), avec 30s d’attente entre chaque pour laisser la mémoire revenir à un état stable.
Les données brutes (JSON) sont disponibles sur demande pour les chercheurs souhaitant reproduire / étendre le benchmark.
Disclosure affiliation
Cet article contient des liens affiliés. Lorsque vous cliquez sur un lien marqué “lien affilié” et que vous effectuez un achat, je peux recevoir une commission. Cela n’affecte pas le contenu ni le ranking dans le tableau ci-dessus — les chiffres sont les chiffres bruts mesurés. Les commissions servent uniquement à financer le temps de test (electricité, matériel emprunté, abonnements logiciels).
Article rédigé le 28 mai 2026 — données collectées 27 avril 2026.