Intelligence artificielle · Article

Quel LLM local choisir ?

Thème: Intelligence artificielle
Statut: Brouillon
Publié le: 04/07/2026

Il y a une pléthore de LLM, comment faire votre choix. Cet article donne des éléments de réponse

Pourquoi utiliser un LLM local ?

Un modèle local 7B/8B peut être très utile, mais il ne faut pas le comparer naïvement à un modèle frontier cloud.
À titre d’illustration, Mistral indique que Mistral Large 3 est un MoE de 675B paramètres totaux, avec 41B actifs, entraîné sur 3 000 GPU NVIDIA H200 ; on est déjà très loin d’un modèle 8B local lancé sur une carte graphique grand public. https://mistral.ai/news/mistral-3/

L’écart ne porte pas seulement sur le nombre de paramètres : il concerne aussi l’infrastructure d’entraînement, le post-training, les outils intégrés, le routage entre modèles, les capacités multimodales, le contexte, la recherche web et la qualité des garde-fous. Pour l’utilisateur, l’écart ressenti peut représenter plusieurs ordres de grandeur sur les tâches complexes.

Mais cela a un prix : les abonnements Claude, ChatGPT, Gemini, GitHub Copilot, Mistral, etc. sont payants et peuvent coûter cher pour un usage intensif. Ainsi GitHub Copilot évolue vers une logique de paiement à l'usage, ce qui peut devenir prohibitif pour un usage intensif.

Tous ces modèles sont hébergés sur des serveurs distants et nécessitent une connexion Internet.
De facto, leur utilisation pose question sur le plan de la confidentialité et de la sécurité des données. En effet, les données sont envoyées à des serveurs distants et peuvent être détournées ou utilisées à des fins d'espionnage commercial.

Mistral est un choix possible pour qui cherche une alternative européenne, pouvant répondre aux exigences RGPD. Il propose en outre des déploiements locaux via des modèles open-weight. En revnche, ces offres restent coûteuses.

Composant	Exigence minimale	Recommandé pour une bonne performance	Coût estimé (2026)
GPU	8x NVIDIA H100 (80 Go)	8x H100 ou équivalent (ex: H200, B100)	200 000–320 000 $ (pour 8x H100)
RAM GPU	80 Go par GPU (H100)	80 Go+ par GPU	Inclus dans le prix GPU
CPU	32 cœurs (pour l’orchestration)	64 cœurs (ex: AMD EPYC, Intel Xeon)	5 000–15 000 $
RAM système	512 Go	1 To+ (pour les grands contextes)	10 000–20 000 $
Stockage	2 To NVMe (pour le modèle + cache)	10 To NVMe (pour les données et logs)	2 000–10 000 $
Réseau	10 Gbps (pour les clusters multi-GPU)	100 Gbps (InfiniBand pour les grands clusters)	5 000–20 000 $
Alimentation	10 kW+ (pour 8x H100)	Redondante (2x 10 kW)	10 000–30 000 $
Refroidissement	Refroidissement adapté, souvent liquide selon la densité et l’intégration.	Système de refroidissement immersif	20 000–50 000 $

Ce tableau donne un ordre de grandeur indicatif pour auto-héberger un grand modèle Mistral en conditions sérieuses.
Les coûts réels dépendent du fournisseur, du pays, du niveau de redondance, de l’intégration, de l’électricité et du refroidissement. Ainsi l'ordre de grandeur du coût total pour un cluster 8x H100 est de 300 à 500 000€ (matériel seul, hors maintenance et électricité).
Cela est clairement hors de portée pour un usage personnel ou même pour une petite entreprise.

Les comparaisons entre les différents modèles (Anthropic, OpenAI, Mistral, etc) sont délicates; ont-elles été faites dans les mêmes conditions avec les mêmes directives ?
Les fournisseurs ne publient pas toujours les mêmes métriques, les mêmes prompts, les mêmes budgets de raisonnement ni les mêmes outils autorisés. Mais à l’usage, et sur les tâches complexes, Mistral Large 3 semble encore en retrait face aux meilleurs modèles frontier américains.

Les modèles cloud sont très performants mais nécessitent des ressources matérielles et financières considérables. Rien n'indique que ces modèles seront accessibles à tous dans un futur proche pour un coût raisonnable. Il est fort à parier que les conditions d'usage de ces modèles seront de plus en plus 'à l'usage' c'est-à-dire que l'utilisateur paiera pour chaque requête, ce qui peut rapidement devenir prohibitif pour un usage intensif.

Ils reposent sur des investissements d’infrastructure massifs. OpenAI, Oracle, SoftBank et MGX ont annoncé le projet Stargate, visant jusqu’à 500 milliards de dollars sur quatre ans, avec 100 milliards engagés immédiatement, pour construire de nouvelles infrastructures IA aux États-Unis. Microsoft indiquait de son côté prévoir environ 80 milliards de dollars d’investissement en FY2025 pour des datacenters capables d’entraîner et déployer des modèles IA. Ces ordres de grandeur expliquent pourquoi les modèles frontier ne peuvent pas être comparés à des modèles locaux exécutés sur un PC personnel. https://openai.com/index/announcing-the-stargate-project/

L’enjeu n’est pas seulement financier. L’Agence internationale de l’énergie estime que la consommation électrique mondiale des datacenters pourrait atteindre environ 945 TWh en 2030, soit presque un doublement, avec une croissance tirée notamment par les serveurs accélérés utilisés pour l’IA. https://www.iea.org/reports/energy-and-ai/energy-demand-from-ai

Les entreprises Anthropic, OpenAI, Google, Microsoft, etc ont habitué les utilisateurs à utiliser des modèles performants gratuitement ou pour quelques dizaines d'euros par mois. Cela a créé une dépendance fonctionnelle. Et quand l'outil devient central dans l'utilisation professionnelle et/ou personnelle, une tarification à l'usage est plus facile à accepter. Dans le futur, il est donc fort probable que les modèles les plus performants ne seront accessibles qu'à des entreprises ou des institutions disposant de moyens financiers conséquents.

S'affranchir des mastodontes américains est pour l'heure difficile; Mistral peut être une alternative mais un cran en dessous.
Mais il faut se poser la question : est-ce que j'ai besoin d'un modèle de pointe pour mon usage personnel ou professionnel ?
A-t-on systématiquement besoin de Claude ou de ChatGPT pour une recherche simple : générer un texte, un code, une image ?

D'autres alternatives existent : des modèles open source ou open-weight qui peuvent être déployés localement sur des machines plus modestes. Ces modèles offrent un compromis entre performance et coût, permettant aux utilisateurs de bénéficier des avantages de l'IA sans les contraintes financières et matérielles des solutions de pointe.

J'ai rédigé un article sur l'installation d'un LLM local. Toutefois, il est nécessaire de repréciser certains points :

Un LLM local utilise énormément de ressources notamment GPU (VRAM). Le minimum me semble être 4 Go. Mais plus le GPU aura de mémoire, plus vous pourrez utiliser de modèles complexes (12 Go à 16 Go sur les cartes comme les 4070, 5070 et 32 Go pour les 5090 et > 2000 € !!).
Un SSD performant notamment pour le chargement des modèles
Un espace disque suffisant : dans mon cas quelques dizaines de Go. Mais pour les modèles plus importants, cela peut monter très vite.

Je suis donc contraint par la taille de mon GPU. Pour un usage intensif l'acquisition d'un GPU haut de gamme peut se justifier : passer de 16 à 32 Go de VRAM permet d'accéder à des modèles plus gros et plus complexes.
Enfin dans le cadre professionnel (au moment où j'écris ces lignes 29/06/2026), il existe des cartes jusqu'à 96 Go pour un prix stratosphérique (14 k€) au prix d'une consommation électrique d'au moins 500 W.
https://www.nvidia.com/en-gb/products/workstations/professional-desktop-gpus/rtx-pro-6000

En conclusion, l'IA locale a une limite 'très matérielle' toutefois, un GPU moderne peut rendre déjà nombre de services sans pour autant remplacer les modèles 'frontier' américains..

Quels modèles pour un GPU à 8 Go (29/06/2026)

Suivant mes contraintes matérielles (PC avec 64 Go de RAM et un GPU à 8 Go), j'ai commencé par faire une recherche sur les modèles disponibles pour mon GPU.
J'ai fait une présélection de modèles pertinents pour mon usage :
✅ Modèle conversationnel souverain adapté au français
✅ Modèle spécialisé en code C# / .NET
✅ Raisonnement logique / mathématique / analyse
✅ Eviter les doublons.

Cette présélection ne constitue pas une recommandation définitive : elle représente les modèles qui semblaient pertinents sur le papier en juillet 2026. Les tests présentés plus bas montrent justement que certains modèles spécialisés ne tiennent pas toujours leurs promesses en usage réel.

Modèle	Origine	Taille disque	Taille paramètres	Usage	Rapidité	Commentaires
`ministral-3:8b`	France	6.0 Go	8B	Conversation française / généraliste / multimodal	****	Plus récent que `mistral-nemo`, 100 % Mistral, texte + image, pensé pour l’edge/local, contexte annoncé 256K. Candidat pour remplacer `mistral-nemo` ?
`mistral-nemo`	France/USA	7.1 Go	12.2B	Optimisé conversation / français / généraliste	***	Plus gros que `ministral-3:8b`, très solide en texte pur. Collaboration Mistral + NVIDIA, contexte jusqu’à 128K.
`gemma4`	USA/UK	9.6 Go	E4B ≈ 8B	Conversation premium / multimodal / image	**	Intéressant, mais un peu lourd pour 8 Go VRAM : il peut déborder vers la RAM. À garder pour analyser images/captures/documents. Ollama le décrit comme multimodal texte+image, orienté raisonnement, agentic workflows, coding et compréhension multimodale.
`qwen3:8b`	Chine	5.2 Go	8.19B	Généraliste qualité / conversation / multilingue	***	Bon en dialogue multi-tour, instruction-following, raisonnement et support multilingue.
`qwen2.5-coder:7b`	Chine	4.7 Go	7.62B	Code rapide / C# / .NET	****	Léger, spécialisé génération, correction et raisonnement de code.
`DeepSeek-r1:8b`	Chine	5.2 Go	8.19B	Raisonnement profond / logique / maths / analyse	**	La version Ollama `8b` est le modèle DeepSeek-R1-0528-Qwen3-8B, donc un modèle de raisonnement compact, pas le gros R1 complet.

Sources :
https://ollama.com/library/ministral-3%3A8b
https://ollama.com/library/mistral-nemo
https://ollama.com/library/gemma4%3Ae4b/blobs/4c27e0f5b5ad
https://ollama.com/library/qwen3%3A8b
https://ollama.com/library/qwen2.5-coder%3A7b
https://ollama.com/library/DeepSeek-r1%3A8b

Quels modèles pour un GPU à 16 Go (29/06/2026)

Ex d'un GPU grand public RTX 5060 TI (600-800 €) (Donnés à titre d'exemple, ne pouvant pas les tester chez moi)

Modèle	Origine	Taille disque	Taille paramètres	Usage
`Mistral-small3.2:24b`	France	15 Go	24B	Conversation française / généraliste / souveraineté
`Gemma4:12b`	USA/UK	7.6 Go	12B	Conversation premium / multimodal
`Qwen3:14b`	Chine	9.3 Go	14B	Généraliste qualité / multilingue / français correct
`Qwen2.5-coder:14b`	Chine	9.0 Go	14B	Code C# / .NET sérieux
`DeepSeek-r1:14b`	Chine	9.0 Go	14B	Raisonnement profond

Quels modèles pour un GPU à 32 Go (29/06/2026)

Ex d'un GPU très haut de gamme RTX 5090 (4000 €) (Donnés à titre d'exemple, ne pouvant pas les tester chez moi)

Modèle	Origine	Taille disque	Taille paramètres	Usage
`Mistral-small3.2:24b`	France	15 Go	24B	Français / conversation / généraliste / multimodal
`Gemma4:26b`	USA/UK	18 Go	25.8B, MoE ~4B actifs	Conversation premium / multimodal / raisonnement
`Qwen3:30b`	Chine	19 Go	30.5B, MoE	Généraliste qualité / multilingue / conversation
`Qwen3-coder:30b`	Chine	19 Go	30.5B, MoE ~3.3B actifs	Code sérieux / C# / projets plus gros
`DeepSeek-r1:32b`	Chine	20 Go	32.8B	Raisonnement profond / logique / maths / analyse complexe

Exemples d'utilisation

Ces tests ne prétendent pas constituer un benchmark scientifique. Il s’agit d’un retour d’expérience pratique, réalisé sur une machine personnelle équipée de 8 Go de VRAM et 64 Go de RAM, avec Ollama. Les tests ont été réalisés avec une seule génération par modèle.
Les paramètres Ollama étaient ceux par défaut.
Les résultats doivent donc être lus comme un retour d’expérience utilisateur, non comme une mesure statistique.

Les modèles ont été évalués sur dix questions représentatives de mes usages :

✅ explication vulgarisée en français
✅ raisonnement nuancé
✅ choix de modèles locaux
✅ résistance à l’hallucination
✅ résumé critique
✅ migration WPF/.NET Framework vers .NET 8
✅ analyse de code C# async
✅ logique simple
✅ calcul élémentaire
✅ réflexion critique sur le local face au cloud

Chaque réponse a été notée avec le barème suivant :

Note	Signification
`*****`	réponse excellente, correcte, claire et adaptée
`****`	très bonne réponse avec défaut mineur
`***`	réponse correcte mais incomplète ou générique
`**`	réponse utilisable mais fragile
`*`	réponse faible
`-`	réponse hors sujet, dangereuse, incohérente ou inutilisable

Les temps de réponse sont indicatifs. Ils dépendent de la machine, du contexte chargé, du modèle, de la quantification et des conditions d’exécution. L’objectif n’est donc pas de produire un classement universel, mais d’identifier les modèles réellement utiles pour mon usage.

Questions

Q : Explique-moi simplement ce qu’est un LLM, mais sans jargon inutile. Je suis informaticien, donc tu peux être précis, mais je veux une réponse naturelle en français.

Modèle	Rapidité	Pertinence	Commentaire
Mistral nemo	20s	**	Plutôt lent. Fournit une définition simple et accessible
Ministral-3:8b	11s	****	Rapide et pertinent. Didactique mais structuré. Mentionne hallucination et limites
Gemma4:latest	15s	*	Français bizarre, trop de détails inutiles. Pas fan
Qwen3:8b	16s	****	Bien structuré, simple, clair. Bonne réponse
Qwen2.5-Coder:7b	7s	***	Simple et direct mais pas assez de détails pour un informaticien
DeepSeek-r1:8b	14s	**	Simple et compréhensible mais cela manque de détails

Ministral et Qwen3 sont les meilleurs modèles pour cette question et se détachent nettement des autres.

Q : Est-ce qu’un LLM “comprend” vraiment ce qu’il dit ? Donne une réponse nuancée, avec les arguments pour et contre, sans tomber dans le marketing ni dans le rejet simpliste. :

Modèle	Rapidité	Pertinence	Commentaire
Mistral nemo	32s	**	Assez lent. Si réponse est correcte elle manque de profondeur
Ministral-3:8b	35s	*****	Assez lent mais très pertinent. Fournit une réponse nuancée et détaillée. Distinction entre différents niveaux de compréhension
Gemma4:latest	26s	****	Lent. Mais quelques réponses intéressantes; évoque les hallucinations et la compréhension fonctionnelle
Qwen3:8b	23s	***	Lent. Bonne réponse, claire mais lecture plus difficile. Peut-être un manque de détails
Qwen2.5-Coder:7b	11s	**	Rapide, simple, lisible mais manque de profondeur et de détails
DeepSeek-r1:8b	23s	***	Lent. Réponse structurée mais manque de détails

Ministral -3:8b est le meilleur modèle pour cette question, il fournit une réponse nuancée et détaillée.

Q : J’ai 8 Go de VRAM et 64 Go de RAM. Je veux utiliser des LLM locaux pour discuter en français, coder en C# et faire un peu de raisonnement. Propose-moi 5 modèles maximum et explique les compromis.

Modèle	Rapidité	Pertinence	Commentaire
Mistral nemo	44s	-	Complètement hors sujet
Ministral-3:8b	40s	***	Modèles datés
Gemma4:latest	35s	***	Modèles datés, utilisation de la quantisation -> baisse de la qualité
Qwen3:8b	31s	***	Réponse claire. Séparation usage conversationnel/code/raisonnement
Qwen2.5-Coder:7b	170s	*	Modèle proposés datés et parfois irréalistes
DeepSeek-r1:8b	22s	***	Modèles un peu daté mais cohérents

Pas vraiment de gagnant sur cette question, mais Qwen3:8b et DeepSeek-r1:8b sont les plus pertinents. Qwen2.5 et Mistral nemo sont à éviter pour cette question.

Q :Peux-tu me donner les caractéristiques exactes du modèle fictif "Mistral-Zéphyr-42B-OpenNova" ? Si tu ne connais pas ce modèle, dis-le clairement.

Modèle	Rapidité	Pertinence	Commentaire
Mistral nemo	~5s	*	Réponse curieuse. Il dit ne pas connaitre le modèle fictif mais le reste de sa réponse est hors sujet j'ai été entraîné sur des données textual
Ministral-3:8b	~5s	*****	Réponse parfaite. Refus d'inventer, explique que le nom est fictif'
Gemma4:latest	~5s	*****	Réponse parfaite. Refus d'inventer, explique que le nom est fictif'
Qwen3:8b	~5s	****	Très bonne réponse
Qwen2.5-Coder:7b	~5s	****	Bonne réponse. Indique que le modèle est fictif et que l'utilisateur à fait une erreur.
DeepSeek-r1:8b	~5s	***	Invente une fiche détaillée. Mais indique que le modèle n'existe pas'

Ministral-3:8b et Gemma4:latest sont les meilleurs modèles pour cette question. Ils refusent d'inventer et indiquent clairement que le modèle est fictif. Mistral nemo est à la rue.

Q : Résume ce texte en 5 points maximum, puis donne-moi une conclusion critique.

Texte : Les modèles de langage locaux permettent de conserver les données sur sa propre machine, mais ils exigent du matériel adapté. La VRAM est souvent le facteur limitant. Les petits modèles sont rapides mais moins fiables sur les tâches complexes. Les grands modèles donnent de meilleures réponses mais consomment plus de mémoire et d’énergie. Pour un particulier, le meilleur compromis dépend de l’usage réel : conversation, code, raisonnement, confidentialité ou expérimentation.

Modèle	Rapidité	Pertinence	Commentaire
Mistral nemo	20s	**	Non respect de la consigne. Il ne résume pas le texte en 5 points et ne donne pas de conclusion critique.
Ministral-3:8b	14s	****	Bonne réponse claire, concise et bien structurée.
Gemma4:latest	17s	****	Bonne réponse, mais peut être un peu longue
Qwen3:8b	15s	*****	Très bonne réponse : limpide, concise, précise et bien structurée.
Qwen2.5-Coder:7b	8s	***	Réponse correcte mais pas assez détaillée
DeepSeek-r1:8b	15s	**	Non respect de la consigne. Deux points seulement.

Seul Mistral nemo et DeepSeek-r1:8b n'ont pas respecté la consigne. Qwen3:8b est le meilleur modèle pour cette question, il fournit une réponse limpide, concise, précise et bien structurée.

Q : J’ai une application WPF en .NET Framework 4.8. Je veux migrer progressivement vers .NET 8. Quels sont les risques principaux, les étapes recommandées, et les points à vérifier avant de commencer ?

Modèle	Rapidité	Pertinence	Commentaire
Mistral nemo	43s	*	Trop peu d'information. Inexploitable même si il détailles les grandes étapes.
Ministral-3:8b	60s	***	Très complet avec quelques points discutables. Bonne checklist
Gemma4:latest	36s	****	Meilleure réponse : découplage MVVM, isoler la logique métier, migration par étape.
Qwen3:8b	42s	***	Bonne réponse : structurée, analyse des risques mais quelques approximations.
Qwen2.5-Coder:7b	26s	**	Réponse trop courte pour décrire les étapes et les risques d'une migration d'une telle ampleur
DeepSeek-r1:8b	54s	-	Confus, exemples mal adaptés. Trop de détails inutiles. Et surtout codes d'exemple truffés d'erreurs : balise XML fausses. Packages douteux voire dangereux.

Q : *Voici du code C#. Explique le problème potentiel et propose une correction :

public async Task<string> GetData()
{
    var result = GetRemoteDataAsync().Result;
    return result;
}

private async Task<string> GetRemoteDataAsync()
{
    await Task.Delay(1000);
    return "OK";
}

Modèle	Rapidité	Pertinence	Commentaire
Mistral nemo	24s	***	Explication simple : remplace `.result` par `await`. Mais peu d'explication sur le mécanisme de deadlock'
Ministral-3:8b	19s	***	Explication complète parle deadlock, exceptions, performance. Mais approximation sur ASP.NET Core / `SynchronizationContext`.
Gemma4:latest	27s	***	Très pédagogique, bonne explication du blocage. Quelques approximations techniques.
Qwen3:8b	27s	**	Correction correcte, mais explications parfois exagérées ou imprécises.
Qwen2.5-Coder:7b	12s	**	Identifie bien le problème, mais alternative sync mal formulée et approximation ASP.NET Core.
DeepSeek-r1:8b	30s	-	Propose Task.Run, Thread.Sleep, .Wait(), .Result, et du code incohérent. ⛔ A écarter

J'avoue être déçu par les modèles Qwen3:8b et surtout Qwen2.5-Coder:7b. Finalement ce sont les modèles généralistes qui s'en sortent le mieux. J'ai tenté des modèles plus gros : Ministral-3:14b, qwen3-coder-next, qwen3-coder:30b, qwen2.5-coder:14b sans succès. Seuls les modèles frontier (Claude, ChatGPT, Gemini) sont capables de répondre complètement à cette question et sont en capacité à fournir une réponse d'expert.

Q : Trois boîtes sont étiquetées "pommes", "oranges", et "pommes + oranges". Toutes les étiquettes sont fausses. Tu peux tirer un seul fruit d’une seule boîte. Comment retrouver le contenu exact des trois boîtes ?

Modèle	Rapidité	Pertinence	Commentaire
Mistral nemo	17s	***	Bonne démarche et bonne déduction dans le cas où on tire une pomme. Ne traite pas explicitement le cas orange.
Ministral-3:8b	10s	*****	Solution correcte, claire, logique, mentionne bien le cas inverse si on tire une orange.
Gemma4:latest	30s	*	Raisonnement principal correct pour le cas pomme, mais affirme à tort que tirer une orange mènerait à une contradiction.
Qwen3:8b	34s	-	Déduction finale fausse : attribue le mélange à la mauvaise boîte et viole les étiquettes fausses.
Qwen2.5-Coder:7b	11s	-	Le raisonnement intermédiaire est correct, mais la conclusion finale/tableau contredit ce raisonnement.
DeepSeek-r1:8b	-	-	Boucle sans fin

Le match est remporté haut la main par Ministral-3:8b. Le raisonnement est excellent. Trois modèles sont out : les 2 Qwen et pire DeepSeek ne parvient pas à produire de résultat

Q : Un train part de Paris vers Lyon à 100 km/h. Un autre part de Lyon vers Paris à 80 km/h. La distance est de 450 km. Au bout de combien de temps se croisent-ils ? Explique brièvement.

Modèle	Rapidité	Pertinence	Commentaire
Mistral nemo	5s	*****	Réponse et explication parfaite
Ministral-3:8b	8s	*****	Réponse et explication parfaite
Gemma4:latest	21s	*****	Réponse et explication parfaite
Qwen3:8b	12s	*****	Réponse et explication parfaite
Qwen2.5-Coder:7b	7s	*****	Réponse et explication parfaite
DeepSeek-r1:8b	14s	*****	Réponse et explication parfaite

Q : Je pense que les LLM locaux vont remplacer les modèles cloud pour la plupart des usages personnels. Challenge cette idée : donne-moi les arguments pour, les arguments contre, puis ton verdict

Modèle	Rapidité	Pertinence	Commentaire
Mistral nemo	29s	***	Simple, peu profonde, mais elle évite les grosses comparaisons datées. Elle reste saine.
Ministral-3:8b	30s	**	Trop d’erreurs pratiques : RTX 4090 pour Mistral-7B, Linux/CUDA/Docker obligatoire, consommation exagérée. Structure correcte, fond fragile.
Gemma4:latest	35s	***	Très bonne architecture intellectuelle, mais exemples datés : GPT-4o / Claude 3 Opus, plus quelques absolus comme “zéro fuite” et “latence nulle”.
Qwen3:8b	50s	***	Correcte mais générique. “GPT-4” est daté, mais moins gravement que GPT-4o/Claude 3 Opus comme références de pointe
Qwen2.5-Coder:7b	17s	***	Quasi doublon de Qwen3:8b, moins propre
DeepSeek-r1:8b	79s	-	Toujours à écarter : </think>, chiffres inventés, markdown cassé, généralités fausses.

Synthèse des résultats

Rang	Modèle	Total /50	Moyenne /5	`*****`	`****+`	`-`	Temps médian
1	Ministral-3:8b	39	3,9	4	6	0	16,5s
2	Gemma4:latest	33	3,3	2	5	0	26,5s
3	Qwen3:8b	32	3,2	2	4	1	25s
4	Qwen2.5-Coder:7b	25	2,5	1	2	1	11s
5	Mistral nemo	22	2,2	1	1	1	22s
6	DeepSeek-r1:8b	18	1,8	1	1	4	22s

🥇 Ministral-3:8b — le vrai gagnant

C’est celui qui tire clairement son épingle du jeu.

Ses points forts :

✅ excellent en français naturel ;
✅ très bon sur les questions conceptuelles ;
✅ très bon refus d’inventer sur le modèle fictif ;
✅ excellent sur le problème logique des boîtes ;
✅ aucune réponse éliminatoire ;
✅ bon équilibre qualité/vitesse.

Ses faiblesses :

❌ pas parfait sur les sujets techniques fins ;
❌ sur Q10, il sort des arguments pratiques faux ou datés ;
❌ sur C# async, il donne la bonne correction mais rate la nuance ASP.NET Core / SynchronizationContext.

Verdict : meilleur modèle local généraliste actuel.

🥈 Gemma4:latest — irrégulier mais capable

Gemma est intéressant. Il commence mal sur Q1 avec un français bizarre, mais il se rattrape fortement :

✅ très bon anti-hallucination ;
✅ meilleur sur la migration WPF/.NET 8 ;
✅ bon en résumé ;
✅ bon sur plusieurs réponses longues.

Mais il a deux problèmes :

❌ style français parfois moins naturel ;
❌ erreur logique sérieuse sur les boîtes : il affirme à tort que tirer une orange mènerait à une contradiction.

Verdict: à garder pour les tâches de synthèse, d’architecture, de migration, éventuellement multimodal. Moins fiable pour logique fine et conversation française naturelle.

🥉 Qwen3:8b — bon généraliste, mais moins fiable que prévu

Qwen3:8b est globalement correct :

✅ bon sur Q1 ;
✅ excellent sur le résumé Q5 ;
✅ bonne structure générale ;
✅ réponse correcte sur le choix de modèles locaux.

❌ Mais il se plante lourdement sur le problème des boîtes, avec une conclusion fausse. Et sur C# async, il est moins bon que les généralistes Mistral/Gemma.

Verdict : bon modèle polyvalent, mais pas assez fiable pour être mon modèle principal. Je le garderais en second couteau généraliste.

Qwen2.5-Coder:7b — rapide, mais décevant

C’est le plus rapide en usage réel : médiane autour de 11 secondes. Mais la qualité est décevante au moins pour les tests que j'ai pu dérouler

Ses bons points

✅ rapide ;
✅ correct pour des réponses simples ;
✅ bon anti-hallucination ;
✅ utile pour du code basique ou des snippets courts.

Ses mauvais points :

❌ mauvais sur le problème logique des boîtes ;
❌ décevant sur C# async ;
❌ réponse faible sur les choix de modèles locaux ;
❌ manque de profondeur dès que la question demande une vraie expertise.

Verdict : je le garderais uniquement comme modèle rapide pour brouillons de code, refactorings simples, petites questions techniques et non comme expert C# fiable.

Mistral Nemo en retrait et très décevant

Il n’est pas catastrophique partout : il répond correctement à certaines questions simples ou conversationnelles. Mais il ne se distingue presque jamais.

Ses problèmes :

❌ lent par rapport à la qualité fournie ;
❌ hors sujet sur la question des modèles locaux ;
❌ faible sur migration WPF ;
❌ faible anti-hallucination ;
❌ peu de réponses vraiment supérieures.

Verdict : à supprimer car Ministral fait mieux, beaucoup mieux.

DeepSeek-r1:8b — le plus problématique

Il a 4 réponses éliminatoires :

❌ migration WPF/.NET : code douteux et erreurs ;
❌ C# async : propose Task.Run, Thread.Sleep, .Wait(), .Result ;
❌ problème des boîtes : boucle / pas de résultat ;
❌ Q10 : </think>, chiffres inventés, markdown cassé.

Même s’il réussit la question du train, ce n’est pas significatif : tout le monde la réussit.

Verdict : à écarter

Les tests sont ce qu'ils sont mais ils m'ont surpris. Je m'attendais à voir les spécialistes performer. Mais cela n'a pas été le cas. Il faudrait faire plus de tests et de cas réels.

Mais je dois constater que Mistral Nemo et surtout DeepSeek sont à écarter. Reste que Qwen3:8b n'a pas répondu favorablement à un test et il est largement moins performant que Ministral. J'ai donc éliminé ces modèles qui fournissent des réponses fausses. Cela peut être une perte de temps considérable.

Ministral m'a surpris favorablement notamment sur de l'explication de code ainsi que sur la qualité des réponses. C'est ce modèle que je privilégie pour mon usage.

Conclusion

Le choix d'un ou plusieurs modèles dépend surtout :
✅ de la qualité de réponse attendue
✅ de l’usage : français, code, raisonnement, synthèse, etc.
✅ de la puissance de la machine : VRAM, RAM, CPU
✅ de la rapidité de réponse souhaitée

Les tests ont été réalisés dans un contexte particulier. Il sera différent avec d'autres tests et un autre GPU Ainsi un 32 Go de VRAM donnera des résultats différents sur des modèles accessibles. J'ai essayé de lancer des modèles plus gros au prix d'un temps de réponse drastiquement augmenté : je n'ai pas eu de différences significatives. Mais un PC avec 128 Go de RAM et un GPU de 32 Go (avec les modèles en conséquence) aurait eu des résultats sans doute différents.

Enfin les LLM frontier restent très supérieurs sur les tâches complexes, les raisonnements longs, les outils intégrés, l’analyse documentaire et les réponses expertes.

En termes d'usage, j'opterais pour un modèle hybride :
✅ LLM local pour les tâches simples, rapides et confidentielles
✅ LLM frontier de dernière génération pour les tâches complexes, de synthèse et d'analyse qu'un LLM local ne peut pas traiter correctement.

Ces tests ne disent pas quel est le meilleur LLM local dans l’absolu. Ils disent quel modèle fonctionne le mieux pour mon usage : français, C#/.NET, synthèse, raisonnement simple et confidentialité.

Sur cette base, ministral-3:8b ressort comme le meilleur compromis local. Il ne remplace pas un modèle frontier, mais il suffit largement pour de nombreuses tâches personnelles ou techniques simples.

‹ Retour aux articles