Intelligence artificielle · Article
Comment utiliser un LLM local
Vous souhaitez de la confidentialité, travailler en pur local, cet article est fait pour vous

Utiliser un LLM local avec Ollama : l’IA chez soi
Les grands modèles de langage, ou LLM, sont souvent associés à des services en ligne comme ChatGPT, Claude ou Gemini. Pourtant, il est aujourd’hui possible d’exécuter certains modèles directement sur son propre ordinateur. C’est précisément ce que permet Ollama : installer, lancer et interroger des modèles d’IA localement, sans nécessairement dépendre d’un service cloud.
L’intérêt principal est simple : reprendre le contrôle. Avec un LLM local, les données restent sur la machine. Pour un développeur, c’est particulièrement intéressant lorsqu’on souhaite analyser du code source, générer des exemples, documenter un projet ou expérimenter sans envoyer ses fichiers vers un service distant.
Pourquoi utiliser un LLM local ?
Un LLM local présente plusieurs avantages.
D’abord, il permet de travailler hors ligne, une fois le modèle téléchargé. C’est utile pour expérimenter, apprendre ou développer dans un environnement isolé.
Ensuite, il offre une meilleure confidentialité. Les prompts, les extraits de code et les documents utilisés restent sur le PC. Ce n’est pas une garantie absolue de sécurité — il faut toujours faire attention aux outils branchés autour — mais c’est un vrai progrès par rapport à un envoi systématique dans le cloud.
Enfin, il n’y a pas de facturation au token. L’usage devient essentiellement limité par les ressources matérielles disponibles : mémoire vive, carte graphique, processeur et stockage.
Le rôle du matériel
Faire tourner un LLM local demande des ressources. Les petits modèles peuvent fonctionner sur CPU, mais pour obtenir une expérience agréable, une carte graphique dédiée est un vrai plus. La quantité de VRAM est souvent plus importante que la puissance brute : un modèle doit tenir en mémoire pour être rapide.
Sur une machine équipée de 64 Go de RAM et d’une carte comme une RTX 3070 Ti avec 8 Go de VRAM, on peut déjà utiliser des modèles utiles, par exemple des modèles de code en 7B ou 14B paramètres. Les modèles plus gros peuvent fonctionner partiellement en RAM, mais ils deviennent vite plus lents.
Il ne faut donc pas fantasmer le LLM local comme un remplacement parfait des meilleurs modèles cloud. C’est plutôt un outil complémentaire, très pratique pour les tâches quotidiennes.
Prix et coût réel
L’un des avantages majeurs d’un LLM local est l’absence de facturation à l’usage. Contrairement aux services cloud qui facturent au token ou à l’abonnement, Ollama est gratuit et open source.
Cependant, il existe des coûts indirects :
- Matériel : une carte graphique performante peut coûter entre 300 € et plus de 1500 € selon les modèles.
- Consommation électrique : faire tourner un modèle sur GPU consomme plus d’énergie qu’un usage classique.
- Stockage : les modèles peuvent peser plusieurs gigaoctets (de 4 Go à plus de 20 Go selon leur taille).
En résumé :
Cloud : coût variable mais immédiat
Local : coût initial plus élevé, mais usage illimité ensuite
Pour un développeur qui utilise régulièrement l’IA, le local peut devenir rentable sur le long terme.
Installer Ollama
L’installation d’Ollama est simple et rapide.
Sous Windows / macOS / Linux
Télécharger Ollama depuis le site officiel :
https://ollama.comInstaller l’application (setup classique).
Vérifier l’installation en ligne de commande :
ollama --version
Télécharger un modèle
ollama pull qwen2.5-coder:14b
Lancer un modèle
ollama run qwen2.5-coder:14b
Une fois lancé, vous pouvez interagir directement avec le modèle dans le terminal.
Utilisation en ligne de commande
Ollama fonctionne très bien en CLI, ce qui est idéal pour les développeurs.
Exemples d’utilisation :
ollama run qwen2.5-coder:14b
Puis :
Explique cette classe C#.
Optimise ce code LINQ.
Corrige ce bug dans mon composant Blazor.
Vous pouvez aussi envoyer directement un prompt :
ollama run qwen2.5-coder:14b "Explique ce code C#"
Ollama expose également une API locale :
http://localhost:11434
Cela permet de l’intégrer dans des scripts, outils ou applications.
Utilisation avec Visual Studio 2026 et LocalPilot
Avec Visual Studio 2026, il devient possible d’intégrer un LLM local directement dans l’environnement de développement grâce à des extensions comme LocalPilot.
Installation de LocalPilot
Ouvrir Visual Studio 2026
Aller dans :
Extensions > Gérer les extensionsRechercher LocalPilot
Installer l’extension puis redémarrer Visual Studio
Configuration avec Ollama
LocalPilot peut se connecter à Ollama via son API locale :
http://localhost:11434
Dans les paramètres de l’extension :
- Choisir Ollama comme fournisseur
- Sélectionner le modèle installé (ex :
qwen2.5-coder:14b)
Utilisation dans Visual Studio
Une fois configuré, vous pouvez :
- Générer du code directement dans l’éditeur
- Demander des explications sur une classe
- Corriger du code sélectionné
- Générer de la documentation
Exemples :
Explique cette méthode.
Ajoute des commentaires XML.
Optimise cette requête LINQ.
L’avantage principal est que tout reste local, sans envoyer votre code vers un service externe.
Utilisation dans un projet de développement
Pour un projet web, par exemple en ASP.NET ou Blazor, un bon usage consiste à utiliser Ollama comme assistant local de développement. Le modèle peut aider à comprendre l’architecture du projet, proposer des corrections CSS, générer du code simple, rédiger de la documentation ou expliquer une erreur de compilation.
Le bon réflexe est de lui confier des tâches limitées :
Analyse ce fichier CSS sans le modifier.
Propose une amélioration responsive minimale.
Explique ce composant Razor.
Génère une documentation courte pour cette classe.
En revanche, il faut éviter les demandes trop vagues comme :
Améliore tout mon projet.
Un LLM local reste un assistant, pas un architecte omniscient. Il peut produire du code incorrect, inventer des API ou proposer des modifications trop larges. L’usage avec Git est donc fortement recommandé : chaque modification doit pouvoir être relue, testée et annulée.
Retours d'expérience
Introduction
Pour l'instant, je suis en rodage. Mais l'installation d'un LLM m'a permis de comprendre une chose : la puissance de calcul demandée est colossale. Mon PC est plutôt une bonne machine :
- Core I5-13600KF (14 Coeurs, 20 Processeurs logiques)
- GPU NVIDIA GeForce RTX 3070TI 8Go
- 64 Go Ram
Pour donner une idée de la taille des modèles cloud :
| Rang | Modèle | Taille | Type | Développeur | Disponibilité | Accès |
|---|---|---|---|---|---|---|
| 1 | DeepSeek-V3.2 | 671B | MoE (Mixture of Experts) | DeepSeek | ✅ Open-source | Ollama (deepseek-v3.2) |
| 2 | Qwen3.5 | 122B | Dense | Alibaba | ✅ Open-source | Ollama (qwen3.5:122b) |
| 3 | Qwen3 | 235B | Dense | Alibaba | ✅ Open-source | Ollama (qwen3:235b) |
| 4 | Gemma4 | 31B | Dense | ✅ Open-source | Ollama (gemma4:31b) | |
| 5 | Llama 3.3 | 70B | Dense | Meta | ✅ Open-source | Ollama (llama3.3:70b) |
| 6 | Mistral Large 2 | 123B | Dense | Mistral AI | ✅ Open-source | Ollama (mistral-large) |
| 7 | GLM-5.2 | 744B (40B actifs) | MoE | Z.ai | ✅ Open-source | Ollama (glm-5.2) |
| 8 | DeepSeek-R1 | 671B | MoE | DeepSeek | ✅ Open-source | Ollama (deepseek-r1:671b) |
| 9 | Nemotron-3-Super | 120B | MoE | NVIDIA | ✅ Open-source | Ollama (nemotron-3-super:120b) |
| 10 | GPT-4o | ~1.7T (estimé) | Propriétaire | OpenAI | ❌ API uniquement | OpenAI API |
| 11 | Claude 3.5 Sonnet | ~500B (estimé) | Propriétaire | Anthropic | ❌ API uniquement | Anthropic API |
| 12 | Gemini 2.5 Pro | ~1T (estimé) | Propriétaire | ❌ API uniquement | Google AI Studio |
Sur les plus grands LLM accessibles localement via Ollama :
| Modèle | Taille | Type | VRAM requise (4 bits) | RAM requise (si pas assez de VRAM) | Commande Ollama |
|---|---|---|---|---|---|
| deepseek-v3.2 | 671B | MoE | ❌ 120-160 Go | 200 Go+ | ollama pull deepseek-v3.2 |
| deepseek-r1:671b | 671B | MoE | ❌ 120-160 Go | 200 Go+ | ollama pull deepseek-r1:671b |
| qwen3:235b | 235B | Dense | ❌ 40-50 Go | 80 Go+ | ollama pull qwen3:235b |
| qwen3.5:122b | 122B | Dense | ❌ 20-25 Go | 40 Go+ | ollama pull qwen3.5:122b |
| glm-5.2 | 744B (40B actifs) | MoE | ❌ 30-40 Go | 60 Go+ | ollama pull glm-5.2 |
| mistral-large | 123B | Dense | ❌ 24-30 Go | 50 Go+ | ollama pull mistral-large |
| llama3.3:70b | 70B | Dense | ❌ 12-16 Go | 30 Go+ | ollama pull llama3.3:70b |
| gemma4:31b | 31B | Dense | ✅ 6-8 Go | 12 Go | ollama pull gemma4:31b |
| mixtral:8x22b | 47B (8x22B) | MoE | ❌ 16-20 Go | 40 Go+ | ollama pull mixtral:8x22b |
| qwen3:32b | 32B | Dense | ✅ 6-8 Go | 12 Go | ollama pull qwen3:32b |
| deepseek-coder-v2:236b | 236B | MoE | ❌ 40-50 Go | 80 Go+ | ollama pull deepseek-coder-v2:236b |
Les modèles que je peux utiliser sur ma machine :
| Objectif | Plus grand modèle possible | Alternative | À éviter |
|---|---|---|---|
| Généraliste | gemma4:31b | qwen3:32b | llama3.3:70b (trop lent) |
| Code | codestral (22B) | deepseek-coder-v2:16b | qwen2.5-coder:32b (trop gros) |
| Raisonnement | deepseek-r1:8b | qwen3:8b | deepseek-r1:671b (impossible) |
| Multilingue | qwen3:32b | gemma4:31b | qwen3:235b (trop gros) |
| Contexte long | mistral-nemo (12B) | gemma4:31b | glm-5.2 (trop gros) |
L'utilisation d'un LLM local, peut être une bonne alternative pour des requêtes simples. J'ai noté que sur Copilot, ça part très vite : on arrive rapidement à épuiser les crédits (7 000) dans mon cas.
L'utilisation d'un LLM local dépend finalement de votre utilisation. Dans un contexte où les modèles seront de plus en plus complexes et volumineux, le coût d'exploiration est important. Le changement de tarification de GitHub Copilot en a surpris plus d'un, moi y compris. Ce n'est pas forcément une mauvaise chose car cela nous fait réfléchir un peu plus aux prompts, et d'utiliser les agent à bon escient.
Toutefois, il reste que cela ne suffit pas, les changements tarifaires ne sont peut être pas terminés, l'utilisation de LLM opensource locaux prend tout son sens. Je pense donc que ces modèles locaux ne peuvent être comparés à Claude, GPT, gemini, etc car ils tournent sur des datacenters qui contiennent des machines spécifiques qui sont sans aucune commune mesure avec nos PC aussi puissants soient-ils : exemple du NVIDIA GB300 NVL72 (https://www.nvidia.com/fr-fr/data-center/gb300-nvl72/) dont le prix est estimé entre 4 à 6M$ ! La consommation électrique est faramineuse : 155 kW. Pour rappel, un carte graphique classique c'est entre 0,2 et 0,5kW. Soit 1000x moins en ordre de grandeur.
Pour imaginer ce que coûte l'IA en termes d'énergie : L’AIE estime que les datacenters consommaient environ 415 TWh en 2024, soit environ 1,5 % de l’électricité mondiale, et pourraient monter vers 945 TWh en 2030. C’est plus que la consommation électrique annuelle actuelle du Japon.
Conclusion
Comme nous l'avons démontré plus haut, les coûts d'infrastructure des datacentersIA sont énormes et le seront davantages dans l'avenir. Le besoin est là dans nombre de domaines. L'utilisateur sera forcément impacté. Le coût à l'usage va être de plus en plus la règle. Et les prix pratiqués par les grands acteurs ne vont pas être négligeables.
Je n'ai pas parlé du risque de sécurité systèmique. En effet, à ce jour les plus puissants acteurs peuvent être déconnectés (Exemple de Fable 5 & Mythos 5 ont été suspendus brutalement par le gouvernement américain pour des questions de sécurité). Il semble nécessaire d'avoir un plan B, au cas où...
J'ai donc installé Ollama pour ces raisons : prix / sécurisation. J'ajoute que ces LLM sont opensources et n'ont pas les même contraintes. Les premiers essais sont concluants même si les résultats n'ont rien à voir avec Gpt ou Claude.
La limite principale reste le matériel et conditionne l'utilisation de tel ou tel modèle. Mais un PC gamer de dernière génération ne saurait faire tourner les plus gros modèle opensource. Mais pour de nombreuses tâches courantes, il peut déjà rendre de vrais services.
Le bon compromis consiste donc à utiliser un LLM local pour le quotidien, et à réserver les modèles cloud les plus puissants aux problèmes plus complexes.
En clair : Ollama ne remplace pas totalement ChatGPT ou Copilot, mais il complète très bien la boîte à outils du développeur.