Intelligence artificielle · Article

Comment utiliser un LLM local

Thème: Intelligence artificielle

Vous souhaitez de la confidentialité, travailler en pur local, cet article est fait pour vous

équipé d'une carte graphique exécutant un LLM local avec Ollama

Utiliser un LLM local avec Ollama : l’IA chez soi

Les grands modèles de langage, ou LLM, sont souvent associés à des services en ligne comme ChatGPT, Claude ou Gemini. Pourtant, il est aujourd’hui possible d’exécuter certains modèles directement sur son propre ordinateur. C’est précisément ce que permet Ollama : installer, lancer et interroger des modèles d’IA localement, sans nécessairement dépendre d’un service cloud.

L’intérêt principal est simple : reprendre le contrôle. Avec un LLM local, les données restent sur la machine. Pour un développeur, c’est particulièrement intéressant lorsqu’on souhaite analyser du code source, générer des exemples, documenter un projet ou expérimenter sans envoyer ses fichiers vers un service distant.

Pourquoi utiliser un LLM local ?

Un LLM local présente plusieurs avantages.

D’abord, il permet de travailler hors ligne, une fois le modèle téléchargé. C’est utile pour expérimenter, apprendre ou développer dans un environnement isolé.

Ensuite, il offre une meilleure confidentialité. Les prompts, les extraits de code et les documents utilisés restent sur le PC. Ce n’est pas une garantie absolue de sécurité — il faut toujours faire attention aux outils branchés autour — mais c’est un vrai progrès par rapport à un envoi systématique dans le cloud.

Enfin, il n’y a pas de facturation au token. L’usage devient essentiellement limité par les ressources matérielles disponibles : mémoire vive, carte graphique, processeur et stockage.

Le rôle du matériel

Faire tourner un LLM local demande des ressources. Les petits modèles peuvent fonctionner sur CPU, mais pour obtenir une expérience agréable, une carte graphique dédiée est un vrai plus. La quantité de VRAM est souvent plus importante que la puissance brute : un modèle doit tenir en mémoire pour être rapide.

Sur une machine équipée de 64 Go de RAM et d’une carte comme une RTX 3070 Ti avec 8 Go de VRAM, on peut déjà utiliser des modèles utiles, par exemple des modèles de code en 7B ou 14B paramètres. Les modèles plus gros peuvent fonctionner partiellement en RAM, mais ils deviennent vite plus lents.

Il ne faut donc pas fantasmer le LLM local comme un remplacement parfait des meilleurs modèles cloud. C’est plutôt un outil complémentaire, très pratique pour les tâches quotidiennes.

Prix et coût réel

L’un des avantages majeurs d’un LLM local est l’absence de facturation à l’usage. Contrairement aux services cloud qui facturent au token ou à l’abonnement, Ollama est gratuit et open source.

Cependant, il existe des coûts indirects :

Matériel : une carte graphique performante peut coûter entre 300 € et plus de 1500 € selon les modèles.
Consommation électrique : faire tourner un modèle sur GPU consomme plus d’énergie qu’un usage classique.
Stockage : les modèles peuvent peser plusieurs gigaoctets (de 4 Go à plus de 20 Go selon leur taille).

En résumé :

Cloud : coût variable mais immédiat
Local : coût initial plus élevé, mais usage illimité ensuite

Pour un développeur qui utilise régulièrement l’IA, le local peut devenir rentable sur le long terme.

Installer Ollama

L’installation d’Ollama est simple et rapide.

Sous Windows / macOS / Linux

Télécharger Ollama depuis le site officiel :
```
https://ollama.com
```
Installer l’application (setup classique).
Vérifier l’installation en ligne de commande :

ollama --version

Télécharger un modèle

ollama pull qwen2.5-coder:14b

Lancer un modèle

ollama run qwen2.5-coder:14b

Une fois lancé, vous pouvez interagir directement avec le modèle dans le terminal.

Utilisation en ligne de commande

Ollama fonctionne très bien en CLI, ce qui est idéal pour les développeurs.

Exemples d’utilisation :

ollama run qwen2.5-coder:14b

Puis :

Explique cette classe C#.
Optimise ce code LINQ.
Corrige ce bug dans mon composant Blazor.

Vous pouvez aussi envoyer directement un prompt :

ollama run qwen2.5-coder:14b "Explique ce code C#"

Ollama expose également une API locale :

http://localhost:11434

Cela permet de l’intégrer dans des scripts, outils ou applications.

Utilisation avec Visual Studio 2026 et LocalPilot

Avec Visual Studio 2026, il devient possible d’intégrer un LLM local directement dans l’environnement de développement grâce à des extensions comme LocalPilot.

Installation de LocalPilot

Ouvrir Visual Studio 2026
Aller dans :
```
Extensions > Gérer les extensions
```
Rechercher LocalPilot
Installer l’extension puis redémarrer Visual Studio

Configuration avec Ollama

LocalPilot peut se connecter à Ollama via son API locale :

http://localhost:11434

Dans les paramètres de l’extension :

Choisir Ollama comme fournisseur
Sélectionner le modèle installé (ex : qwen2.5-coder:14b)

Utilisation dans Visual Studio

Une fois configuré, vous pouvez :

Générer du code directement dans l’éditeur
Demander des explications sur une classe
Corriger du code sélectionné
Générer de la documentation

Exemples :

Explique cette méthode.
Ajoute des commentaires XML.
Optimise cette requête LINQ.

L’avantage principal est que tout reste local, sans envoyer votre code vers un service externe.

Utilisation dans un projet de développement

Pour un projet web, par exemple en ASP.NET ou Blazor, un bon usage consiste à utiliser Ollama comme assistant local de développement. Le modèle peut aider à comprendre l’architecture du projet, proposer des corrections CSS, générer du code simple, rédiger de la documentation ou expliquer une erreur de compilation.

Le bon réflexe est de lui confier des tâches limitées :

Analyse ce fichier CSS sans le modifier.
Propose une amélioration responsive minimale.
Explique ce composant Razor.
Génère une documentation courte pour cette classe.

En revanche, il faut éviter les demandes trop vagues comme :

Améliore tout mon projet.

Un LLM local reste un assistant, pas un architecte omniscient. Il peut produire du code incorrect, inventer des API ou proposer des modifications trop larges. L’usage avec Git est donc fortement recommandé : chaque modification doit pouvoir être relue, testée et annulée.

Retours d'expérience

Introduction

Pour l'instant, je suis en rodage. Mais l'installation d'un LLM m'a permis de comprendre une chose : la puissance de calcul demandée est colossale. Mon PC est plutôt une bonne machine :

Core I5-13600KF (14 Coeurs, 20 Processeurs logiques)
GPU NVIDIA GeForce RTX 3070TI 8Go
64 Go Ram

Pour donner une idée de la taille des modèles cloud :

Rang	Modèle	Taille	Type	Développeur	Disponibilité	Accès
1	DeepSeek-V3.2	671B	MoE (Mixture of Experts)	DeepSeek	✅ Open-source	Ollama (deepseek-v3.2)
2	Qwen3.5	122B	Dense	Alibaba	✅ Open-source	Ollama (qwen3.5:122b)
3	Qwen3	235B	Dense	Alibaba	✅ Open-source	Ollama (qwen3:235b)
4	Gemma4	31B	Dense	Google	✅ Open-source	Ollama (gemma4:31b)
5	Llama 3.3	70B	Dense	Meta	✅ Open-source	Ollama (llama3.3:70b)
6	Mistral Large 2	123B	Dense	Mistral AI	✅ Open-source	Ollama (mistral-large)
7	GLM-5.2	744B (40B actifs)	MoE	Z.ai	✅ Open-source	Ollama (glm-5.2)
8	DeepSeek-R1	671B	MoE	DeepSeek	✅ Open-source	Ollama (deepseek-r1:671b)
9	Nemotron-3-Super	120B	MoE	NVIDIA	✅ Open-source	Ollama (nemotron-3-super:120b)
10	GPT-4o	~1.7T (estimé)	Propriétaire	OpenAI	❌ API uniquement	OpenAI API
11	Claude 3.5 Sonnet	~500B (estimé)	Propriétaire	Anthropic	❌ API uniquement	Anthropic API
12	Gemini 2.5 Pro	~1T (estimé)	Propriétaire	Google	❌ API uniquement	Google AI Studio

Sur les plus grands LLM accessibles localement via Ollama :

Modèle	Taille	Type	VRAM requise (4 bits)	RAM requise (si pas assez de VRAM)	Commande Ollama
deepseek-v3.2	671B	MoE	❌ 120-160 Go	200 Go+	ollama pull deepseek-v3.2
deepseek-r1:671b	671B	MoE	❌ 120-160 Go	200 Go+	ollama pull deepseek-r1:671b
qwen3:235b	235B	Dense	❌ 40-50 Go	80 Go+	ollama pull qwen3:235b
qwen3.5:122b	122B	Dense	❌ 20-25 Go	40 Go+	ollama pull qwen3.5:122b
glm-5.2	744B (40B actifs)	MoE	❌ 30-40 Go	60 Go+	ollama pull glm-5.2
mistral-large	123B	Dense	❌ 24-30 Go	50 Go+	ollama pull mistral-large
llama3.3:70b	70B	Dense	❌ 12-16 Go	30 Go+	ollama pull llama3.3:70b
gemma4:31b	31B	Dense	✅ 6-8 Go	12 Go	ollama pull gemma4:31b
mixtral:8x22b	47B (8x22B)	MoE	❌ 16-20 Go	40 Go+	ollama pull mixtral:8x22b
qwen3:32b	32B	Dense	✅ 6-8 Go	12 Go	ollama pull qwen3:32b
deepseek-coder-v2:236b	236B	MoE	❌ 40-50 Go	80 Go+	ollama pull deepseek-coder-v2:236b

Les modèles que je peux utiliser sur ma machine :

Objectif	Plus grand modèle possible	Alternative	À éviter
Généraliste	gemma4:31b	qwen3:32b	llama3.3:70b (trop lent)
Code	codestral (22B)	deepseek-coder-v2:16b	qwen2.5-coder:32b (trop gros)
Raisonnement	deepseek-r1:8b	qwen3:8b	deepseek-r1:671b (impossible)
Multilingue	qwen3:32b	gemma4:31b	qwen3:235b (trop gros)
Contexte long	mistral-nemo (12B)	gemma4:31b	glm-5.2 (trop gros)

L'utilisation d'un LLM local, peut être une bonne alternative pour des requêtes simples. J'ai noté que sur Copilot, ça part très vite : on arrive rapidement à épuiser les crédits (7 000) dans mon cas.

L'utilisation d'un LLM local dépend finalement de votre utilisation. Dans un contexte où les modèles seront de plus en plus complexes et volumineux, le coût d'exploiration est important. Le changement de tarification de GitHub Copilot en a surpris plus d'un, moi y compris. Ce n'est pas forcément une mauvaise chose car cela nous fait réfléchir un peu plus aux prompts, et d'utiliser les agent à bon escient.

Toutefois, il reste que cela ne suffit pas, les changements tarifaires ne sont peut être pas terminés, l'utilisation de LLM opensource locaux prend tout son sens. Je pense donc que ces modèles locaux ne peuvent être comparés à Claude, GPT, gemini, etc car ils tournent sur des datacenters qui contiennent des machines spécifiques qui sont sans aucune commune mesure avec nos PC aussi puissants soient-ils : exemple du NVIDIA GB300 NVL72 (https://www.nvidia.com/fr-fr/data-center/gb300-nvl72/) dont le prix est estimé entre 4 à 6M$ ! La consommation électrique est faramineuse : 155 kW. Pour rappel, un carte graphique classique c'est entre 0,2 et 0,5kW. Soit 1000x moins en ordre de grandeur.

Pour imaginer ce que coûte l'IA en termes d'énergie : L’AIE estime que les datacenters consommaient environ 415 TWh en 2024, soit environ 1,5 % de l’électricité mondiale, et pourraient monter vers 945 TWh en 2030. C’est plus que la consommation électrique annuelle actuelle du Japon.

Conclusion

Comme nous l'avons démontré plus haut, les coûts d'infrastructure des datacentersIA sont énormes et le seront davantages dans l'avenir. Le besoin est là dans nombre de domaines. L'utilisateur sera forcément impacté. Le coût à l'usage va être de plus en plus la règle. Et les prix pratiqués par les grands acteurs ne vont pas être négligeables.

Je n'ai pas parlé du risque de sécurité systèmique. En effet, à ce jour les plus puissants acteurs peuvent être déconnectés (Exemple de Fable 5 & Mythos 5 ont été suspendus brutalement par le gouvernement américain pour des questions de sécurité). Il semble nécessaire d'avoir un plan B, au cas où...

J'ai donc installé Ollama pour ces raisons : prix / sécurisation. J'ajoute que ces LLM sont opensources et n'ont pas les même contraintes. Les premiers essais sont concluants même si les résultats n'ont rien à voir avec Gpt ou Claude.

La limite principale reste le matériel et conditionne l'utilisation de tel ou tel modèle. Mais un PC gamer de dernière génération ne saurait faire tourner les plus gros modèle opensource. Mais pour de nombreuses tâches courantes, il peut déjà rendre de vrais services.

Le bon compromis consiste donc à utiliser un LLM local pour le quotidien, et à réserver les modèles cloud les plus puissants aux problèmes plus complexes.

En clair : Ollama ne remplace pas totalement ChatGPT ou Copilot, mais il complète très bien la boîte à outils du développeur.

‹ Retour aux articles