En Suisse, certains secteurs ne peuvent simplement pas envoyer leurs données à des APIs cloud américaines, même avec les meilleures garanties contractuelles. Le secret médical, le secret bancaire, le secret professionnel des avocats, certaines données stratégiques industrielles : tout cela impose une approche différente.
La bonne nouvelle : depuis fin 2024, les modèles open-source en local rivalisent avec les modèles cloud sur la plupart des cas d'usage PME. Voici comment.
Pourquoi un modèle en local ?
Quatre raisons concrètes :
- Conformité réglementaire stricte. Avec un modèle en local, vos données ne quittent jamais votre infrastructure. nLPD, RGPD, secret médical : tout est respecté par construction.
- Pas de coûts variables. Une API OpenAI facture par token consommé. Un modèle local tourne sur du matériel que vous possédez, le coût marginal d'une requête est proche de zéro.
- Pas de dépendance à un fournisseur. Si OpenAI augmente ses prix, change ses CGU ou subit une panne, vous êtes bloqué. En local, vous êtes maître.
- Latence ultra-faible. Pas d'appel réseau vers les États-Unis ou l'Irlande. La réponse arrive en quelques centaines de millisecondes.
Quel matériel faut-il vraiment ?
Contrairement à une idée reçue, vous n'avez pas besoin d'un datacenter pour faire tourner un modèle utilisable.
Configuration entrée de gamme (~3 000 CHF)
Un Mac Mini M4 Pro avec 24 Go de RAM unifiée fait tourner Mistral 7B Instruct et Llama 3.1 8B à environ 30 tokens/seconde. Suffisant pour : tri de mails, classification, résumés, extraction de données. Coût total avec installation : ~3 500 CHF, amortissable sur 4 à 5 ans.
Configuration intermédiaire (~8 000 CHF)
Un serveur avec une RTX 4090 (24 Go VRAM) ou un Mac Studio M4 Max avec 48 Go fait tourner Mistral Small 22B ou Llama 3.1 70B quantisé. Qualité de réponse proche de GPT-4 sur les tâches métier courantes. Supporte 5 à 10 utilisateurs simultanés.
Configuration entreprise (~25 000 CHF)
Un serveur avec 2× RTX 6000 Ada ou 1× H100 fait tourner les modèles 70B+ à pleine résolution avec 20 à 50 utilisateurs simultanés. Pour une PME de 30-50 personnes utilisant l'IA quotidiennement.
Comment ça se déploie concrètement
L'outil de référence est Ollama, qui installe et fait tourner les modèles open-source en quelques minutes :
# Installation sur Mac
brew install ollama
# Téléchargement et lancement de Mistral
ollama pull mistral:latest
ollama run mistral
# API HTTP locale immédiatement disponible
curl http://localhost:11434/api/generate -d '{
"model": "mistral",
"prompt": "Résume ce document en 3 points : ..."
}'
Une fois le modèle accessible via API locale, on le connecte à vos outils via n8n, Make ou du code custom, exactement comme une API OpenAI, mais sans rien envoyer dehors.
Cas d'usage parfaitement adaptés au local
- Résumé de comptes-rendus médicaux pour cabinets et cliniques (secret médical respecté)
- Analyse de contrats et notes juridiques pour études d'avocats (secret professionnel respecté)
- Pré-traitement de documents bancaires (secret bancaire respecté)
- Recherche RAG dans la documentation interne (sans risquer une fuite de propriété intellectuelle)
- Classification de tickets support contenant des données client sensibles
- Génération de devis à partir de catalogues produits confidentiels
Les limites à connaître
Soyons honnêtes : le local n'est pas la solution universelle.
- Tâches très créatives (rédaction longue de qualité éditoriale) : GPT-4 et Claude restent encore devant pour le moment.
- Multimodal avancé (vision, audio) : les modèles open-source progressent vite mais sont encore en retard sur Claude 4.7 ou GPT-5 pour ces usages.
- Maintenance hardware : un serveur en local doit être surveillé, sauvegardé, mis à jour. C'est du travail récurrent, à intégrer dans le coût total.
- Mise à jour des modèles : il faut suivre les sorties (Mistral, Llama, Qwen sortent des nouvelles versions tous les 2-3 mois) et tester les régressions avant de basculer.
Approche hybride : le meilleur des deux mondes
La plupart de nos clients PME romandes choisissent une approche hybride :
- Modèle local pour tout ce qui touche aux données sensibles (clients, contrats, docs internes)
- API cloud pour les tâches non-sensibles où la qualité de pointe compte (rédaction marketing, recherche web, génération créative)
Cette approche permet de respecter strictement la nLPD sur ce qui compte, tout en bénéficiant de la puissance des modèles frontière sur le reste.
Combien ça coûte sur 3 ans ?
Comparaison pour une PME suisse de 15 personnes utilisant l'IA intensivement :
- API OpenAI / Anthropic : ~500 CHF/mois × 36 mois = 18 000 CHF (et ce coût augmente avec l'usage)
- Mac Studio M4 Max self-hosted : ~6 500 CHF d'investissement + 2 000 CHF de setup + ~100 CHF/mois d'électricité et maintenance = ~12 000 CHF sur 3 ans
Le local est moins cher à terme, sans compter le bénéfice de souveraineté et de conformité.
Par où commencer si vous voulez du local ?
- Auditez vos cas d'usage : lesquels touchent à des données vraiment sensibles, lesquels sont génériques ?
- Choisissez votre approche : tout local, tout cloud, ou hybride.
- Démarrez petit : un Mac Mini avec Ollama pour tester un premier cas d'usage avant d'investir dans plus puissant.
- Faites-vous accompagner par quelqu'un qui maîtrise les deux approches pour éviter les pièges (gestion de la VRAM, quantization, gestion du contexte, sécurité réseau).
Chez finalyn.ia, on déploie régulièrement Mistral en local pour des PME romandes dans la santé, le juridique et la finance. Audit gratuit pour valider si c'est la bonne approche pour vous.