En Suisse, certains secteurs ne peuvent simplement pas envoyer leurs données à des APIs cloud américaines, même avec les meilleures garanties contractuelles. Le secret médical, le secret bancaire, le secret professionnel des avocats, certaines données stratégiques industrielles : tout cela impose une approche différente.

La bonne nouvelle : depuis fin 2024, les modèles open-source en local rivalisent avec les modèles cloud sur la plupart des cas d'usage PME. Voici comment.

Pourquoi un modèle en local ?

Quatre raisons concrètes :

Quel matériel faut-il vraiment ?

Contrairement à une idée reçue, vous n'avez pas besoin d'un datacenter pour faire tourner un modèle utilisable.

Configuration entrée de gamme (~3 000 CHF)

Un Mac Mini M4 Pro avec 24 Go de RAM unifiée fait tourner Mistral 7B Instruct et Llama 3.1 8B à environ 30 tokens/seconde. Suffisant pour : tri de mails, classification, résumés, extraction de données. Coût total avec installation : ~3 500 CHF, amortissable sur 4 à 5 ans.

Configuration intermédiaire (~8 000 CHF)

Un serveur avec une RTX 4090 (24 Go VRAM) ou un Mac Studio M4 Max avec 48 Go fait tourner Mistral Small 22B ou Llama 3.1 70B quantisé. Qualité de réponse proche de GPT-4 sur les tâches métier courantes. Supporte 5 à 10 utilisateurs simultanés.

Configuration entreprise (~25 000 CHF)

Un serveur avec 2× RTX 6000 Ada ou 1× H100 fait tourner les modèles 70B+ à pleine résolution avec 20 à 50 utilisateurs simultanés. Pour une PME de 30-50 personnes utilisant l'IA quotidiennement.

À retenir : pour 80 % des cas d'usage PME, un Mac Mini M4 Pro à 3 000 CHF suffit largement. Pas besoin de surdimensionner.

Comment ça se déploie concrètement

L'outil de référence est Ollama, qui installe et fait tourner les modèles open-source en quelques minutes :

# Installation sur Mac
brew install ollama

# Téléchargement et lancement de Mistral
ollama pull mistral:latest
ollama run mistral

# API HTTP locale immédiatement disponible
curl http://localhost:11434/api/generate -d '{
  "model": "mistral",
  "prompt": "Résume ce document en 3 points : ..."
}'

Une fois le modèle accessible via API locale, on le connecte à vos outils via n8n, Make ou du code custom, exactement comme une API OpenAI, mais sans rien envoyer dehors.

Cas d'usage parfaitement adaptés au local

Les limites à connaître

Soyons honnêtes : le local n'est pas la solution universelle.

Approche hybride : le meilleur des deux mondes

La plupart de nos clients PME romandes choisissent une approche hybride :

Cette approche permet de respecter strictement la nLPD sur ce qui compte, tout en bénéficiant de la puissance des modèles frontière sur le reste.

Combien ça coûte sur 3 ans ?

Comparaison pour une PME suisse de 15 personnes utilisant l'IA intensivement :

Le local est moins cher à terme, sans compter le bénéfice de souveraineté et de conformité.

Par où commencer si vous voulez du local ?

  1. Auditez vos cas d'usage : lesquels touchent à des données vraiment sensibles, lesquels sont génériques ?
  2. Choisissez votre approche : tout local, tout cloud, ou hybride.
  3. Démarrez petit : un Mac Mini avec Ollama pour tester un premier cas d'usage avant d'investir dans plus puissant.
  4. Faites-vous accompagner par quelqu'un qui maîtrise les deux approches pour éviter les pièges (gestion de la VRAM, quantization, gestion du contexte, sécurité réseau).

Chez finalyn.ia, on déploie régulièrement Mistral en local pour des PME romandes dans la santé, le juridique et la finance. Audit gratuit pour valider si c'est la bonne approche pour vous.