Quand on lit les communications sur l'IA, on tombe vite sur du jargon : LLM, agent, RAG, fine-tuning, MCP, prompt engineering, embeddings… À quoi tout cela correspond concrètement, et que faut-il retenir si on dirige une PME ?

Voici le glossaire essentiel, en langage métier, en 7 minutes de lecture.

LLM (Large Language Model)

Un LLM est un modèle d'intelligence artificielle entraîné à comprendre et générer du texte. C'est le moteur derrière ChatGPT, Claude, Gemini, Mistral. Concrètement, vous lui donnez du texte (une question, un document, des instructions), il produit du texte en retour.

Analogie : c'est un employé qui a lu une grande partie d'internet et qui peut rédiger, classer, résumer, traduire, expliquer. Mais qui ne sait rien spécifiquement de votre entreprise tant que vous ne le lui dites pas.

Les principaux en 2026 :

Agent IA

Un agent IA, c'est un LLM combiné à des outils et des règles d'action. Il ne se contente pas de répondre, il agit dans votre environnement.

Exemples concrets :

La différence-clé entre un agent et un chatbot : l'agent prend des décisions et agit, là où un chatbot se contente de répondre à des questions.

RAG (Retrieval-Augmented Generation)

RAG signifie « génération augmentée par récupération ». En clair : brancher un LLM sur vos propres documents.

Sans RAG, un LLM ne sait rien de votre entreprise. Avec RAG, vous lui donnez accès à votre wiki interne, vos contrats, vos comptes-rendus, vos procédures. Quand vous posez une question, le système va d'abord chercher les passages pertinents dans vos documents, puis demande au LLM de répondre en s'appuyant sur ces extraits.

Cas d'usage typiques en PME :

Le RAG est la technique la plus utilisée en PME car elle ne demande pas de fine-tuning et fonctionne dès qu'on a accès aux documents.

Fine-tuning

Le fine-tuning, c'est spécialiser un modèle en l'entraînant sur vos données spécifiques. Le modèle ainsi obtenu « pense » comme votre entreprise.

C'est puissant mais coûteux (entre 5 000 et 50 000 CHF selon l'ampleur), et pas toujours nécessaire. Pour 90 % des cas PME, un bon RAG bien fait fait mieux et coûte 10× moins. Le fine-tuning ne se justifie que pour des cas très spécifiques (ton de voix très particulier, vocabulaire ultra-spécialisé, volumes très importants).

Prompt et prompt engineering

Un prompt, c'est l'instruction que vous donnez au LLM. « Résume ce document en 3 points » est un prompt simple. « Tu es un assistant administratif de régie immobilière à Lausanne. Classe ce mail entrant selon les catégories suivantes [...] » est un prompt structuré.

Le prompt engineering, c'est l'art de bien rédiger ces instructions pour obtenir le résultat voulu de façon fiable. C'est moins une science exacte qu'un savoir-faire qui s'acquiert par itérations.

Embeddings

Un embedding est une représentation numérique d'un texte qui permet à un ordinateur de comparer la similarité de sens entre deux phrases. Concrètement, c'est la brique technique qui permet à un RAG de chercher des documents pertinents même si vous ne les avez pas formulés exactement avec les mêmes mots.

Vous n'avez pas besoin de gérer les embeddings vous-même, c'est de la plomberie technique qu'une agence spécialisée installe. Mais savoir que ça existe aide à comprendre pourquoi un RAG bien configuré comprend vos questions même formulées approximativement.

MCP (Model Context Protocol)

Apparu en 2024 et devenu standard en 2026, le MCP est une norme qui permet aux LLM de se connecter facilement aux outils externes (votre CRM, votre messagerie, votre comptabilité). Anthropic l'a lancé, OpenAI et Google l'ont adopté.

Pour vous, dirigeant PME, ça signifie : connecter un agent IA à vos outils existants est aujourd'hui beaucoup plus simple et fiable qu'il y a 18 mois. Là où il fallait coder des intégrations sur mesure, MCP fournit un protocole standardisé.

Multimodal

Un modèle multimodal comprend plusieurs types de contenu : texte, images, audio, vidéo. En 2026, GPT-5 et Claude 4.7 acceptent par exemple :

C'est un game-changer pour les PME qui jonglent avec des formats hétérogènes.

Token

Un token est l'unité de facturation des LLM. Très grossièrement : 1 token = ¾ d'un mot français. Une réponse de 100 mots = ~135 tokens. Les prix typiques en 2026 vont de 0,5 à 15 CHF par million de tokens selon le modèle.

Concrètement, une tâche moyenne (lire un mail, le classer, suggérer une réponse) coûte entre 0,001 et 0,01 CHF. Sur 100 mails par jour : moins d'un franc.

Hallucination

Quand un LLM invente une information fausse en la présentant comme vraie, on parle d'hallucination. C'est le problème n°1 à connaître quand on déploie un agent IA.

Solutions pratiques :

Ce qu'il faut retenir

Vous voulez voir comment ces concepts s'appliquent à votre cas concret ? L'audit finalyn.ia est gratuit, on vous montre quels concepts mobiliser dans votre contexte spécifique.