Pilotage dynamique (steering) : guider un LLM en temps réel, sans le ré-entraîner
- Mustapha Alouani
- Ia , Llm , Architecture
- 27 décembre 2025

Table des matières
Pourquoi parler de steering maintenant ?
On parle souvent de l’alignement des LLM (SFT, RLHF, DPO) comme d’un travail structurel : on modifie les poids du modèle pour obtenir un comportement plus utile, plus sûr, plus cohérent.
Le steering (que je traduis par pilotage dynamique) explore une idée complémentaire : ne pas toucher aux poids, mais intervenir pendant l’inférence pour orienter la trajectoire de génération.
Ce billet vous donne une compréhension “ingénieur” du steering : ce que c’est, ce que ça change, où ça casse, et comment l’utiliser sans rendre le modèle bizarre.
Si vous voulez la version plus complète (avec plus de nuances et d’exemples), mon livre La Mécanique des LLM va plus loin :
- Broché sur Amazon : https://amzn.eu/d/iViVb7n
- Kindle sur Amazon : https://amzn.eu/d/gACcXiv
Alignement vs pilotage : une analogie simple
Dans le livre, j’utilise une analogie :
- L’alignement « classique » revient à modifier la coque du navire (les poids) pour qu’il tende naturellement vers un cap.
- Le pilotage (steering) consiste à installer un pilote automatique : vous gardez le même navire, mais vous corrigez la trajectoire en temps réel.
Résultat : vous pouvez changer d’objectif rapidement, sans ré-entraînement coûteux.
Deux familles de pilotage
Deux familles utiles en pratique :
- Pilotage sémantique (par activations)
- Objectif : orienter ce que le modèle dit (tonalité, sujet, expertise, prudence).
- Pilotage syntaxique (contraintes de sortie / 3SO)
- Objectif : garantir comment le modèle formate sa sortie (JSON, schémas, structure).
Ces deux familles répondent à des besoins différents mais se combinent très bien dans un système.
Pourquoi cette distinction est utile
En pratique, les incidents en production viennent souvent de l’un de ces deux axes :
- Sémantique : la réponse est bien formée, mais “pas dans le bon esprit” (trop prudente, trop familière, pas assez technique, etc.).
- Syntaxe : l’intention est bonne, mais la sortie casse le pipeline (JSON invalide, champs manquants, structure non conforme).
Le pilotage syntaxique (3SO) vise précisément à réduire cette friction d’intégration.
Le cœur technique : des directions dans l’espace d’activation
L’intuition clé (popularisée par de nombreux travaux récents) est que les LLM représentent des concepts abstraits sous forme de directions dans l’espace des activations.
- On observe des « vecteurs concept » (politesse, expertise médicale, prudence, etc.).
- Ce n’est pas la norme du vecteur qui porte l’information, mais sa direction.
Une formulation simple est :
X_steered = X + (c · V)
X: activation (état caché) interceptée à une coucheV: vecteur de concept (direction)c: coefficient de pilotage
En pratique, c est un « bouton de réglage » : trop faible, l’effet est imperceptible ; trop fort, on déforme la réponse (parfois jusqu’au non-sens).
D’où viennent X et V ? États cachés, espace d’activation, superposition
Dans le chapitre, je rappelle que le Transformer transmet entre ses couches un vecteur de grande dimension : l’état caché (hidden state). C’est ce vecteur que l’on intercepte via un hook pendant l’inférence.
Cet état caché vit dans un espace géométrique où l’on peut observer des propriétés “arithmétiques” (la famille Word2Vec, puis les LLM modernes) : l’information sémantique se comporte souvent comme des directions.
Point subtil mais crucial : les concepts sont encodés de manière distribuée, via la superposition. Il n’y a généralement pas “un neurone de l’honnêteté”, mais un motif réparti sur de nombreux neurones.
Conséquence : on pilote plutôt avec un vecteur de concept V (une direction), qu’avec une simple modification scalaire.
Exemple emblématique : « Golden Gate Claude »
Dans l’ouvrage, je cite une démonstration d’Anthropic (2024) : en amplifiant le vecteur d’activation associé au concept “Golden Gate Bridge”, ils obtiennent un modèle qui ramène toutes les discussions à ce pont.
Le point pédagogique est important :
- le steering peut être très puissant
- mais il peut aussi rendre le modèle obsessionnel si le coefficient
cest mal réglé
Exemple concret : quand un LLM « devient médical »
Un des moyens les plus pédagogiques de comprendre le steering est de comparer même prompt, même modèle, avec et sans pilotage.
- Sans pilotage : réponse générale, correcte mais superficielle.
- Avec un vecteur « médical » : le modèle mobilise du vocabulaire et des structures explicatives plus techniques.
- Avec un coefficient trop élevé : on peut obtenir du jargon incohérent.
Cette dynamique illustre un point important : le pilotage est puissant, mais nécessite un réglage (et donc une stratégie d’évaluation).
Méthode pas-à-pas (utiliser le steering sans se tirer une balle dans le pied)
Étape 1 : définir ce que vous voulez piloter
- du style (plus concis, plus prudent, plus technique)
- un domaine (médical, juridique, IT)
- un comportement (refus, citations, structure)
Étape 2 : choisir un jeu de tests
Prenez 20 à 30 prompts réels et définissez un critère simple : cohérence, erreurs, ton, répétitions.
Étape 3 : balayer le coefficient c
Testez plusieurs valeurs (par exemple faible → moyen → fort) et observez :
- qualité moyenne
- effets secondaires (obsession, jargon, rigidité)
Étape 4 : verrouiller avec des garde-fous
Si le steering impacte un pipeline (JSON, outils), combinez-le avec des contraintes de sortie et testez le système complet.
Mini‑FAQ
“Est-ce que le steering remplace le fine-tuning ?”
Non. Le steering est idéal pour piloter rapidement à l’inférence. Pour une compétence durable et robuste sur une distribution large, le fine-tuning reste pertinent.
“Pourquoi mon modèle devient ‘bizarre’ ?”
Souvent : c trop élevé, ou steering appliqué au mauvais endroit. Réduisez c, testez d’autres points d’injection, et surveillez les effets obsessionnels.
Checklist d’ingénierie (ce que je recommande)
- Fixer une métrique simple avant de “tourner le bouton” : qualité, taux d’erreur, taux de refus, cohérence.
- Tester plusieurs coefficients
csur un jeu de prompts représentatifs. - Surveiller les effets secondaires : jargon excessif, rigidité de style, répétitions.
- Si vous combinez steering + contraintes de sortie, testez l’ensemble comme un système (les effets peuvent se renforcer).
Pourquoi c’est utile côté ingénierie ?
Le pilotage dynamique permet notamment :
- d’adapter le style ou la prudence selon le contexte (support client vs diagnostic médical)
- de personnaliser des assistants (niveau débutant/avancé) sans multiplier les modèles
- de tester rapidement des comportements avant d’investir dans un fine-tuning
C’est une brique d’architecture : on passe du « modèle unique » à un modèle orchestré.
Pour aller plus loin (chapitre complet)
Si vous voulez la version complète (cas limites, compromis qualité/contrôle/coût, articulation avec alignement), le livre va plus loin :
- Broché sur Amazon : https://amzn.eu/d/iViVb7n
- Kindle sur Amazon : https://amzn.eu/d/gACcXiv