Qu'est-ce que le pattern ReAct dans les agents IA ?

ReAct (Reasoning and Acting), publié en 2022 par Shunyu Yao et al. de Princeton et Google, est le pattern fondateur des agents LLM. Il entrelace raisonnement et action en une boucle Thought → Action → Observation. Le LLM génère d'abord une trace de raisonnement interne, puis déclenche une action (appel d'outil, recherche, calcul), observe le résultat, et itère jusqu'à la résolution de la tâche.

Comment fonctionne la mémoire dans un agent IA ?

La mémoire d'un agent IA opère sur plusieurs niveaux. La mémoire de travail correspond à la fenêtre de contexte active du LLM. La mémoire épisodique enregistre les interactions passées sous forme structurée. La mémoire sémantique stocke des faits et connaissances généralisées, souvent dans des bases vectorielles. La mémoire procédurale encode les comportements et workflows maîtrisés. Ces niveaux s'interconnectent via des mécanismes de récupération (RAG, recherche vectorielle) pour alimenter le raisonnement de l'agent.

Quelles sont les trois couches d'une plateforme agentique en entreprise ?

Une plateforme agentique mature repose sur trois couches : la couche application et orchestration (moteur de workflow, registre d'agents, catalogue d'outils, politiques d'accès), la couche analytique et observabilité (traces d'exécution, métriques de tokens, détection de dérives comportementales) et la couche données et connaissances (bases relationnelles, vectorielles et graphes, pipelines temps réel, gouvernance des données). Ces trois couches sont interdépendantes et doivent intégrer sécurité et gouvernance dès la conception.

Agents IA : architecture et patterns d'orchestration

Q: Qu'est-ce qu'un agent IA basé sur un LLM ?

Un agent IA basé sur un LLM est un système autonome qui utilise un grand modèle de langage comme moteur cognitif central pour percevoir son environnement, planifier, décider et agir. Contrairement à un LLM classique qui répond à une requête unique, un agent maintient un état, utilise des outils externes et itère sur plusieurs étapes pour atteindre un objectif complexe.

Q: Quels sont les principaux patterns d'orchestration multi-agents ?

Il existe trois patterns principaux : le pattern superviseur (un orchestrateur central décompose les tâches, délègue aux agents spécialisés et valide les sorties), le réseau d'agents adaptatif (les agents se passent les tâches directement sans coordinateur central, optimisé pour la faible latence) et le pattern personnalisé (logique d'orchestration codée sur mesure, pour les environnements fortement réglementés). Chaque pattern implique des compromis différents entre contrôle, latence, traçabilité et coût en tokens.

02 mai 2026
2026 - Stéphane Fosse - Copyleft : cette œuvre est libre, vous pouvez la copier, la diffuser et la modifier selon les termes de la Licence Art Libre 1.3
[PDF]

Un agent IA basé sur un LLM n'est pas un chatbot plus sophistiqué : c'est un système qui perçoit, raisonne, agit et s'ajuste en boucle, en mobilisant des outils externes et en maintenant un état persistant. Ce changement de paradigme, du modèle passif à l'entité agissante, impose de revoir les fondations architecturales habituelles. Cet article pose les bases : boucle de contrôle, composants cognitifs, mémoire multi-niveaux, patterns d'orchestration et cadre d'intégration en entreprise.

Qu'est-ce qu'un agent IA basé sur un LLM ?

L'idée d'un agent autonome est ancienne en informatique. Les systèmes symboliques des années 1980 opéraient sur des règles formelles dans des environnements fermés. Les agents par apprentissage par renforcement apprenaient des politiques par essais répétés sur des tâches précises. Les agents LLM constituent un troisième paradigme : au lieu de règles codées en dur ou de fonctions de récompense étroites, ils utilisent un LLM pré-entraîné comme contrôleur cognitif généraliste. Cela leur permet de transférer la connaissance sémantique acquise sur des corpus massifs vers des tâches orientées action — correction de bugs dans de grands dépôts de code, conception de workflows scientifiques, navigation web — souvent sans entraînement spécifique supplémentaire.

La définition formelle la plus précise du champ traite l'agent comme un système de contrôle dynamique opérant dans un processus de décision de Markov partiellement observable (POMDP). On écrit le système agentique A comme un quintuplet composé de l'espace d'états S, l'espace d'observations O, l'espace mémoire interne M, l'espace d'actions et d'outils T, et la politique π. À chaque pas de temps, l'agent reçoit une observation partielle de son environnement, met à jour sa mémoire interne, génère un plan latent (la trace de raisonnement), puis exécute une action. Le résultat de cette action produit un retour d'environnement qui ferme la boucle. Ce formalisme, proposé par Arunkumar V., Gangadharan G.R. et Rajkumar Buyya dans leur survey de janvier 2026, unifie la diversité des architectures existantes sous une même abstraction.

La distinction avec un LLM classique est opérationnelle. Un LLM répond à une requête et s'arrête. Un agent maintient un état, appelle des outils externes, itère sur plusieurs cycles de raisonnement-action, et peut déléguer à d'autres agents. Cette capacité à persister et à agir rend les agents pertinents pour les workflows qui excèdent la fenêtre de contexte, l'enveloppe de fiabilité, ou les permissions d'un seul appel de modèle.

Comment est structuré un agent IA ?

L'architecture interne d'un agent se décompose en quatre composants fondamentaux : la perception, la mémoire, l'action et le profilage. La perception est l'interface entre l'agent et son environnement. Les premiers agents comme ReAct opéraient exclusivement dans le domaine textuel. Les systèmes récents exploitent des modèles de langage multimodaux qui ancrent leur raisonnement dans des entrées visuelles, audio ou issues de capteurs physiques : captures d'écran pour naviguer dans une interface, coordonnées tactiles pour piloter une application mobile, flux vidéo pour la robotique.

La mémoire est le composant qui distingue réellement un agent d'un LLM stateless. Elle opère sur plusieurs niveaux. La mémoire de travail correspond à la fenêtre de contexte active du modèle : rapide, limité en taille, volatile à la fin de la session. La mémoire à long terme se scinde en trois types inspirés de la psychologie cognitive : la mémoire épisodique, qui enregistre les interactions et expériences passées sous forme structurée ; la mémoire sémantique, qui stocke des faits et connaissances généralisées, typiquement dans des bases vectorielles ou des graphes de connaissance ; et la mémoire procédurale, qui encode les comportements maîtrisés, les workflows répétés, les préférences opératoires. Un survey de l'Université Renmin de Chine et du laboratoire Noah's Ark de Huawei, publié en septembre 2025 dans les ACM Transactions on Information Systems, synthétise l'ensemble de ces mécanismes et identifie trois opérations centrales sur la mémoire : l'écriture, la gestion (consolidation, oubli, organisation) et la lecture par récupération.

Les actions constituent la couche d'effectuation. Au-delà des appels d'API structurés classiques, les architectures récentes adoptent le principe du code as action : l'agent génère du code exécutable comme action principale, ce qui lui confère une expressivité bien supérieure aux schémas de fonction figés. Des agents comme SWE-agent, conçu pour la résolution automatique de tickets GitHub, montrent que cette approche permet de naviguer dans de vrais systèmes de fichiers, d'exécuter des suites de tests et d'interpréter les traces d'erreur.

Le profilage définit l'identité de l'agent : son rôle, ses objectifs, ses contraintes de comportement. Il est typiquement encodé dans le prompt système et peut être dynamique, l'agent adoptant des rôles différents selon la phase du workflow.

Qu'est-ce que le pattern ReAct et pourquoi est-il fondateur ?

ReAct, contraction de Reasoning and Acting, est le pattern qui a posé les bases de l'architecture agentique moderne. Publié en octobre 2022 par Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan et Yuan Cao (Princeton University et Google Research), et présenté à ICLR 2023, il repose sur une idée simple : les capacités de raisonnement (chain-of-thought) et d'action des LLM, jusqu'alors étudiées séparément, se renforcent mutuellement quand on les entrelace.

Boucle ReAct : Thought, Action, Observation

La boucle ReAct opère en trois temps répétés jusqu'à résolution. D'abord le Thought : le LLM génère une trace de raisonnement interne, en langage naturel, qui décompose la tâche, évalue la situation et planifie l'étape suivante. Ensuite l'Action : le modèle déclenche une action concrète, typiquement l'appel d'un outil externe (moteur de recherche, calculatrice, base de données, API). Enfin l'Observation : le résultat de l'action est injecté dans le contexte, et le cycle repart. Ce qui importe dans la conception, c'est que la trace de raisonnement n'est pas un commentaire décoratif : elle conditionne directement le choix de l'action suivante, ce qui rend le comportement de l'agent interprétable et, dans une certaine mesure, déboguable.

Les résultats empiriques publiés dans l'article original sont parlants. Sur les benchmarks de question-réponse multi-sauts HotpotQA et de vérification de faits FEVER, ReAct surmonte les problèmes d'hallucination et de propagation d'erreurs propres au raisonnement en chaîne pur, en ancrant le modèle dans des sources externes via une API Wikipédia. Sur les benchmarks de décision interactive ALFWorld (navigation dans un environnement domestique simulé) et WebShop (achats en ligne), ReAct surpasse les méthodes d'imitation et d'apprentissage par renforcement de respectivement 34 et 10 points de succès absolus, avec seulement un ou deux exemples en contexte.

ReAct a été pensé à partir d'une analogie avec la cognition humaine : la façon dont nous combinons discours intérieur et actions concrètes pour résoudre des problèmes dans des situations inédites. Cette intuition s'est révélée productive au-delà de ses résultats expérimentaux initiaux, car elle fournit un cadre extensible : les variantes ultérieures (Reflexion, Tree of Thoughts, ReAcTree) en sont toutes des descendants directs.

Comment évolue l'architecture cognitive vers des systèmes plus complexes ?

La boucle ReAct linéaire est un excellent point de départ, mais elle montre ses limites sur des tâches longue portée impliquant de nombreuses ramifications possibles. Deux évolutions architecturales majeures ont émergé pour y répondre.

La première est la planification hiérarchique. Des approches comme Tree of Thoughts et ReAcTree structurent le raisonnement comme une exploration d'arbre : l'agent génère plusieurs hypothèses de trajectoire, les évalue, élague les moins prometteuses et approfondit les plus robustes. Ce type d'architecture est particulièrement adapté aux problèmes où l'espace de solutions est large et où les mauvaises décisions précoces sont difficiles à corriger.

La seconde est la réflexion. Des systèmes comme Reflexion ajoutent un mécanisme d'autocritique : après une action ou une séquence d'actions, l'agent génère une évaluation de sa propre performance, identifie les erreurs commises et révise son plan avant de continuer. Ce retour verbal, stocké en mémoire, fonctionne comme un apprentissage par renforcement en langage naturel, sans nécessiter de mise à jour des poids du modèle.

Une tendance de fond dans les systèmes en production mérite d'être soulignée. Le survey d'Arunkumar et al. observe un glissement des boucles ouvertes multi-agents vers des graphes de workflow explicites. Plutôt que de laisser un agent généraliste décider librement de la prochaine étape en dialogue libre, les systèmes de production modélisent le workflow comme une machine à états : les nœuds représentent des appels d'outils ou des invocations LLM, les arêtes représentent les transitions autorisées. LangGraph, développé par l'équipe LangChain, est le framework représentatif de cette approche : il traite l'exécution agentique comme un traversal de graphe avec persistance d'état explicite et points de contrôle. Le bénéfice est réel : les comportements de l'agent deviennent plus prévisibles, plus auditables, et les boucles infinies plus faciles à détecter.

Quels sont les principaux patterns d'orchestration multi-agents ?

Quand une tâche dépasse la capacité d'un seul agent — en volume, en spécialisation ou en contrainte de temps — on passe aux systèmes multi-agents. L'orchestration est le plan de coordination qui transforme une collection d'agents capables en un collectif cohérent. Ce choix architectural affecte directement quatre dimensions opérationnelles : la consommation de tokens et le coût (certains patterns varient de plus de 200 % selon le nombre d'itérations de raisonnement), la latence, la vélocité de développement et la maintenabilité.

Les trois patterns d'orchestration multi-agents : superviseur, réseau adaptatif, custom

Le pattern superviseur repose sur une architecture hiérarchique : un orchestrateur central reçoit la requête, la décompose en sous-tâches, délègue aux agents spécialisés, surveille leur progression, valide les sorties et synthétise la réponse finale. C'est le pattern naturel pour les workflows multi-domaines complexes où la traçabilité du raisonnement, le contrôle qualité et l'auditabilité comptent plus que la réactivité temps réel. Un exemple concret : dans une banque, un workflow de remboursement de prêt automobile passe par un agent de récupération de données de prêt, un agent de vérification de provision, un processeur de paiement — chacun recevant uniquement les données nécessaires à sa tâche, le tout coordonné par l'orchestrateur qui valide la cohérence et génère la trace d'audit. Ce pattern est à éviter pour les systèmes temps réel ou voix, où la latence d'un aller-retour supplémentaire par l'orchestrateur est rédhibitoire.

Le réseau d'agents adaptatif supprime le coordinateur central. Les agents se passent les tâches directement, chacun décidant d'exécuter, d'enrichir ou de déléguer selon son expertise et le contexte reçu. Ce pattern est optimisé pour les environnements à faible latence et forte interactivité : assistants conversationnels, support client, interfaces vocales temps réel. Il présente cependant une contrainte sérieuse : la traçabilité et le débogage sont nettement plus difficiles quand aucun acteur central ne maintient la vue d'ensemble du workflow. Il est déconseillé pour les workflows qui requièrent une coordination parallèle synchrone ou dont les responsabilités entre agents se recoupent.

Le pattern personnalisé donne aux équipes un contrôle programmatique complet sur la logique d'orchestration, les relations entre agents et les règles d'exécution. Via des SDK comme celui de Kore.ai ou des frameworks comme LangGraph, les développeurs codent les transitions d'état, les gardes et les conditions d'escalade. C'est le pattern des industries fortement réglementées — finance, santé, assurance — où les modèles propriétaires et les exigences d'audit rendent les patterns génériques insuffisants. Le coût d'entrée est élevé (conception, maintenance, tests), mais il offre le comportement déterministe que certains contextes imposent.

La recherche académique et les déploiements industriels identifient également des patterns plus granulaires décrits par leur topologie de communication : la chaîne (agents en séquence linéaire, chacun traitant la sortie du précédent), l'étoile (un agent central distribuant vers des agents feuilles sans communication inter-feuilles), et le maillage (communication directe entre toute paire d'agents, pour les problèmes collaboratifs complexes).

Comment s'organisent les rôles dans un système multi-agents ?

Un système multi-agents bien conçu ne consiste pas simplement à multiplier des agents génériques. Il requiert une spécialisation des rôles. Adimulam, Gupta et Kumar, dans leur article publié sur arXiv en janvier 2026, identifient trois catégories fonctionnelles.

Les agents worker constituent la couche d'exécution. Ils réalisent des tâches précisément délimitées : extraction de données, calcul de scores, génération de brouillons. Certains sont stateless (chaque requête est indépendante), d'autres sont stateful (ils maintiennent un contexte sur plusieurs étapes d'un workflow). Dans un système d'évaluation de risque de crédit, les agents worker extraient les données du dossier, calculent les scores préliminaires, génèrent les projets d'évaluation.

Les agents service fournissent des capacités opérationnelles partagées que les autres agents consomment pendant l'exécution du workflow. Ils agissent comme des utilitaires réutilisables : assurance qualité, vérification de conformité, diagnostic, récupération automatique. Un agent de diagnostic inspecte les incohérences dans les données extraites, trace les anomalies au module responsable, génère un rapport structuré. Un agent de guérison peut aller plus loin et relancer l'extraction échouée, ou remettre le workflow dans un état stable.

Les agents support opèrent au niveau de supervision et d'analyse. Là où les agents service interviennent dans le flux d'exécution, les agents support maintiennent la santé globale du système : monitoring de la latence de décision, détection de dérive des modèles de risque, analyse des patterns d'approbation, actualisation des datasets. Ils informent l'orchestrateur et les superviseurs humains, sans exécuter directement les tâches métier.

Cette division du travail n'est pas uniquement organisationnelle. Elle a des conséquences directes sur la surface d'attaque (chaque agent n'accède qu'aux données nécessaires à sa fonction), la maintenabilité (les agents peuvent être mis à jour indépendamment) et la scalabilité (les agents worker peuvent être multipliés sous charge sans affecter la couche de supervision).

Quelle est l'architecture d'une plateforme agentique en entreprise ?

Les plateformes IA d'entreprise existantes ont été construites pour des systèmes déterministes : modèles uniques derrière des endpoints API statiques, pipelines ETL figés, gouvernance appliquée après déploiement. Ce design ne tient pas face aux exigences des systèmes agentiques, où plusieurs modèles partagent une mémoire persistante, coordonnent via des workflows multi-étapes, et communiquent directement entre eux via des protocoles standardisés comme le Model Context Protocol (MCP) et Agent-to-Agent (A2A). Les contrôles d'identité hérités supposent que les utilisateurs sont des humains opérant dans des sessions à rôles définis — pas des agents autonomes nécessitant des permissions contextuelles à moindre privilège pour chaque invocation d'outil.

Bain & Company, dans une analyse publiée en avril 2026, décrit la convergence des plateformes agentiques modernes autour d'une architecture à trois couches.

Architecture à trois couches d'une plateforme agentique en entreprise

La couche application et orchestration est le centre de commande. Elle dirige les workflows multi-étapes via un moteur d'orchestration qui gère le flux de contrôle, les nouvelles tentatives, les délais d'attente et l'exécution parallèle. Chaque requête est routée vers un agent spécialisé via cette couche, qui maintient également le contexte de session partagé, la mémoire d'état et la progression des tâches. Les agents sont déployés comme des services versionnés indépendants, scalables, mis à jour et annulés séparément. Un registre central avec un catalogue d'outils gouverné définit ce qui est disponible, pour qui, avec quels droits.

La couche analytique et observabilité fournit une visibilité temps réel sur l'exécution des agents via métriques, journaux et traces collectés à travers les agents, les workflows et l'infrastructure. La traçabilité complète du chemin de raisonnement capture chaque étape, de la requête initiale à l'invocation d'outil jusqu'à la sortie finale. La détection des dérives comportementales, des patterns d'hallucination et des signaux de biais permet aux équipes de maintenir la conformité. Sans cette couche, les systèmes multi-agents deviennent rapidement des boîtes noires.

La couche données et connaissances est le fondement de données du système agentique. Elle unifie des données structurées et non structurées via des interfaces standardisées, en couvrant des bases relationnelles, vectorielles et graphes. Des pipelines de streaming temps réel complètent le traitement par lots pour garantir que les agents opèrent sur des données à jour. La gouvernance des données — classification, masquage, rétention, contrôle d'accès inter-domaines — est intégrée aux pipelines plutôt qu'appliquée en bout de chaîne.

Ce qui distingue ce cadre d'une simple description technique, c'est l'insistance des auteurs sur un principe architectural : sécurité et gouvernance ne sont pas des couches supplémentaires, elles sont transversales aux trois niveaux. Dans les architectures héritées, la gouvernance était appliquée après déploiement. Dans les plateformes agentiques, elle doit être consubstantielle à la conception, car les agents autonomes créent des risques nouveaux — exécution non supervisée, accès multi-systèmes, propagation d'erreurs en cascade — que les contrôles classiques ne sont pas dimensionnés pour gérer.

Quels défis pratiques pose le déploiement en production ?

Les frameworks open source comme LangChain, AutoGen ou CrewAI fonctionnent bien pour les prototypes. À l'échelle de production, plusieurs problèmes émergent qui relèvent moins de l'ingénierie des prompts que de l'architecture des systèmes distribués.

La gestion de la mémoire à long terme est un défi non résolu. La fenêtre de contexte active d'un LLM reste limitée : il faut décider en temps réel quelles informations injecter depuis la mémoire externe, dans quel ordre, avec quelle priorité. Les systèmes actuels combinent généralement des approches de récupération par similarité sémantique (recherche dans des bases vectorielles), de récence et d'importance estimée. La consolidation — le passage d'une mémoire épisodique brute vers des abstractions sémantiques réutilisables — reste un mécanisme expérimental dans la plupart des déploiements.

La coordination entre agents introduit des surcoûts de communication qui peuvent dégrader les performances si le design du système n'en tient pas compte. Les patterns de communication (chaîne, étoile, maillage) ont des implications directes sur la latence, la cohérence de l'état partagé et la résilience aux pannes d'agents individuels. Un système en étoile simplifie la coordination mais crée un point unique de contention ; un maillage distribue la charge mais rend le débogage exponentiellement plus complexe.

La question de l'identité des agents est souvent sous-estimée. Les contrôles d'accès traditionnels, fondés sur des sessions humaines à rôles définis, ne s'appliquent pas directement à des entités non humaines qui invoquent des outils de manière autonome et contextuelle. Il faut des mécanismes de propagation d'identité et de permissions à moindre privilège spécifiquement conçus pour les agents, qui restreignent dynamiquement les droits à la portée strictement nécessaire à chaque invocation.

Enfin, l'évaluation des systèmes agentiques est autrement plus difficile que l'évaluation d'un modèle statique. Les métriques pertinentes incluent coût par décision, latence, précision des actions, stabilité comportementale et résistance aux attaques (prompt injection, manipulation de mémoire). Ces dimensions sont souvent interdépendantes : optimiser la latence en réduisant les tours de raisonnement peut dégrader la précision ; renforcer la gouvernance peut augmenter les coûts en tokens.

Conclusion

Les agents IA fondés sur des LLM ne sont pas une évolution incrémentale des chatbots. Ils représentent un changement de catégorie : de systèmes qui répondent à des systèmes qui agissent. Ce changement exige une relecture sérieuse des habitudes architecturales. La boucle ReAct reste le socle conceptuel de tout agent, mais les architectures de production s'en éloignent rapidement vers des graphes d'orchestration explicites, des registres d'agents gouvernés et des couches d'observabilité temps réel. Les patterns multi-agents — superviseur, réseau adaptatif, custom — ne sont pas interchangeables : chacun a ses conditions d'usage, ses compromis et ses zones de risque propres. La plateforme agentique en entreprise n'est pas une pile technique de plus : c'est une infrastructure pour de la cognition distribuée, avec tout ce que cela implique en matière de gouvernance, de traçabilité et de contrôle. Les protocoles de communication inter-agents (MCP, A2A), les mécanismes de mémoire à long terme et les défis de sécurité associés feront l'objet d'articles dédiés sur ce site.

Références

ReAct : Synergizing Reasoning and Acting in Language Models — Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao (Princeton University & Google Research), 2022. Article fondateur sur le pattern ReAct, publié à ICLR 2023.
Agentic Artificial Intelligence : Architectures, Taxonomies, and Evaluation of Large Language Model Agents — Arunkumar V., Gangadharan G.R., Rajkumar Buyya (Anna University, NIT Tiruchirappalli, University of Melbourne), janvier 2026. Survey unifié proposant la taxonomie en six dimensions et la formalisation POMDP de la boucle agentique.
The Orchestration of Multi-Agent Systems : Architectures, Protocols, and Enterprise Adoption — Apoorva Adimulam, Rajesh Gupta, Sumit Kumar (Skan AI), janvier 2026. Blueprint technique des systèmes multi-agents : rôles spécialisés, couche d'orchestration, protocoles MCP et A2A, gouvernance et observabilité.
A Survey on the Memory Mechanism of Large Language Model-based Agents — Zeyu Zhang et al. (Renmin University of China & Huawei Noah's Ark Lab), ACM Transactions on Information Systems, septembre 2025. Premier survey systématique sur la mémoire des agents LLM : sources, formes, opérations de lecture/écriture/gestion.
Choosing the right orchestration pattern for multi-agent systems — Kore.ai, 2026. Analyse comparative des trois patterns d'orchestration (superviseur, réseau adaptatif, custom) avec des cas d'usage sectoriels.
The Three Layers of an Agentic AI Platform — Eric Sheng, Roger Zhu, Brendan O'Rourke, Dale Pedzinski, Kevin Zhang (Bain & Company), avril 2026. Description du cadre architectural à trois couches : orchestration, observabilité, données et connaissances.