ASM-COCO – DEFI CLE : Robotique

Le projet ASM-COCO

Ancrage Sémantique Multimodal pour Cobots Conversationnel

Comment permettre aux robots d’intégrer naturellement des informations multimodales pour agir intelligemment ? Cette thèse développe une architecture inspirée du cerveau humain qui fusionne plusieurs sources sensorielles dans un espace commun, permettant aux robots d’apprendre à naviguer et manipuler des objets de manière robuste.

Objectifs

Implémenter un Global Latent Workspace (GLW) capable de fusionner des données visuelles, textuelles et sensorielles dans un espace latent amodal unifié
Réaliser l’ancrage sémantique multimodal permettant au robot de créer des représentations internes du monde à partir de multiples sources d’information (caméras, capteurs, langage naturel)
Intégrer un modèle de dialogue conversationnel permettant au robot d’interagir naturellement avec les opérateurs humains pour apprendre de nouvelles tâches
Développer des capacités d’action autonome en reliant l’espace latent aux actions motrices du robot, soit par composition d’actions atomiques, soit par apprentissage par renforcement
Permettre une programmation par la conversation sans expertise technique ni données d’entraînement massives, rendant les cobots accessibles aux opérateurs de terrain

Médiation scientifique

https://exploreur.univ-toulouse.fr/dans-la-tete-dun-robot

Type de financement

Thèse

Doctorante recrutée

Léopold Maytié

Référents

Rufin VanRullen

Nicholas Asher

Mots-clés

Apprentissage Profond, Ancrage Multimodal, Apprentissage par Renforcement,

Espace de Travail Global, Robotique

Dates

01/10/2022 au 31/12/2025

Tutelles

IRIT – Université de Toulouse

Site internet

https://lmaytie.com

Valorisation du projet

https://exploreur.univ-toulouse.fr/dans-la-tete-dun-robot

Résultats attendus

Architecture GLW fonctionnelle : Un système opérationnel basé sur la théorie du Global Workspace capable de fusionner au minimum deux modalités (vision et langage), extensible à d’autres modalités (capteurs proprioceptifs, données de proximité)
Capacités d’ancrage multimodal : Le robot peut associer des descriptions linguistiques (attributs puis phrases en langage naturel) à des perceptions visuelles, avec support de points de vue multiples (caméra fixe et caméra embarquée mobile)
Interaction conversationnelle située : Intégration d’un modèle de dialogue permettant au robot de comprendre et exécuter des instructions en contexte, avec compréhension de son environnement immédiat
Système d’action autonome : Capacité pour le robot de traduire les objectifs issus de l’espace latent en actions concrètes, soit par sélection d’actions prédéfinies, soit par apprentissage de politiques motrices
Contributions méthodologiques : Utilisation de techniques innovantes basées sur la cycle-consistency réduisant la dépendance à la supervision, adaptées aux contraintes robotiques réelles

L’équipe

Léopold Maytié

Doctorant

IRIT – CerCo
Melodi/ NeuroAI
Intelligence Artificielle (IA)

Rufin VanRullen

Chercheur

CerCo
NeuroAI
Sciences-Cognitives / IA

Nicholas Asher

Chercheur

IRIT
Melodi
Traitement Automatique du Langage (TAL)

+ Présentation détaillée

Le projet ASM-COCO (Ancrage Sémantique Multimodal pour Cobot Conversationnel) s’inscrit dans le programme de recherche COCOBOTS qui explore les possibilités d’interaction naturelle entre humains et robots collaboratifs. L’objectif est d’étudier comment un robot pourrait apprendre et exécuter des tâches en conversant avec des opérateurs humains, réduisant ainsi la dépendance à une programmation experte.

La thèse aborde la question de l’ancrage sémantique multimodal, c’est-à-dire la façon dont un robot peut créer une représentation cohérente du monde en combinant différentes sources d’information : ce qu’il perçoit visuellement, ce qu’on lui communique en langage naturel, et les données de ses capteurs internes. Cette intégration multimodale pose de nombreux défis techniques et théoriques.

Le travail s’appuie sur la théorie du Global Workspace issue des neurosciences, qui propose un modèle de la cognition basé sur l’intégration d’informations sensorielles, sémantiques et motrices. L’adaptation de cette théorie à l’intelligence artificielle, sous la forme d’un Global Latent Workspace (GLW), constitue l’une des originalités du projet. Il s’agit d’une première implémentation de ce type dans un contexte robotique complexe.

Les approches existantes d’ancrage multimodal, comme CLIP, UNITER ou VirTex, se concentrent principalement sur l’association vision-langage dans des contextes statiques. Le GLW se distingue par sa modularité et sa capacité à intégrer dynamiquement de multiples modalités (vision fixe et mobile, langage, proprioception) dans un espace unifié. Cette architecture permet d’ajouter ou retirer des modules selon les besoins, contrairement aux modèles monolithiques traditionnels. L’approche biomimétique inspirée du cerveau humain offre également un cadre théorique plus riche pour comprendre et améliorer l’intégration multimodale.

Le projet s’intéresse aux environnements industriels de maintenance ou d’assemblage d’objets complexes, comme dans l’aéronautique. L’enjeu est de réduire les délais actuellement nécessaires pour adapter les robots à de nouvelles tâches, qui peuvent prendre plusieurs semaines d’intervention d’experts.
Si les résultats sont concluants, cette recherche pourrait contribuer à faciliter l’interaction homme-robot dans des contextes industriels. L’approche vise une collaboration complémentaire où les robots assistent les opérateurs plutôt que de les remplacer, avec pour objectif de réduire la charge cognitive et les tâches répétitives tout en maintenant la qualité du travail.

+ Références du projet

B Devillers, L Maytié, R VanRullen, Semi-supervised multimodal representation learning through a global workspace, IEEE TNNLS, 2024

L Maytié, B Devillers, A Arnold, R VanRullen, Zero-shot cross-modal transfer of Reinforcement Learning policies through a Global Workspace, RLJ, 2024

+ Références – état de l’art

[1] B. Amos, et al. Learning Awareness Models. ICLR, 2018.

[2] M. Artetxe, G. Labaka, E. Agirre, and K. Cho. Unsupervised Neural Machine Translation. ICLR, 2018.

[3] B. J. Baars. A Cognitive Theory of Consciousness. Cambridge University Press, July 1993.

[4] Y.-C. Chen, L. Li, L. Yu, A. E. Kholy, F. Ahmed, Z. Gan, Y. Cheng, and J. Liu. UNITER : UNiversal Image-TExt Representation Learning. ECCV, 2020.

[5] S. Dehaene and J.-P. Changeux. Ongoing Spontaneous Activity Controls Access to Consciousness : A Neuronal Model for Inattentional Blindness. PLOS Biology, 3(5), 2005.

[6] K. Desai and J. Johnson. VirTex : Learning Visual Representations from Textual Annotations. IEEE/CVF, 2021.

[7] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova. BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding. ACL, 2019.

[8] S. M. A. Eslami, et al. Neural scene representation and rendering. Science, 2018.

[9] D. Ha and J. Schmidhuber. Recurrent World Models Facilitate Policy Evolution. Neurips, 2018.

[10] K. M. Hermann, et al. Grounded Language Learning in a Simulated 3D World. arXiv :1706.06551 [cs, stat], June 2017. arXiv :1706.06551.

[11] K. J. Joseph, A. et al. C4Synth : Cross-Caption Cycle- Consistent Text-to-Image Synthesis. IEEE WACV, 2019.

[12] J. Lei, L. Yu, T. L. Berg, and M. Bansal. TVQA+ : Spatio-Temporal Grounding for Video Question Answering. ACL, 2020.

[13] A. Radford, et al. Learning Transferable Visual Models From Natural Language Supervision. MLR, 2021.

[14] C. Sun, et al. VideoBERT : A Joint Model for Video and Language Representation Learning. IEEE/CVF, 2019.

[15] R. VanRullen and R. Kanai. Deep Learning and the Global Workspace Theory. Trends in Neurosciences, 2021.

[16] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE/CVF, 201.