L'IA multimodale fait référence à des systèmes capables de comprendre et de générer des informations à partir de plusieurs types de données, notamment du texte, des images, du son et de la vidéo. Contrairement aux modèles d'IA traditionnels qui fonctionnent avec une seule modalité, les modèles multimodaux sont conçus pour traiter et intégrer des informations provenant de plusieurs sources à la fois.
Cela permet un raisonnement plus précis, des interactions plus riches et une application plus large à des tâches du monde réel.
Qu'il s'agisse de la capacité du GPT-4 à gérer les entrées vocales et visuelles ou de ses applications dans les domaines du diagnostic médical, de la robotique et de la génération de médias, l'IA multimodale joue rapidement un rôle central dans la façon dont les machines perçoivent le monde et y réagissent.
Comprendre l'IA multimodale : définition et principes de base
Les systèmes d'IA multimodaux combinent différents types de données, tels que du texte, des images, du son et de la vidéo au sein d'un seul modèle. Un encodeur dédié traite d'abord chaque entrée. Les modèles de langage basés sur Transformer gèrent généralement le texte. Les images sont traitées à l'aide de réseaux neuronaux convolutifs ou de transformateurs de vision. L'audio est souvent codé à l'aide de modèles basés sur des spectrogrammes ou de transformateurs de forme d'onde.
Une fois que chaque entrée est codée dans une représentation vectorielle, le modèle mappe ces vecteurs dans un espace latent partagé.
Cet espace partagé permet au système d'apprendre les relations entre les modalités. Par exemple, il peut lier une légende à une image ou associer une phrase prononcée à un contenu vidéo pertinent. Les mécanismes d'attention sont souvent utilisés pour aligner et intégrer les informations entre ces entrées de manière cohérente.
L'IA multimodale permet des sorties plus flexibles et plus sensibles au contexte. Un modèle unique peut effectuer des tâches telles que décrire des images en langage naturel, répondre à des questions sur le contenu vidéo ou générer des réponses basées sur une combinaison de texte et de visuels.
En savoir plus sur agents d'IA multimodaux.
En quoi l'IA multimodale diffère de l'IA traditionnelle
Les bases de l'IA multimodale ont été jetées par les premiers travaux sur le sous-titrage des images et la réponse visuelle aux questions. Des progrès notables ont commencé avec des modèles tels que Show and Tell (Google, 2015), qui combinaient des réseaux convolutifs avec des modèles de langage récurrents. Les recherches menées par FAIR (Facebook AI Research) et OpenAI ont encore fait avancer le domaine grâce à des architectures entraînées sur des ensembles de données texte-image appariés à grande échelle.
Le CLIP (Contrastive Language — Image Pretraining), publié par OpenAI en 2021, a marqué un tournant majeur. CLIP a appris des concepts visuels directement à partir de la supervision du langage naturel, ce qui lui a permis de les généraliser à un large éventail de tâches de classification d'images sans les affiner.
Cela a été suivi par DALL·E, Flamingo de DeepMind et, plus récemment, par le GPT-4 doté de capacités de vision.
Ces développements reflètent le passage de pipelines spécifiques à des tâches à des modèles à usage général capables de gérer plusieurs types d'entrées au sein d'un cadre unifié.
Les modèles d'IA traditionnels sont généralement conçus pour traiter un seul type d'entrée. Par exemple, un modèle de langage tel que GPT-2 est entraîné uniquement sur du texte, tandis qu'un réseau neuronal convolutif tel que ResNet est optimisé pour la classification des images.
Ces modèles fonctionnent dans des domaines isolés et ne peuvent pas naturellement interpréter ou relier les informations selon différentes modalités.

L'IA multimodale, en revanche, est conçue pour traiter et combiner plusieurs types de données au sein d'un seul système. Il ne traite pas le texte, les images ou le son comme des flux séparés, mais les code dans un espace de représentation commun. Cet espace partagé permet au modèle d'établir des liens entre les modalités.
Par exemple, il peut associer une image à une légende, associer un son à une scène visuelle ou répondre à une langue parlée avec une image vidéo générée.
Comment fonctionne l'IA multimodale : composants techniques
L'IA multimodale fonctionne en permettant à un système unique de traiter, d'aligner et de raisonner plusieurs types de données d'entrée, telles que du texte, des images, du son et de la vidéo.
Plutôt que de traiter chaque type de données de manière isolée, il crée une compréhension partagée en traduisant chaque modalité sous une forme qui peut être comparée, combinée et utilisée conjointement dans des tâches en aval.

1. Encodage de chaque modalité
Le processus commence par l'encodage des entrées brutes dans des représentations structurées :
- Texte est codé à l'aide de modèles de langage basés sur des transformateurs qui capturent la sémantique et la syntaxe.
- Des images sont traités par le biais de réseaux neuronaux convolutifs ou de transformateurs de vision pour extraire des caractéristiques visuelles.
- Audio est converti en spectrogrammes ou traité directement sous forme d'onde à l'aide d'encodeurs spécialisés tels que Wav2Vec ou AudioMae.
- Vidéo implique un traitement spatial et temporel, souvent à l'aide de CNN 3D ou de mécanismes d'attention sensibles au temps.
Chaque encodeur transforme l'entrée en un vecteur de grande dimension qui capture ses caractéristiques les plus pertinentes.
2. Mappage vers un espace de représentation partagé
Les vecteurs codés sont projetés dans un espace latent partagé, où les informations provenant de différentes modalités deviennent comparables. Cet espace est formé de manière à ce que le contenu sémantiquement similaire, tel qu'une image et sa légende, soient proches les uns des autres. Des modèles tels que CLIP y parviennent en utilisant l'apprentissage contrastif, qui rassemble les paires correspondantes et sépare les paires non correspondantes.
Cet espace partagé est le principal moteur de la compréhension intermodale. Il permet, par exemple, à un modèle de récupérer une image sur la base d'une requête textuelle ou de générer du texte sur la base d'une saisie visuelle.
3. Alignement et fusion intermodaux
Une fois codées, les informations provenant de différentes modalités sont intégrées via des mécanismes d'attention et des couches de fusion. C'est là que le modèle apprend à aligner les parties pertinentes de chaque modalité, par exemple en liant un mot dans une phrase à une région spécifique d'une image.
Les stratégies de fusion varient selon l'architecture :
- Fusion précoce combine les entrées avant tout traitement approfondi.
- Fusion tardive fusionne les sorties une fois que chaque modalité a été traitée indépendamment.
- Fusion intermédiaire (articulaire) est le plus efficace et le plus couramment utilisé, permettant des interactions riches à plusieurs niveaux du modèle.
4. Raisonnement conjoint et génération de résultats
Grâce à des représentations multimodales alignées, le modèle peut effectuer des tâches qui nécessitent la compréhension de tous les types d'entrées ensemble. Il peut générer une description textuelle d'une image, répondre à des questions concernant une vidéo ou mener un dialogue oral fondé sur un contexte visuel.
Un décodeur ou une tête spécifique à une tâche transforme les représentations fusionnées en sorties. Dans les modèles multimodaux génératifs tels que GPT-4o ou Flamingo, le décodeur est généralement un transformateur entraîné pour produire des séquences de texte, conditionnées à la fois par des entrées linguistiques et non linguistiques.
La plupart des systèmes multimodaux utilisent deux phases :
- Préentraînement: Des ensembles de données à grande échelle avec des modalités appariées (comme une image-texte ou un vidéo-texte) sont utilisés pour apprendre des représentations générales. Cette phase est souvent autosupervisée.
Réglage fin: Le modèle est ensuite adapté à des tâches spécifiques à l'aide de petits ensembles de données supervisés. Certains modèles récents prennent directement en charge l'apprentissage en mode zéro ou en quelques séances, sans formation supplémentaire.
En savoir plus sur médias synthétiques.

Modèles d'IA multimodaux populaires
1. CLIP (Préapprentissage du langage contrastif à l'image) — OpenAI
Publié: 2021
Modalités: Texte et image
Principales caractéristiques:
- Entraîné à partir de 400 millions de paires image-texte extraites d'Internet.
- Apprend à créer un espace d'intégration partagé pour les images et le texte à l'aide de l'apprentissage contrastif.
- Peut effectuer une classification d'images à prise de vue nulle en faisant correspondre les intégrations d'images avec des étiquettes en langage naturel.
Incidence: définissez une nouvelle norme en matière de tâches flexibles en langage visuel sans aucune modification.
2. DALL·E/DALL·E 2 — OpenAI
Publié: année 2021 et 2022
Modalités: Texte à image (génératif)
Principales caractéristiques:
- Génère des images à partir de messages en langage naturel.
- DALL·E 2 a amélioré la résolution, le réalisme et les capacités de montage.
Incidence: a ouvert la voie à des outils d'intelligence artificielle créatifs et a montré comment le texte peut contrôler avec précision la génération d'images.
3. Flamant rose — DeepMind
Publié: 2022
Modalités: texte, image, vidéo
Principales caractéristiques:
- Conçu pour un apprentissage en quelques étapes sur des tâches multimodales.
- Combine un encodeur de vision figée avec un modèle de langage préentraîné et des couches d'attention croisée.
Incidence: A démontré de solides performances sur plusieurs critères de référence en langage visuel avec très peu de formation spécifique à une tâche.
4. Palm-e — Google Research
Publié: 2023
Modalités: texte, image, entrée du capteur du robot
Principales caractéristiques:
- Intègre les données de contrôle du robot du monde réel dans un grand modèle de langage (PALm).
- Permet aux robots de suivre des instructions multimodales, comme « allez dans la cuisine et cherchez un mug rouge ».
Incidence: A montré comment les modèles de langage peuvent être ancrés dans des environnements physiques et des agents incarnés.
5. GPT-4 avec vision (GPT-4V)/GPT-4o — OpenAI
Publié: GPT-4V (2023), GPT-4o (2024)
Modalités: texte, image, audio, vidéo
Principales caractéristiques:
- GPT-4V a introduit la saisie d'image dans GPT-4.
- GPT-4o (« omni ») intègre toutes les modalités de manière native, y compris l'entrée et la sortie vocales en temps réel.
- Un modèle unique traite et génère différentes modalités.
Incidence: passe à des assistants IA unifiés en temps réel capables de comprendre la vision, la parole et le texte.
6. Kosmos-1/Kosmos-2 — Microsoft Research
Publié: 2023
Modalités: Texte et image
Principales caractéristiques:
- Combine vision et langage grâce à une compréhension fondée.
- Kosmos-2 a introduit la mise à la base des objets pour le raisonnement spatial.
Incidence: Axé sur la base des connaissances et le raisonnement par langage visuel pour les tâches générales de renseignement.
Comment Akool utilise l'IA multimodale
Akool est une plateforme qui intègre plusieurs modalités de données : texte, image, audio et vidéo, dans un environnement unique piloté par l'IA.

Cette intégration lui permet d'effectuer des tâches multimédia complexes qui nécessitent que le modèle comprenne et génère différents types d'entrées. Voici comment chaque modalité est gérée et combinée :
1. Texte + Image
- Génération de texte en image: les utilisateurs peuvent saisir des instructions pour générer des images. Pour ce faire, le système doit mapper les entrées en langage naturel au contenu visuel à l'aide d'un espace de représentation partagé, à l'instar de modèles tels que DALL·E ou Stable Diffusion.
- Retouche d'image via des invites: Les utilisateurs peuvent modifier les images (changer l'arrière-plan, l'éclairage, la pose, etc.) en langage naturel, ce qui montre la capacité du système à aligner les instructions textuelles sur les transformations visuelles.
2. Image + audio + vidéo
- Échange de visages et animation d'avatar: Akool permet aux utilisateurs d'animer des visages sur des photos à l'aide d'une entrée audio ou de scripts de texte. Cela nécessite d'aligner les repères faciaux d'une image avec une synchronisation audio ou textuelle au niveau du phonème, en synchronisant le mouvement et l'expression entre les modalités.
- Traduction avec synchronisation labiale: La plateforme peut traduire l'audio parlé dans une autre langue et modifier le mouvement des lèvres de l'orateur en vidéo pour qu'il corresponde au discours traduit. Cela combine :
- conversion audio en texte (reconnaissance vocale),
- Traduction de texte (traitement du langage naturel),
- Synthèse vocale (synthèse vocale),
- Re-rendu vidéo (montage visuel avec modélisation du mouvement).
- conversion audio en texte (reconnaissance vocale),
3. Texte + audio + vidéo
- Avatars parlants: Un utilisateur peut saisir un script (texte), qui est synthétisé en parole et animé à l'aide d'un avatar virtuel. Le système associe le texte à la voix et la voix aux mouvements du visage, en combinant la génération de langage naturel, la synthèse vocale et l'animation faciale.
- Avatars IA en direct: La fonction Live Camera permet aux utilisateurs d'apparaître sous forme d'avatars lors de visioconférences. Ici, l'entrée audio en temps réel (parole) et éventuellement le flux vidéo facial (expression) sont mappés sur un personnage animé synthétique.