Les entreprises commercialisent des modèles d’IA multimodaux pour analyser des vidéos et plus encore
22 mars 2022, 6 h 30

Plus tôt ce mois-ci, des chercheurs de l’Allen Institute for AI — un organisme sans but lucratif fondé par feu Paul Allen, cofondateur de Microsoft, ont publié une démonstration interactive d’un système qu’ils décrivent comme faisant partie d’une « nouvelle génération » d’applications d’IA capables d’analyser, de rechercher et de répondre à des questions sur les vidéos « à grande échelle ». Appelé Merlot Reserve, les chercheurs ont fait « regarder » 20 millions de vidéos YouTube au système pour apprendre les relations entre images, sons et sous-titres, ce qui lui permettait, par exemple, de répondre à des questions telles que « Quel repas la personne dans la vidéo veut-elle manger? » ou « Le garçon dans cette vidéo a-t-il déjà nagé dans l’océan? »
Merlot Reserve et son prédécesseur, Merlot, ne sont pas les premiers systèmes d’IA « multimodaux » de ce genre. Les systèmes capables de traiter et de relier l’information provenant de l’audio, des visuels et du texte existent depuis des années. Ces technologies continuent de s’améliorer dans leur capacité à comprendre le monde davantage comme les humains. Le laboratoire de recherche OpenAI de San Francisco, DALL-E lancé en 2021, peut générer des images d’objets — réels ou imaginaires — à partir de descriptions textuelles simples comme « un fauteuil en forme d’avocat ». Un système plus récent de Google appelé VATT peut non seulement sous-titrer des événements dans des vidéos (par exemple, « un homme nageant »), mais aussi classifier des extraits audio et reconnaître des objets dans les images.
Cependant, jusqu’à récemment, ces systèmes d’IA multimodaux étaient strictement destinés au domaine de la recherche. Cela change — de plus en plus, ils deviennent commercialisés.
« Différentes technologies multimodales, y compris la reconnaissance vocale automatique, l’étiquetage et la reconnaissance d’images, les réseaux de neurones et les modèles traditionnels d’apprentissage automatique [peuvent aider à] comprendre le texte, la voix et les images — [surtout lorsqu’ils sont jumelés] au traitement du texte », a déclaré Aaron Sloman, cofondateur et CTO de CLIPr, à VentureBeat par courriel. CLIPr fait partie de la cohorte naissante d’entreprises utilisant des systèmes d’IA multimodaux pour des applications comme l’analyse vidéo. Des géants de la technologie, dont Meta (anciennement Facebook) et Google, sont représentés dans le groupe, tout comme des startups comme Twelve Labs, qui affirme que ses systèmes peuvent reconnaître des fonctionnalités dans des vidéos, y compris des objets, du texte à l’écran, de la voix et des personnes.
« [Mes collègues cofondateurs et moi] avons cherché une solution pour nous aider à extraire facilement des extraits importants et pertinents des vidéos comme alternative à sauter d’intervalles de 10 à 15 secondes, et comme nous n’avons pas trouvé de solution, nous avons décidé d’en créer une ... Notre plateforme d’indexation vidéo éponyme ... intègre la vidéo enregistrée et aide à la rendre consultable par transcription, sujets et sous-sujets », a déclaré Sloman. « Analyser la prosodie est aussi essentiel pour nous, c’est-à-dire le rythme, l’accent et l’intonation de la parole. Nous l’utilisons contre l’analyse d’images, comme les diapositives de présentation de réunion, pour aider à évaluer la précision de ces changements de ton ou pour [chercher] des gestes animés avec les participants qui sont en vidéo. »
Sloman affirme que CLIPr compte des clients dans une « variété » d’industries, principalement dans l’édition médiatique, l’entreprise et les événements. À l’avenir, la startup vise à appliquer sa technologie à la diffusion vidéo en direct et à créer des bots « spécifiques à un rôle » qui peuvent, par exemple, prendre des conférences principales d’un événement et créer automatiquement une bobine de faits forts.
« Nous croyons que la vidéo est la forme la plus importante et sous-utilisée de communication moderne, et notre objectif est de rendre la vidéo aussi accessible que le contenu écrit », a poursuivi Sloman.
Contrats à terme multimodaux
En dehors des systèmes multimodaux, l’IA ne vit pas le monde de la même façon que les humains. Par exemple, un système de reconnaissance vocale ne peut comprendre qu’un seul type de données — la parole — et ne comprend pas le contexte de cette parole. En revanche, les gens utilisent tous leurs sens (par exemple, la vue, l’ouïe, l’odorat) pour traiter et ancrer les événements dans le temps. À partir d’images et de légendes de quelqu’un en train de cuisiner du popcorn, par exemple, on peut imaginer quels sont les sons de la scène, comme des grains crus qui se dispersent dans une casserole vide et les « pops » du popcorn qui s’étendent.
« [D]un de ces modèles multimodaux est spécifique à l’image et se concentre sur la reconnaissance visuelle — décrivant ce qui est littéralement montré », a déclaré Rowan Zellers, doctorant en informatique à l’Université de Washington et chercheur principal sur le projet Merlot Reserve, par courriel à VentureBeat. « Nous pourrions voir des modèles répondre à des questions sur ce que les gens font (et pourquoi) dans des vidéos, possiblement pour des applications de recherche. »
Twelve Labs, par exemple, affirme que son système rend n’importe quelle base de données vidéo analysable en transformant des extraits en représentations mathématiques appelées embeddings vectoriels. Selon le PDG Jae Lee, les clients l’ont utilisé pour construire des moteurs de recommandation, des systèmes de modération de contenu et des tableaux de bord d’analyse média.
« [Twelve Labs] travaille à construire un modèle capable de créer des embeddings vidéo puissants pouvant servir non seulement à la recherche sémantique, mais aussi à d’autres tâches, comme la génération de sous-titres, de surlignages et de résumés », a déclaré Lee à VentureBeat par courriel. « Nos modèles vidéo sont formés sous supervision linguistique. Nous extravons divers modules — multimodalité — d’informations telles que des images, de l’audio, de la transcription, du mouvement, etc. de la vidéo et fusionnons cette information en une seule représentation vectorielle. Cette représentation est entraînée selon le texte pertinent — les phrases — qui est traité à l’aide de la technologie de traitement du langage naturel (PLN). »
Au-delà des startups, l’an dernier, Google a révélé qu’elle prévoit d’utiliser un système d’IA multimodal appelé modèle unifié multitâche (MUM) pour améliorer les expériences de recherche Google dans différentes langues et appareils. Parmi d’autres améliorations, dans Google Search, MUM développera de nouvelles fonctionnalités qui prennent une requête (par exemple, « peintures acryliques ») et mettent en lumière des ressources comme des instructions étape par étape et sélectionnent des sujets dans les vidéos (par exemple, « techniques acryliques ») en fonction du contenu audio, textuel et visuel.
Meta a récemment indiqué qu’elle applique également un système multimodal, appelé Few-Shot Learner (FSL), pour déterminer si le contenu des messages Facebook et Instagram — y compris le texte, les images et les URL — enfreint ses directives communautaires. L’entreprise affirme que FSL a été développé à partir d’une base de données de milliards de publications et d’images Facebook dans plus de 100 langues.
Zellers croit qu’à l’avenir, ce type de modèles multimodaux pourrait être utilisé pour créer des produits qui non seulement analysent la vidéo en ligne, l’audio et les formes de contenu connexes, mais aident aussi les utilisateurs ayant des troubles de la vision ou de l’audition. « Cela peut impliquer tout, de répondre à des questions basiques jusqu’à l’interaction contextuelle », ajouta-t-il.
Revers multimodaux
Bien que l’IA multimodale commercialisée soit plus courante qu’auparavant, plusieurs obstacles doivent être surmontés avant que ce type de systèmes ne soit déployé à grande échelle. C’est en partie une question de faire fonctionner l’économie : même si faire fonctionner un système existant n’est généralement pas coûteux, du moins comparé au développement d’un nouveau, cela dépend de la nature de la charge de travail et du niveau de compétence de l’équipe de science des données de l’entreprise.
« Le développement initial du modèle est de loin l’aspect le plus coûteux, car il inclut la perfection de la science des données en parallèle », a déclaré Sloman. « Par exemple, le processus de distinction de ce qui est ou n’est pas une diapositive à travers des milliers de réunions Zoom vérifiées est très coûteux. »
Par exemple, Merlot Reserve a mis environ trois semaines à se développer sur un cluster de 512 unités de traitement tensoriel (TPU) de troisième génération de Google, des puces conçues pour accélérer certains aspects du processus de création de l’IA. Un pod de trente-deux TPU de troisième génération coûte 32 $ de l’heure à évaluer, selon les prix publics actuels, portant les coûts de développement de Merlot Reserve à un peu plus de 16 000 $ (en supposant l’absence de rabais sur volume, annuels ou académiques).
« Nous utilisons actuellement sept modèles différents, dont certains sont des dépôts open source à grande échelle de données contenant des centaines de millions d’objets, tandis que d’autres sont propriétaires », a expliqué Sloman. « Nos modèles propriétaires s’entraînent depuis plus d’un an maintenant, et même s’il est difficile de dire pour les modèles open source que nous utilisons, ils s’entraînent probablement depuis bien plus longtemps ... Je soupçonne que le prochain changement majeur en IA multimodale sera de créer des liens plus standardisés entre différents types de modèles cloisonnés. Nous avons dû assembler plusieurs modèles d’IA, chacun réalisant bien un type d’analyse. Finalement, avec de nombreuses entreprises qui développent des produits en multimodal, nous verrons plus d’offres open source, rendant plus facile et moins coûteux la formation et la réalisation d’expériences. »
Les systèmes multimodaux d’aujourd’hui souffrent aussi de défauts techniques, comme capter les biais dans les données (par exemple, des vidéos YouTube) dont ils apprennent. Par exemple, parce que Merlot Reserve « regarde » un grand volume de vidéos YouTube, il est biaisé en faveur des recommandations de YouTube et, plus largement, par la pression économique liée au contenu que les gens sont encouragés à produire.
« La modération de contenu sur YouTube filtre de façon disproportionnée les voix [des minorités] ... Les rôles des gens dans les vidéos YouTube [aussi] ont tendance à être fortement genrés, ce qui pourrait biaiser la compréhension de la situation », ont écrit Zellers et ses collègues dans une étude décrivant les capacités de Merlot Reserve. « Les sous-titres automatiques sur YouTube sont connus pour souffrir de biais de genre, que notre modèle (comme les modèles neuronaux en général) pourrait à son tour amplifier. Les transcriptions sur YouTube sont probablement aussi mal adaptées aux marqueurs d’identité importants, comme les pronoms. »
Mis à part les biais, rien n’empêche les acteurs malveillants d’utiliser des systèmes multimodaux à des fins controversées, comme identifier des événements ou des activités dans des images de surveillance. Dans un article publié par l’Institut pour l’intelligence artificielle centrée sur l’humain de Stanford, les coauteurs soutiennent que les avancées dans les modèles multimodaux comme DALL-E aboutiront à un contenu de meilleure qualité, généré par machine, plus facile à personnaliser pour des « usages abusifs » — comme la publication d’articles trompeurs ciblant différents partis politiques, nationalités et religions.
Sloman affirme que CLIPr, pour sa part, prend des mesures pour atténuer les biais et les abus du modèle grâce à une approche « humain dans la boucle ». L’entreprise encourage ses clients à signaler les erreurs commises par le système CLIPr afin de pouvoir les corriger — et idéalement améliorer le développement des modèles en arrière-plan.
« Le multimodal a ses avantages, car s’il est bien réalisé, il a moins de chances de produire des biais comparativement aux modèles plus cloisonnés », a-t-il dit. « Le vrai danger vient du fait de ne pas reconnaître la complexité et l’imperfection de l’IA multimodale et d’utiliser des données qui vous mènent sur un chemin linéaire de décision qui limite le spectre des réponses ou correspondances. »
Lee a indiqué que Twelve Labs a aussi mis en place des stratégies de mitigation des biais. L’entreprise adopte une approche en trois phases qui inclut la collecte de jeux de données provenant de sources diverses, la création de documentation pour ces ensembles de données, et la sélection des informations brutes vidéo et textuelle.
« Les modèles de vision par ordinateur sont utilisés pour détecter et filtrer le contenu visuel pouvant contenir de la toxicité ou du contenu sensible », a expliqué Lee. « Ensuite, la transcription de la vidéo brute est analysée en utilisant des mots blocs (c’est-à-dire en retirant tout texte contenant des mots d’une liste de mots sélectionnés) et des techniques avancées de traitement naturel naturel pour filtrer le contenu pouvant contenir des biais politiques, socio-économiques ou démographiques. Des mots blocs et des techniques de PLN sont aussi utilisés pour filtrer les étiquettes de texte pouvant contenir toxicité et biais ... Comprendre et atténuer les biais potentiels lors de l’utilisation de modèles multimodaux est essentiel au succès de Twelve Labs. »