Lutte contre la fatigue vidéo au travail grâce à l’IA


30 avril 2021


Le PDG de CLIPr, Humphrey Chen, décrit comment notre entreprise relève ce défi complexe


La pandémie de COVID-19 a accéléré la transition de la vidéoconférence d’entreprise, passant d’un simple « agréable à avoir » à une nécessité. Selon un billet de blogue Zoom, leur plateforme a explosé pour atteindre 300 millions d’utilisateurs quotidiens de réunions en avril 2020, contre 10 millions en décembre 2019. Le contenu vidéo est au cœur de tout ce que les entreprises font aujourd’hui, des réunions et des happy hours de team building, aux événements virtuels, sessions de formation et plus encore. Tellement de choses sont regardées que cela a aussi mené à une énorme fatigue vidéo, nous rappelant à tous qu’il peut y avoir trop d’une bonne chose.


Bien que la pandémie ait pu être l’impulsion pour accélérer la vidéoconférence en milieu de travail, elle ne fait que commencer, car les environnements de travail hybrides sont probablement là pour rester. Un nouveau sondage de Metrigy a révélé que plus de 57% des entreprises s’attendent à augmenter leur déploiement de vidéoconférence en salle. À mesure que la dépendance à la vidéo s’accélère, et que la fatigue augmente, la situation demande des solutions pour interagir avec le contenu avec beaucoup plus d’efficacité.


Au-delà de cela, les entreprises disposent d’une abondance de contenu vidéo enregistré et d’aucun moyen simple de révéler ou de se souvenir de ces informations ultérieurement pour éclairer la stratégie, les propositions, les livres blancs et d’autres supports communs d’entreprise. Heureusement, l’intelligence artificielle (IA) est appliquée pour résoudre ce défi naissant.


Comment l’engagement vidéo peut-il s’améliorer?


La métrique standard pour l’engagement vidéo est le temps qu’une personne passe à regarder une vidéo. Cependant, ce n’est plus une façon valable de calculer le succès, car cela repose sur l’idée qu’une vidéo entière a de la valeur pour l’utilisateur et qu’il y a un temps illimité dans notre vie quotidienne pour consommer tout le contenu vidéo pertinent.


Clairement, ce n’est pas une mesure réaliste. Au lieu de cela, les entreprises devraient se concentrer sur la rapidité avec laquelle les employés peuvent localiser les sujets les plus pertinents à partir de la vidéo, extraire l’information et l’appliquer à leur flux de travail, ce qui permet d’économiser du temps et d’augmenter la productivité. Nous faisons cela naturellement pour la plupart des autres formes de contenu.


Considérez des articles, livres blancs, sondages ou rapports de recherche.  Pour chacun de ces objectifs, on apprend rapidement à trouver des portions précieuses du contenu et à les extraire à diverses fins. Cette tâche est exponentiellement plus difficile avec la vidéo longue. C’est une préoccupation réelle, car une étude de Wundamail a révélé que les employés étaient trois fois plus susceptibles de respecter les actions convenues par écrit que par vidéo, puisqu’ils ne se souvenaient pas des informations clés après avoir terminé un appel vidéo.


L’IA offre une occasion de surmonter ce défi en analysant les indices audio et visuels pour identifier les moments clés dans la vidéo, ce qui facilite l’indexation, la recherche et la mémoire uniquement des moments importants. De plus, ce qui est important pour toi, ce n’est pas pour moi. Chaque spectateur évalue le moment important différemment et une IA devrait aussi comprendre ces nuances et distinctions. La transcription audio a aidé à naviguer dans la vidéo, mais elle est dépourvue de contexte et idéale uniquement pour prendre des notes et suivre les actions à suivre. Entraîner une machine à comprendre la vidéo est incroyablement complexe et repose sur une orchestration de déclencheurs difficiles même avec les avancées actuelles de l’IA.


De nombreuses analyses doivent se faire en tandem pour mettre en lumière des moments vidéo importants. Des facteurs visuels et sonores tels que les sujets, les intervenants, le volume et le temps de conversation, le langage corporel, les animations et les aides visuelles ne sont que quelques-unes des principales façons dont l’apprentissage automatique peut commencer à identifier des moments importants dans le contenu vidéo.


Pour l’instant, l’IA peut facilement analyser les mots-clés et les expressions, mais un gros sac de mots n’aide pas pour les actions ou le contexte. Dans ces grands fourchages, il y a des variables supplémentaires, comme la terminologie et la distinction entre plusieurs voix (c’est-à-dire une rencontre avec plusieurs personnes utilisant des accents similaires ou différents). Fait intéressant, pour que l’IA comprenne l’importance d’un moment, elle doit souvent d’abord analyser la réponse ou la réaction à celui-ci. Par exemple, si un orateur fait une affirmation et que la réponse est « c’est un excellent point », l’IA soulignera l’importance de cette affirmation.


Défis liés à l’indexation de la vidéo d’entreprise


Tout comme le processus d’analyse audio et vidéo, le type de contenu vidéo influence la précision de l’IA. Les structures de réunion les plus faciles à indexer sont des séances en solo ou en panel narré, comme ce que l’on trouve lors d’une conférence virtuelle. Celles-ci ont généralement un deck établi, un rythme, ainsi qu’un récit et des questions contrôlés. Cela fournit des « indices » substantiels sur le modèle d’apprentissage automatique afin d’indexer correctement le contenu. Vous aurez les noms à l’écran, le visage de la personne, des transitions préenregistrées d’un sujet à un autre, souvent seulement quelques voix à déchiffrer, et parfois un marqueur autour de leurs noms quand ils parlent.


Inversement, un appel hebdomadaire de vente libre pourrait attirer beaucoup plus de personnes et moins d’indicateurs, ce qui entraînerait des défis d’indexation plus grands. Il peut y avoir plusieurs personnes qui parlent en même temps, moins d’aides visuelles, et pas de script ou de déroulement précis dans la conversation, etc. Pour ces réunions non structurées, l’intervention humaine par apprentissage automatique supervisé devient nécessaire pour maximiser la précision. Il peut être entraîné à détecter des manières uniques, des différences de langage culturel et corporel.


Pour les secteurs verticaux avec un jargon unique, AWS dispose déjà de piles d’IA qui comprennent les ontologies verticales, comme la médecine, qui peuvent être utilisées pour relever ce défi. Ce mécanisme de formation nécessaire au sein de chaque culture de travail unique explique pourquoi une plateforme basée sur le ML pour le contenu vidéo est indispensable, et qu’une solution plug-and-play unique ne suffira pas.


Même avant la pandémie, nous savions que la vidéo resterait un actif principal, Cisco estimant que 82% de tout le contenu créé sera de la vidéo. Avec une grande partie du monde qui dépend de la vidéo, utiliser l’IA pour la rendre plus facilement consultable et exploitable devient l’un des moyens les plus importants d’améliorer la productivité et le succès au travail.


Le concept de fatigue vidéo peut d’abord sembler être un phénomène isolé lié à la pandémie, mais ce n’est que le début d’un problème plus vaste si nous ne trouvons pas de moyens de gérer la vidéo plus efficacement à l’avenir. Atteindre cet objectif avec raffinement et automatisation complète est un marathon, pas un sprint, et doit commencer à être utilisé dans l’entreprise dès aujourd’hui.


Source : Datanami