Combatir la fatiga visual en el lugar de trabajo con IA


30 de abril de 2021


El director ejecutivo de CLIPr, Humphrey Chen, describe cómo nuestra empresa está abordando este difícil reto.


La pandemia de COVID-19 ha acelerado la transición de las videoconferencias empresariales de algo «que está bien tener» a una necesidad. Según una publicación del blog de Zoom, su plataforma se disparó a 300 millones de usuarios diarios en abril de 2020, frente a los 10 millones de diciembre de 2019. El contenido de vídeo es fundamental para todo lo que hacen las empresas hoy en día, desde reuniones y actividades de team building hasta eventos virtuales, sesiones de formación y mucho más. Se ve tanto que también ha provocado una fatiga masiva por el vídeo, lo que nos recuerda a todos que lo bueno, en exceso, puede resultar perjudicial.


Aunque la pandemia puede haber sido el detonante que aceleró el uso de las videoconferencias en el lugar de trabajo, esto es solo el comienzo, ya que es probable que los entornos de trabajo híbridos hayan llegado para quedarse. Una nueva encuesta de Metrigy reveló que más del 57 % de las empresas esperan aumentar el uso de videoconferencias en salas. A medida que aumenta la dependencia del vídeo y crece el cansancio, la situación exige soluciones que permitan interactuar con el contenido de forma mucho más eficiente.


Además, las empresas disponen de una gran cantidad de contenido de vídeo grabado y no tienen una forma sencilla de recuperar o recordar esa información posteriormente para elaborar estrategias, propuestas, informes técnicos y otros tipos de material empresarial habitual. Afortunadamente, se está aplicando la inteligencia artificial (IA) para resolver este creciente desafío.


¿Cómo se puede mejorar la interacción con los vídeos?


La métrica estándar para medir el interés por un vídeo es el tiempo que alguien dedica a verlo. Sin embargo, esta ya no es una forma válida de calcular el éxito, ya que se basa en la idea de que todo el vídeo tiene valor para el usuario y de que disponemos de tiempo ilimitado en nuestra vida cotidiana para consumir todo el contenido relevante.


Es evidente que esta métrica no es realista. En su lugar, las empresas deberían centrarse en la rapidez con la que los empleados pueden localizar los temas más relevantes en los vídeos, extraer la información y aplicarla a su flujo de trabajo, ahorrando tiempo y aumentando la productividad. Esto es algo que hacemos de forma natural con la mayoría de los demás tipos de contenido.


Pensemos en artículos, informes técnicos, encuestas o informes de investigación. En cada uno de ellos, aprendemos rápidamente a encontrar las partes valiosas del contenido y a extraerlas para diversos fines. Esa tarea es exponencialmente más difícil con los vídeos de larga duración. Se trata de una preocupación real, ya que una investigación de Wundamail reveló que los empleados eran tres veces más propensos a cumplir las acciones acordadas por escrito que por vídeo, ya que no recordaban la información clave después de terminar una videollamada.


La IA ofrece la oportunidad de superar este reto mediante el análisis de señales audiovisuales para identificar momentos clave en los vídeos, lo que facilita la indexación, la búsqueda y la recuperación de solo los momentos importantes. Además, lo que es importante para usted no lo es para mí. Cada espectador evalúa los momentos importantes de forma diferente y una IA también debe comprender estos matices y distinciones. La transcripción de audio ha ayudado a navegar por los vídeos, pero carece de contexto y solo es ideal para tomar notas y hacer un seguimiento de las acciones pendientes. Entrenar a una máquina para que comprenda los vídeos es increíblemente complejo y se basa en una coordinación de desencadenantes que resulta difícil incluso con los avances actuales en IA.


Se deben realizar muchos análisis en paralelo para detectar momentos importantes en los vídeos. Los factores visuales y auditivos, como los temas, los interlocutores, el volumen y el tiempo de intervención de los interlocutores, el lenguaje corporal, las animaciones y las ayudas visuales, son solo algunas de las formas clave en que el aprendizaje automático puede comenzar a identificar momentos importantes en el contenido de los vídeos.


Por ahora, la IA puede analizar fácilmente palabras y frases clave, pero una gran cantidad de palabras no ayuda con las acciones o el contexto. Dentro de esos grupos más amplios hay variables adicionales, como la terminología y la distinción entre múltiples voces (por ejemplo, una reunión con muchas personas que utilizan acentos similares o diferentes). Curiosamente, para que la IA comprenda la importancia de un momento, a menudo debe analizar primero la respuesta o reacción al mismo. Por ejemplo, si un orador hace una afirmación y la respuesta es «ese es un punto excelente», la IA designará la importancia de esa afirmación.


Retos de la indexación de vídeos corporativos


Al igual que en el proceso de análisis de audio y vídeo, el tipo de contenido de vídeo influye en la precisión de la IA. Las estructuras de reuniones más fáciles de indexar son las sesiones narradas en solitario o en panel, como las que se encuentran en una conferencia virtual. Estas suelen tener una estructura, un flujo y una narrativa y preguntas controladas. Esto proporciona «pistas» sustanciales al modelo de aprendizaje automático para indexar correctamente el contenido. Tendrás los nombres en la pantalla, el rostro de la persona, transiciones predefinidas de un tema a otro, a menudo solo unas pocas voces que descifrar y, a veces, un marcador alrededor de sus nombres cuando hablan.


Por el contrario, una llamada comercial semanal de formato libre puede contar con muchas más personas y menos indicadores, lo que dificulta la indexación. Puede haber varias personas hablando al mismo tiempo, menos ayudas visuales y ninguna guía o guion establecido para la conversación, etc. En estas reuniones no estructuradas, la intervención humana a través del aprendizaje automático supervisado se vuelve necesaria para maximizar la precisión. Se puede entrenar para detectar gestos únicos, lenguaje cultural y diferencias en el lenguaje corporal.


Para sectores con jerga específica, AWS ya cuenta con pilas de IA que comprenden ontologías verticales, como la medicina, que pueden utilizarse para abordar este reto. Este mecanismo de formación necesario dentro de cada cultura de trabajo específica es la razón por la que se necesita una plataforma basada en el aprendizaje automático para contenidos de vídeo y por la que una solución plug-and-play única no es suficiente.


Incluso antes de la pandemia, sabíamos que el vídeo seguiría siendo un recurso fundamental, y Cisco estimaba que el 82 % de todo el contenido creado sería vídeo. Dado que gran parte del mundo depende del vídeo, aprovechar la IA para facilitar su búsqueda y uso se convierte en una de las formas más importantes de mejorar la productividad y el éxito en el lugar de trabajo.


El concepto de fatiga por vídeo puede parecer, en un primer momento, un fenómeno aislado relacionado con la pandemia, pero solo es el comienzo de un problema mayor si no encontramos formas de gestionar el vídeo de forma más eficaz en el futuro. Alcanzar este objetivo con perfeccionamiento y automatización total es una maratón, no un sprint, y es necesario empezar a utilizarlo hoy mismo dentro de la empresa.


Fuente: Datanami