Las empresas están comercializando modelos de IA multimodales para analizar vídeos y mucho más.

Kyle Wiggers@Kyle_L_Wiggers

22 de marzo de 2022, 6:30 a. m.


A principios de este mes, investigadores del Allen Institute for AI, una organización sin ánimo de lucro fundada por el difunto cofundador de Microsoft Paul Allen, publicaron una demostración interactiva de un sistema que describen como parte de una «nueva generación» de aplicaciones de IA capaces de analizar, buscar y responder a preguntas sobre vídeos «a gran escala». Bajo el nombre de Merlot Reserve, los investigadores hicieron que el sistema «viera» 20 millones de vídeos de YouTube para aprender las relaciones entre imágenes, sonidos y subtítulos, lo que le permite, por ejemplo, responder a preguntas como «¿Qué comida quiere comer la persona del vídeo?» o «¿Ha nadado antes en el océano el niño de este vídeo?».

Merlot Reserve y su predecesor, Merlot, no son los primeros sistemas de IA«multimodales»de este tipo. Los sistemas que pueden procesar y relacionar información de audio, imágenes y texto existen desde hace años. Estas tecnologías siguen mejorando su capacidad para comprender el mundo de una forma más parecida a los humanos. El laboratorio de investigación DALL-E de OpenAI, con sede en San Francisco, que se lanzó en 2021, puede generar imágenes de objetos, reales o imaginarios, a partir de simples descripciones de texto como «un sillón con forma de aguacate». Un sistema más reciente de Google llamado VATT no solo puede subtitular eventos en vídeos (por ejemplo, «un hombre nadando»), sino también clasificar clips de audio y reconocer objetos en imágenes.

Sin embargo, hasta hace poco, estos sistemas de IA multimodal se limitaban estrictamente al ámbito de la investigación. Esto está cambiando: cada vez más, se están comercializando.

«Diferentes tecnologías multimodales, como el reconocimiento automático del habla, el etiquetado y reconocimiento de imágenes, las redes neuronales y los modelos tradicionales de aprendizaje automático, [pueden ayudar a] comprender el texto, la voz y las imágenes, [especialmente cuando se combinan] con el procesamiento de texto», explicó Aaron Sloman, cofundador y director técnico de CLIPr, a VentureBeat por correo electrónico. CLIPr forma parte de la incipiente cohorte de empresas que utilizan sistemas de IA multimodales para aplicaciones como el análisis de vídeo. En el grupo están representados gigantes tecnológicos como Meta (antes Facebook) y Google, así como startups como Twelve Labs, que afirma que sus sistemas pueden reconocer características en vídeos, como objetos, texto en pantalla, voz y personas.

«[Mis compañeros cofundadores y yo] buscamos una solución que nos ayudara a extraer fácilmente fragmentos importantes y relevantes de los vídeos, como alternativa a saltar a intervalos de 10-15 segundos, y cuando no pudimos encontrar una solución, decidimos crear una... Nuestra plataforma de indexación de vídeos homónima... ingesta vídeos grabados y ayuda a que se puedan buscar por transcripción, temas y subtemas», explicó Sloman. «El análisis de la prosodia también es fundamental para nosotros, es decir, el ritmo, el acento y la entonación del habla. Lo aprovechamos para el análisis de imágenes, como las diapositivas de las presentaciones de las reuniones, para ayudar a evaluar la precisión de estos cambios tonales o [buscar] gestos animados con los participantes que aparecen en el vídeo».

Sloman afirma que CLIPr tiene clientes en una «gran variedad» de sectores, principalmente en los ámbitos de la edición de medios, las empresas y los eventos. En el futuro, la startup pretende aplicar su tecnología a la retransmisión de vídeos en directo y crear bots «específicos para cada función» que, por ejemplo, puedan tomar las sesiones principales de un evento y crear automáticamente un resumen con lo más destacado.

«Creemos que el vídeo es la forma más importante y menos utilizada de comunicación moderna, y nuestro objetivo es hacer que el vídeo sea tan accesible como el contenido escrito», continuó Sloman.


Futuros multimodales

Fuera de los sistemas multimodales, la IA no experimenta el mundo de la misma manera que las personas. Por ejemplo, un sistema de reconocimiento de voz solo puede entender un tipo de datos (el habla) y no comprende el contexto de ese habla. Por el contrario, las personas usan todos sus sentidos (por ejemplo, la vista, el oído, el olfato) para procesar y situar los eventos en el tiempo. A partir de imágenes y leyendas de alguien preparando palomitas de maíz, por ejemplo, una persona puede imaginar cuáles serían los sonidos de la escena, como los granos crudos esparciéndose en una olla vacía y los «estallidos» de las palomitas al expandirse.

«Muchos de estos modelos multimodales son específicos para cada imagen y se centran en el reconocimiento visual, es decir, en describir lo que se muestra literalmente», explicó Rowan Zellers, doctorando en Informática por la Universidad de Washington e investigador principal del proyecto Merlot Reserve, a VentureBeat por correo electrónico. «Podríamos ver modelos que respondieran a preguntas sobre lo que hacen las personas (y por qué) en los vídeos, posiblemente para aplicaciones de búsqueda».

Twelve Labs, por ejemplo, afirma que su sistema permite analizar cualquier base de datos de vídeo mediante la transformación de clips en representaciones matemáticas conocidas como incrustaciones vectoriales. Según el director ejecutivo Jae Lee, los clientes lo han utilizado para crear motores de recomendación, sistemas de moderación de contenidos y paneles de análisis de medios.

«[Twelve Labs] está trabajando en la creación de [un] modelo que pueda generar potentes incrustaciones de vídeo que se puedan utilizar no solo para la búsqueda semántica, sino también para otras tareas diversas, como la generación de subtítulos, resaltados y resúmenes», explicó Lee a VentureBeat por correo electrónico. «Nuestros modelos de vídeo se entrenan bajo supervisión lingüística. Extraemos diversos módulos —multimodalidad— de información, como imágenes, audio, transcripciones, movimiento, etc., del vídeo y fusionamos esa información en una única representación vectorial. Esa representación se entrena con texto relevante —frases— que se procesa utilizando tecnología de procesamiento del lenguaje natural (NLP)».

Más allá de las startups, el año pasado Google reveló que planea utilizar un sistema de IA multimodal denominado «modelo unificado multitarea» (MUM) para mejorar la experiencia de búsqueda en Google en diferentes idiomas y dispositivos. Entre otras mejoras, en Google Search, MUM impulsará nuevas funciones que toman una consulta (por ejemplo, «pinturas acrílicas») y destacan recursos como instrucciones paso a paso y seleccionan temas en vídeos (por ejemplo, «técnicas acrílicas») basándose en el contenido de audio, texto y visual.

Meta ha declarado recientemente que también está aplicando un sistema multimodal, denominado Few-Shot Learner (FSL), para determinar si el contenido de los mensajes de Facebook e Instagram —incluidos textos, imágenes y URL— infringe sus normas comunitarias. La empresa afirma que FSL se ha desarrollado a partir de una base de datos de miles de millones de publicaciones e imágenes de Facebook en más de 100 idiomas.

Zellers cree que, en el futuro, este tipo de modelos multimodales podrían utilizarse para crear productos que no solo analicen vídeos, audios y contenidos relacionados en línea, sino que también ayuden a los usuarios con problemas de visión o audición. «Esto podría abarcar desde responder a preguntas básicas hasta la interacción contextual», añadió.


Contratiempos multimodales

Aunque la IA multimodal comercializada es más común que antes, hay que superar varios obstáculos antes de que este tipo de sistemas se implanten a gran escala. En parte, se trata de hacer que la economía funcione: aunque el funcionamiento de un sistema existente no suele ser caro, al menos en comparación con el desarrollo de uno nuevo, depende de la naturaleza de la carga de trabajo y del nivel de competencia del equipo de ciencia de datos de la empresa.

«El [desarrollo] del modelo inicial es sin duda el aspecto más costoso, ya que incluye perfeccionar la ciencia de datos en paralelo», afirmó Sloman. «Por ejemplo, el proceso de distinguir qué es o qué no es una diapositiva entre miles de reuniones verificadas de Zoom es muy costoso».

Por ejemplo, Merlot Reserve tardó aproximadamente tres semanas en desarrollarse en un clúster de 512 unidades de procesamiento tensorial (TPU) de tercera generación de Google, chips diseñados para acelerar ciertos aspectos del proceso de creación de IA. Según los precios públicos actuales, la evaluación de un grupo de treinta y dos TPU de tercera generación cuesta 32 dólares por hora, lo que eleva los costes de desarrollo de Merlot Reserve a algo más de 16 000 dólares (suponiendo que no haya descuentos por volumen, anuales o académicos).

«Actualmente utilizamos siete modelos diferentes, algunos de los cuales son repositorios de datos de código abierto a gran escala con cientos de millones de objetos, mientras que otros son propietarios», explicó Sloman. «Nuestros modelos propietarios llevan más de un año en formación y, aunque es difícil saberlo en el caso de los modelos de código abierto que utilizamos, es probable que lleven mucho más tiempo... Sospecho que el próximo cambio radical en la IA multimodal será la creación de vínculos más estandarizados entre los diferentes tipos de modelos aislados. Hemos tenido que combinar varios modelos de IA, cada uno de los cuales realiza bien un tipo de análisis. Con el tiempo, dado que muchas empresas crean productos utilizando la tecnología multimodal, veremos más ofertas de código abierto, lo que facilitará y abaratará el entrenamiento y la realización de experimentos».

Los sistemas multimodales actuales también adolecen de defectos técnicos, como la captación de sesgos en los datos (por ejemplo, vídeos de YouTube) a partir de los cuales aprenden. Por ejemplo, dado que Merlot Reserve «ve» un gran volumen de vídeos de YouTube, está sesgado por las recomendaciones de YouTube y, en términos más generales, por la presión económica que empuja a la gente a producir determinados contenidos.

«La moderación de contenidos en YouTube filtra de manera desproporcionada las voces [de las minorías]... Los roles de las personas en los vídeos de YouTube [también] tienden a estar muy marcados por el género, lo que puede sesgar la comprensión de la situación», escribieron Zellers y sus colegas en un estudio en el que describían las capacidades de Merlot Reserve. «Se sabe que los subtítulos automáticos de YouTube adolecen de sesgos de género, que nuestro modelo (al igual que los modelos neuronales en general) podría amplificar a su vez. Las transcripciones de YouTube también suelen ser deficientes a la hora de manejar marcadores de identidad importantes, como los pronombres».

Dejando a un lado los prejuicios, no hay nada que impida a los malos actores utilizar los sistemas multimodales con fines controvertidos, como identificar eventos o actividades en las imágenes de vigilancia. En un artículo publicado por el Instituto de Inteligencia Artificial Centrada en el Ser Humano de Stanford, los coautores sostienen que los avances en modelos multimodales como DALL-E darán lugar a contenidos generados por máquinas de mayor calidad que serán más fáciles de personalizar para «fines indebidos», como la publicación de artículos engañosos dirigidos a diferentes partidos políticos, nacionalidades y religiones.

Sloman afirma que CLIPr, por su parte, toma medidas para mitigar el sesgo y el uso indebido del modelo mediante un enfoque «human-in-the-loop» (con intervención humana). La empresa anima a los clientes a señalar los errores que comete el sistema CLIPr para poder corregirlos y, en el mejor de los casos, mejorar el desarrollo del modelo en el backend.

«El enfoque multimodal tiene sus ventajas, ya que, si se aplica correctamente, tiene menos probabilidades de generar sesgos en comparación con los modelos más aislados», afirmó. «El verdadero peligro radica en no reconocer la complejidad y la imperfección de la IA multimodal y utilizar puntos de datos que conducen a una trayectoria de decisión lineal concreta que limita el espectro de respuestas o coincidencias».

Lee dijo que Twelve Labs también ha implementado estrategias para mitigar los sesgos. La empresa adopta un enfoque en tres fases que incluye la recopilación de conjuntos de datos de diversas fuentes, la creación de documentación para los conjuntos de datos y la curación de la información bruta en vídeo y texto.

«Los modelos de visión artificial se utilizan para detectar y filtrar contenidos visuales que puedan contener material tóxico o sensible», explicó Lee. «A continuación, se analiza la transcripción del vídeo sin procesar utilizando palabras bloqueadas (es decir, eliminando cualquier texto que contenga palabras de una lista de palabras seleccionadas) y técnicas avanzadas de PLN para filtrar el contenido que pueda contener sesgos políticos, socioeconómicos o demográficos. Las palabras bloqueadas y las técnicas de PLN también se utilizan para filtrar etiquetas de texto que puedan contener contenido tóxico y sesgado... Comprender y mitigar los posibles sesgos al utilizar modelos multimodales es fundamental para el éxito de Twelve Labs».