企業は動画などを分析するマルチモーダルAIモデルの商用化を進めている
2022年3月22日 午前6時30分

今月初め、故マイクロソフト共同創業者ポール・アレンが設立した非営利団体アレン人工知能研究所の研究者らは、動画の分析・横断検索・質問応答を「大規模に」実行できる「次世代」AIアプリケーションの一部と位置付けるシステムのインタラクティブデモを公開した。 「メルロー・リザーブ」と名付けられたこのシステムは、2000万本のYouTube動画を「視聴」させ、映像・音声・字幕の関係性を学習させた。これにより「動画内の人物が食べたいと思っている食事は何か?」「この動画の少年は以前海で泳いだことがあるか?」といった質問に回答できるようになった。
メルロー・リザーブとその前身であるメルローは、この種の「マルチモーダル」AIシステムとしては初めてではない。音声、視覚、テキストからの情報を処理し関連付けるシステムは、何年も前から存在している。こうした技術は、人間のように世界を理解する能力を向上させ続けている。サンフランシスコの研究機関OpenAIが2021年に発表したDALL-Eは、「アボカドの形をしたアームチェア」といった単純なテキスト記述から、実在する物体や想像上の物体の画像を生成できる。Googleが開発したより新しいシステムVATTは、動画内の出来事(「泳ぐ男性」など)にキャプションを付けるだけでなく、音声クリップの分類や画像内の物体認識も可能だ。
しかし、つい最近まで、こうしたマルチモーダルAIシステムは研究分野に限定されていた。それが変わりつつある——次第に商業化が進んでいるのだ。
「自動音声認識、画像ラベリング・認識、ニューラルネットワーク、従来の機械学習モデルなど、様々なマルチモーダル技術は、テキスト処理と組み合わせることで、テキスト・音声・画像の理解に役立つ」と、CLIPrの共同創業者兼CTOであるアーロン・スローマンはVentureBeatへのメールで述べた。CLIPrは、動画分析などの用途にマルチモーダルAIシステムを活用する新興企業群の一角である。 Meta(旧Facebook)やGoogleといったテック大手もこのグループに名を連ねており、Twelve Labsのようなスタートアップも同様だ。同社は自社のシステムが動画内の物体、画面上のテキスト、音声、人物といった特徴を認識できると主張している。
「[共同創業者たちと私は]、10~15秒間隔でスキップを繰り返す代わりに、動画から重要かつ関連性の高いクリップを簡単に抽出する解決策を探しました。しかし解決策が見つからなかったため、自ら構築することを決断したのです…当社の名前の由来となった動画インデックスプラットフォームは…録画された動画を取り込み、文字起こしやトピック、サブトピックによる検索を可能にします」とスローマンは述べた。 「プロソディ(話し方のリズム・強弱・抑揚)の分析も我々にとって極めて重要です。会議のプレゼンテーションスライドなどの画像分析と組み合わせて活用し、こうした声調変化の正確性を評価したり、映像に映る参加者の身振り手振りを検出したりするのに役立てています」
スローマンは、CLIPrが「様々な」業界に顧客を抱えていると主張している。主な分野はメディア出版、企業向けサービス、イベントである。将来的には、同スタートアップは自社の技術をライブストリーミング動画に応用し、例えばイベントの基調講演を自動的にハイライト映像に編集できる「役割特化型」ボットの開発を目指す。
「動画は現代のコミュニケーションにおいて最も重要でありながら十分に活用されていない形態であると私たちは確信しており、その目標は動画コンテンツを文章コンテンツと同様に誰もが利用しやすいものにすることです」とスローマンは続けた。
マルチモーダルな未来
マルチモーダルシステム以外では、AIは人間と同じ方法で世界を体験しません。例えば音声認識システムは、音声という単一のデータタイプしか理解できず、その音声の文脈を把握できません。対照的に、人間は五感(視覚、聴覚、嗅覚など)を駆使して事象を処理し、時間軸に定着させます。 例えば、ポップコーンを作る人の画像と説明文から、人はその場面の音声を想像できる。空の鍋に生の穀粒が跳ね散る音や、膨張するポップコーンの「ポンポン」という音などだ。
「こうしたマルチモーダルモデルの多くは画像特化型で、視覚認識——文字通り映っているものを描写することに焦点を当てています」と、ワシントン大学のコンピュータサイエンス博士課程学生であり、Merlot Reserveプロジェクトの主任研究員であるローワン・ゼラーズ氏はVentureBeatへのメールで述べた。「動画内で人々が何をしているのか(そしてなぜそうしているのか)についての質問にモデルが回答する可能性が見えてきており、検索アプリケーションへの応用が考えられます」
例えばTwelve Labsは、自社のシステムがクリップをベクトル埋め込みと呼ばれる数学的表現に変換することで、あらゆる動画データベースを分析可能にすると主張している。CEOのJae Leeによれば、顧客はこれを活用してレコメンデーションエンジン、コンテンツモデレーションシステム、メディア分析ダッシュボードを構築しているという。
「[Twelve Labsは]強力な動画埋め込みを生成できるモデルの構築に取り組んでいます。この埋め込みは意味検索だけでなく、キャプション生成、ハイライト抽出、要約生成など多様なタスクに活用可能です」とリー氏はVentureBeatへのメールで述べた。 「当社の動画モデルは言語監督下で訓練されます。動画から画像、音声、文字起こし、動きなど多様なモジュール(マルチモーダリティ)の情報を抽出し、それらを単一のベクトル表現に融合します。この表現は、自然言語処理(NLP)技術を用いて処理された関連テキスト(文章)のもとで訓練されます」
スタートアップ企業以外にも、昨年Googleはマルチタスク統一モデル(MUM)と呼ばれるマルチモーダルAIシステムを活用し、異なる言語やデバイスにおけるGoogle検索体験を向上させる計画を明らかにした。 Google検索における主な改善点として、MUMは「アクリル絵画」といった検索クエリを受け取り、音声・テキスト・映像コンテンツに基づき、手順解説などのリソースを強調表示したり、「アクリル技法」といった動画内の主題を抽出する新機能を実現する。
Metaは最近、FacebookとInstagramのメッセージ(テキスト、画像、URLを含む)の内容がコミュニティガイドラインに違反しているかどうかを判断するため、Few-Shot Learner(FSL)と呼ばれるマルチモーダルシステムも適用していると発表した。同社によれば、FSLは100以上の言語で書かれた数十億件のFacebook投稿と画像からなるデータベースを用いて開発されたという。
ゼラーズは、将来的にこうしたマルチモーダルモデルを活用することで、オンライン動画や音声、関連コンテンツを分析するだけでなく、視覚や聴覚に障害のあるユーザーを支援する製品の開発が可能になると考えている。「基本的な質問への回答から文脈に応じた対話まで、あらゆる可能性が考えられる」と彼は付け加えた。
多面的な挫折
商用化されたマルチモーダルAIは以前より一般的になったものの、こうしたシステムが広く導入されるにはいくつかの障壁を乗り越える必要がある。経済性の問題も一因だ。既存システムを運用するコストは、新規開発と比べれば通常は高くないが、ワークロードの性質や企業のデータサイエンスチームのスキルレベルに依存する。
「初期モデルの開発は、データサイエンスの並行的な完成を含むため、間違いなく最もコストがかかる側面だ」とスローマンは述べた。「例えば、何千もの検証済みZoom会議の中からスライドかどうかを判別するプロセスは非常に高価だ」
例えば、Merlot Reserveの開発には、Googleの第3世代テンソル処理ユニット(TPU)512個で構成されるクラスター上で約3週間を要した。TPUはAI生成プロセスの特定領域を高速化するために設計されたチップである。 現行の公開価格によれば、32個の第三世代TPUで構成されるポッドの評価には1時間あたり32ドルの費用がかかり、メルロー・リザーブの開発コストは(数量割引・年間割引・学術割引を適用しない場合)16,000ドル強となる。
「現在7種類のモデルを運用しており、その中には数億ものオブジェクトを扱う大規模なオープンソースデータリポジトリもあれば、独自開発のものもあります」とスローマンは説明した。「当社独自のモデルは1年以上トレーニングを続けていますが、使用しているオープンソースモデルについては断言できませんが、おそらくそれよりもはるかに長い期間トレーニングされているでしょう… マルチモーダルAIにおける次なる大きな変化は、異なる種類のサイロ化されたモデル間の標準化された連携構築になるだろう。我々はこれまで、それぞれが特定の分析を得意とする複数のAIモデルを継ぎ接ぎで組み合わせてきた。やがて多くの企業がマルチモーダル技術を用いた製品開発を進めるにつれ、オープンソースの選択肢が増え、モデルの訓練や実験の実行がより容易かつ低コストになるだろう」
今日のマルチモーダルシステムは技術的な欠陥にも悩まされている。例えば学習元となるデータ(YouTube動画など)に含まれるバイアスを拾ってしまう問題だ。例えばMerlot Reserveが大量のYouTube動画を「視聴」するため、YouTubeのレコメンデーションに偏りが生じ、さらに広くは人々が制作を促されるコンテンツの経済的圧力の影響を受ける。
「YouTubeのコンテンツモデレーションは[マイノリティ]の声を不均衡に排除している…YouTube動画における人々の役割も[同様に]性別による偏りが強く、状況理解にバイアスを生じさせる可能性がある」と、ゼラーズらはMerlot Reserveの機能に関する研究論文で記している。 「YouTubeの自動字幕は性別バイアスが問題視されており、我々のモデル(一般的なニューラルモデル同様)がこれを増幅する可能性がある。YouTubeの文字起こしは代名詞などの重要なアイデンティティマーカーの処理も不十分だ」
偏見はさておき、悪意ある者がマルチモーダルシステムを監視映像内の出来事や活動の特定といった問題のある目的に利用することを妨げるものは何もない。 スタンフォード大学人間中心人工知能研究所が発表した論文で、共著者はDALL-Eのようなマルチモーダルモデルの進歩が、より高品質な機械生成コンテンツを生み出し、それが「悪用目的」——例えば異なる政党、国籍、宗教を標的とした誤解を招く記事の公開——に向けて容易にパーソナライズされるようになるだろうと主張している。
スローマン氏によれば、CLIPrは「ヒューマン・イン・ザ・ループ」アプローチを通じて、モデルのバイアスや誤用を軽減する措置を講じている。同社は顧客に対し、CLIPrシステムが犯した誤りを指摘するよう促しており、それにより修正が可能となる——理想的にはバックエンドでのモデル開発の改善につながる。
「マルチモーダルには利点がある。適切に実装されれば、よりサイロ化されたモデルに比べてバイアスが生じる可能性が低くなるからだ」と彼は述べた。「真の危険は、マルチモーダルAIの複雑さと不完全性を認識せず、特定の線形的な意思決定経路へと導くデータポイントを使用することで生じる。それは回答や一致のスペクトルを制限してしまう」
リー氏は、Twelve Labsもバイアス軽減戦略を実施していると述べた。同社は三段階のアプローチを採用しており、多様なソースからのデータセット収集、データセットの文書化、そして生の動画・テキスト情報のキュレーションが含まれる。
「コンピュータビジョンモデルは、有害性やセンシティブな内容を含む可能性のある視覚コンテンツを検出・フィルタリングするために使用されます」とリーは説明した。 「次に、ブロックワード(特定単語リストに含まれる語句を削除する手法)と高度な自然言語処理技術を活用し、生動画の文字起こし内容を分析することで、政治的・社会経済的・人口統計的バイアスを含む可能性のあるコンテンツをフィルタリングします。ブロックワードとNLP技術は、有害性やバイアスを含む可能性のあるテキストラベルのフィルタリングにも使用されます…マルチモーダルモデルを活用する際の潜在的なバイアスの理解と軽減は、Twelve Labsの成功に不可欠です」