AIで職場の動画疲労に対処する


2021年4月30日


CLIPrのCEO、ハンフリー・チェンは、当社がこの厄介な課題にどう取り組んでいるかを説明する


COVID-19パンデミックは、企業向けビデオ会議を「あれば便利なもの」から必須ツールへと移行させる加速要因となった。Zoomのブログ記事によれば、同プラットフォームの1日あたりの会議利用者数は2019年12月の1000万人から、2020年4月には3億人へと急増した。 ビデオコンテンツは、会議やチームビルディングの懇親会から、バーチャルイベント、研修セッションなど、現代の企業が取り組むあらゆる活動の中心となっている。視聴量が膨大であるため、大規模な「ビデオ疲労」も生じており、良いものにも過ぎたるは及ばざるが如しであることを改めて思い知らせている。


パンデミックが職場でのビデオ会議普及のきっかけとなったかもしれないが、ハイブリッド型ワークスタイルが定着する中、これはまだ始まりに過ぎない。Metrigyの新たな調査によると、57%以上の企業が会議室用ビデオ会議システムの導入拡大を見込んでいる。ビデオへの依存度が高まる一方で疲労も蓄積する中、コンテンツとの関わり方を飛躍的に効率化するソリューションが求められている。


さらに、企業には膨大な録画コンテンツが存在するにもかかわらず、戦略立案や提案書、ホワイトペーパー、その他の一般的な企業資料作成に活用するため、後からそれらの知見を抽出したり呼び出したりする簡便な手段がありません。幸いなことに、人工知能(AI)がこの急増する課題の解決に活用されつつあります。


動画エンゲージメントを向上させるには?


動画エンゲージメントの標準的な指標は、視聴者が動画を視聴する時間である。しかし、これはもはや成功を測る有効な方法ではない。なぜなら、この指標は「動画全体がユーザーにとって価値がある」という前提と、「日常生活において関連する動画コンテンツを全て消費する時間が無限にある」という前提に基づいているからだ。


明らかに、これは現実的な指標ではありません。企業はむしろ、従業員が動画から最も関連性の高いトピックをいかに迅速に見つけ出し、情報を抽出して業務プロセスに適用し、時間を節約し生産性を向上させるかに注力すべきです。私たちは他のほとんどのコンテンツ形式では、これを自然に実践しています。


記事、ホワイトペーパー、調査、研究レポートなどを考えてみてください。これらそれぞれについて、私たちはコンテンツの価値ある部分を素早く見つけ出し、様々な目的のために抽出する方法をすぐに学びます。しかし、長尺動画ではこの作業が指数関数的に困難になります。これは深刻な懸念事項です。Wundamailの調査によると、従業員は書面で合意した行動を実行する可能性が動画の3倍高く、ビデオ通話終了後に重要な情報を思い出せなかったためです。


AIは音声と視覚的手がかりを分析し、動画内の重要な瞬間を特定することでこの課題を克服する機会を提供しています。これにより、重要な瞬間のみを容易にインデックス化し、検索・呼び出しが可能になります。さらに、あなたにとって重要なことが私にとって重要とは限りません。視聴者ごとに重要な瞬間への評価は異なり、AIもこうしたニュアンスや差異を理解すべきです。 音声文字起こしは動画のナビゲーションに役立ちますが、文脈を欠いており、メモ取りやアクション項目のフォローアップにのみ適しています。機械に動画を理解させる訓練は極めて複雑であり、現在のAIの進歩をもってしても困難なトリガーの連携に基づいています。


重要な映像の瞬間を抽出するには、複数の分析を並行して行う必要がある。トピック、話者、話者の音量や発言時間、ボディランゲージ、アニメーション、視覚補助ツールといった視覚的・聴覚的要素は、機械学習が映像コンテンツ内の重要な瞬間を識別し始めるための主要な手法の一部に過ぎない。


現時点では、AIはキーワードやフレーズを容易に分析できるが、大量の単語を蓄積しても行動や文脈の理解には役立たない。より大きな分類枠の中には、専門用語や複数の話し手の区別(例:似たようなアクセントや異なるアクセントを持つ多数の人々が出席する会議)といった追加変数が存在する。 興味深いことに、AIが瞬間の重要性を理解するには、まずそれに対する反応や応答を分析する必要がある場合が多い。例えば、発言者が主張を行い、それに対する応答が「それは素晴らしい指摘です」という場合、AIはその発言の重要性を認識する。


エンタープライズ動画のインデックス作成における課題


音声・動画分析プロセスと同様に、動画コンテンツの種類はAIの精度に影響します。インデックス付けが最も容易な会議形式は、バーチャルカンファレンスで見られるような、ナレーション付きの単独セッションやパネルディスカッションです。これらは通常、確立された資料、流れ、管理された語り口と質問構成を備えています。これにより機械学習モデルはコンテンツを適切にインデックス化するための重要な「手がかり」を得られます。 画面には登壇者の名前が表示され、顔も映ります。トピック間の定型的な切り替えがあり、解読すべき音声は通常わずか数人分です。発言時には名前の周りにマーカーが表示される場合もあります。


逆に、自由形式の週次営業会議では、参加者が多く指標が少ないため、インデックス作成の難易度がさらに高まる可能性がある。複数の参加者が同時に発言したり、視覚資料が少なかったり、会話の流れや台本が定まっていないといった状況が生じうる。こうした非構造化会議では、精度を最大化するために教師あり機械学習による人的介入が必要となる。これにより、特有の話し方の癖や文化的言語、ボディランゲージの違いを検出できるよう訓練できる。


専門用語が存在する業界向けには、AWSは既に医療などの業界固有のオントロジーを理解するAIスタックを提供しており、この課題に対処可能です。各業界固有の業務文化内で必要となるこのトレーニング機構こそが、動画コンテンツ向けMLベースプラットフォームの必要性を示しており、単発のプラグアンドプレイ型ソリューションでは不十分である理由です。


パンデミック以前から、動画が主要な資産であり続けることは明らかでした。シスコの予測によれば、作成される全コンテンツの82%が動画になるとされています。世界中の多くが動画に依存する中、AIを活用して動画の検索性と実用性を高めることは、職場における生産性と成功を向上させる最も重要な手段の一つとなります。


ビデオ疲労という概念は、一見するとパンデミック関連の孤立した現象のように思えるかもしれない。しかし、今後ビデオをより効果的に管理する方法を見出せなければ、これはより大きな問題の始まりに過ぎない。この目標を洗練された完全自動化で達成するには、短距離走ではなく長距離走が必要であり、企業内ですぐに活用を開始すべきである。


ソース:Datanami