ハンフリー・チェンが語る職場における動画消費の未来


2021年5月20日


人工知能と機械学習は、動画内の重要な瞬間を素早く見つけるという課題を克服する能力を私たちに与える


COVID-19は、人々の動画コンテンツとの関わり方や消費量を含む、従来の日常生活を大きく混乱させた。しかし、最近の動画消費量の急増がパンデミックのみに起因するとは言い難い。この傾向は以前から進行していたと主張することもできるだろう。


2019年にロックダウンが始まる前、人々は1日平均約84分を動画視聴に費やしており、2018年の1日平均67分から増加していた。2020年には平均が1日約100分に跳ね上がり、2021年以降も確実に増加を続ける見込みだ。 自宅に閉じこもり対面での交流ができなかったことがこの増加の一因であることは確かであり、主要ストリーミングサービス(Netflix、Hulu、Amazon Primeなど)は2020年を米国加入者数50%超の増加で終えた。しかし動画消費量の増加は、私たちの働き方の変化にも起因している。


世界的なパンデミックとそれに伴うリモートワークの普及により、企業向けビデオ会議は「あれば便利なもの」から必須ツールへと急速に転換した。Zoomのブログ記事によれば、同プラットフォームの1日あたりの会議利用者数は2019年12月の1,000万人から、2020年4月には3億人に急増した。 ビデオコンテンツは、会議やチームビルディングのための懇親会から、バーチャルイベント、トレーニングセッションなど、現代の企業が取り組むあらゆる活動の中心となっている。


動画消費の進化


こうした動画消費習慣の変化により、私たちは総じて「動画疲労」を経験しており、コンテンツ消費の嗜好、特に長編動画に対する嗜好が再び変化しつつある。 個人レベル(DIYホームインプルーブメントの「ハウツー」動画、Twitchのゲーム配信、YouTubeの開封動画、FacebookやInstagramのライブ配信など)でも、業務レベル(録画されたビデオ会議、社内研修動画、バーチャルイベントの基調講演、ウェビナーなど)でも、あまりにも多くのコンテンツが消費されるようになり、限界点に達しています。では、私たちの嗜好は今後どのように変化し続けるのでしょうか?


TikTokの人気上昇は、動画消費の未来像を示す手がかりとなる。 特に若い世代を中心に、短く手軽な動画コンテンツが成功を収めている。視聴者は情報をより速く処理できるだけでなく、提供される情報への共感が深まり、記憶に残りやすくなる。短編コンテンツはまた、スーパーのレジ待ちやガソリンスタンドでの給油中など、都合の良いタイミングで動画を視聴できる利便性も提供する。


同じ原則は職場環境にも適用できる。リモートワークは、家庭や育児の責任がライブ会議中も録画コンテンツ視聴時も集中力を容易に乱すことを示した。特に録画を頻繁に一時停止・再開すると情報保持に支障をきたす。 平日はビデオ会議が山積みで、これ以上動画を見たくないのが本音だ。実際、ビデオ会議はストレス要因となり、シティグループは「Zoomフリー金曜日」を導入し、集団的なビデオ疲労対策に乗り出している。


かつては、動画のエンゲージメントは視聴時間が長ければ十分と測定されていました。しかし、私たちの時間は貴重であり、動画を最初から最後まで視聴したからといって、必要な情報をもっと早く得たいと思っていないわけではないため、もはや理想的な指標とは言えません。代わりに焦点を当てるべきは、動画から最も関連性の高いトピックをいかに迅速に見つけ出し、情報を抽出し、タスクに応用できるかです。 つまり、視聴する時間を減らし、実践する時間を増やすべきだ。 


新技術は動画コンテンツとの関わり方に影響を与えるだろう


人工知能と機械学習は、音声と視覚の手がかりを分解することで、動画内の重要な瞬間を迅速に見つけるという課題を克服する能力を私たちに与えます。これにより、特定の瞬間をインデックス化し、検索し、呼び戻すことが容易になります。しかし、万能な解決策は存在しません。 動画における重要な瞬間を定義することは相対的なものです。人によって価値を置く瞬間は異なり、AIもこうしたニュアンスや差異を理解すべきです。機械に動画を理解させる訓練は、現在のAI技術の進歩をもってしても困難なトリガーの連携に基づく、極めて複雑なプロセスなのです。


重要な動画の瞬間を抽出するには、多くの要素が考慮されます。機械学習は、トピック、話者、イントネーションや発言時間、ボディランゲージ、アニメーション、視覚補助ツールといった動画と音声の両要素を分析し、動画コンテンツ内の重要な瞬間を特定します。現在、AIはキーワードやフレーズを容易に分析できますが、それでも範囲が広すぎて、具体的な行動や文脈を定義するには不十分です。 これらの単語やフレーズには、専門用語や複数の声の区別(例えば、様々なアクセントを持つ複数の人物が司会を務めるプレゼンテーションなど)といった追加変数が存在します。さらに一歩進めて、AIが瞬間の重要性を完全に理解するためには、それに対する反応や応答も考慮に入れる必要があります。例えば、プレゼンテーションの司会者の一人が冗談を言って聴衆の関心を引き、笑いを誘った場合、AIはその相互作用の重要性を指定します。 AIや機械学習以外にも、超高精細4K動画ストリーミング、5G無線ネットワーク、バッテリー寿命の向上も、動画との関わり方や消費方法に影響を与え続けるでしょう。


動画消費の増加は、この媒体に依存する企業、コンテンツ制作者、マーケターが効果的に活動するためには、この情報過多に対応する必要があることを示している。動画自体は依然としてコモディティ(汎用品)かもしれないが、人々が動画を見る時間はそうではない。企業は、特に長編コンテンツを消化しやすくする方法を模索せざるを得ず、そうしなければ人々の注意を争う戦いで取り残されるリスクを負うことになる。


ソース:ストリーミングメディア