TVTech: CLIPrクラウドツールが核心を突いて、膨大な時間を節約
2021年3月24日
CLIPrは動画の整理を目的としており、目的のクリップを素早く効果的に見つけることを可能にします
テレビ局や映画スタジオと、現代の一般的なビジネスメール受信箱に共通するものは何か?どちらも、限りなく続く動画コンテンツへの入り口である。
ある新会社CLIPrの関係者が、同社が動画検索を可能にする仕組みについて話し合いたいと私に接触してきた際、まさにその類似性が私の注意を引いたのだ。
要するに、CLIPrはAmazonクラウドの機械学習ツールを活用し、アップロードされた何時間もの動画を分析することで、ユーザーが求めるコンテンツを効率的に見つけ、視聴できるようにします。これにより、重要な部分を探すために何時間も待つ必要がなくなります。
CLIPrはこの課題に、大衆市場を念頭に置いて取り組んでいます。COVID-19パンデミックが宣言されてから1年、対面体験に取って代わったビデオ会議、バーチャルカンファレンス、バーチャル基調講演、バーチャル教室授業で生成される膨大な動画データ——数千万時間にも及ぶ映像の活用を目指しています。
しかし、なぜ同じ技術が、ニュース番組で使用する適切なクリップを未編集映像から検索する必要があるテレビ局の記者や映像編集者、あるいは特定のショットを探すスタジオの担当者を支援できないのだろうか?
私はその真相を探るため、CLIPrの共同創業者兼CEOであるハンフリー・チェン氏にインタビューを行った。
(編集済み文字起こし)
TVTech: CLIPrは、人々が探している動画クリップを見つけやすくします。どうやって?
ハンフリー・チェン:CLIPrの考え方は、私たちが動画分析・管理プラットフォームであるということです。
私たちが物事を考える方法は、すべての動画の瞬間が等しく作られているわけではないということです。価値の高いものもあれば、そうでないものもあります。現在の問題は、再生ボタンを押した瞬間、私たちは皆、その背後にある全てに完全に翻弄されることを強いられていることです。
つまりCLIPrが実現するのは、コンテンツを自動でインデックス化し可視化することです。これにより、視聴したいコンテンツとそうでないコンテンツを自由に選択できるようになります。
3時間の会議のうち、あなたが関心を持つのはわずか5%だけなら、私たちは95%を節約しています。必要な情報を効率的に見つけるためのツールは、現時点では存在しません。
TVT: つまり、当初はCLIPrをビジネス向けアプリケーションにターゲットにしているんですよね?
パンデミックの間、あらゆるものが動画化しました。全てがデジタル化し、共同創業者が私にこう言ってきたんです。「おい、動画のバックログを処理する手助けが必要だ」と。
それはまさに「なるほど!」という瞬間でした。毎日1500万件もの会議が行われており、その全てがリモートであることに気づき、私たちは大規模に構築できる何かが一般大衆に適用できると理解したのです。噂では30~40%が録画されていると聞きます。
CLIPrが登場する前は、情報をキャッチアップするのは容易ではありませんでした。CLIPrを使えば、クリックするだけで送信でき、当社が基本的にインデックス化し、いわゆる「エンリッチメント」処理を行います。コンテンツを説明するトピックやラベルを提供します。
TVT:この技術を用いて目的の映像を検索したいと考えるテレビ放送局や映画スタジオから、何か打診はありましたか?
面白いことに、私たちが今やっていることの根幹は、もともとハリウッドのために設計されたものだ。彼らは何千、何万時間ものコンテンツを保有しており、それを精査する専任のスタッフも抱えている。
Amazonのブログが公開された後、当社に連絡を取ってきているお客様がいます。彼らはトレーラー作成に伴うポストプロダクション作業の支援を求めており、特定の要素を探しているのです。
私たちが開発しているツールは、大衆に役立つように設計されていますが、スタジオにも役立つことができます。
すでに映画の予告編がアップロードされ、ゲーマーがTwitchに自身のゲームプレイの瞬間をアップロードしている。
TVT: クラウド上のAIと機械学習がCLIPrをどのように支えているか教えてください。
HC: 私たちは基本的に、AmazonのAIスタックをバックエンドに活用し、拡張性を念頭に置いて構築してきました。
また、本当に理解しておくべき重要な点は、機械学習が素晴らしいと感じているとはいえ、それは依然として不完全だということです。決して完璧とは言えません。
その点を踏まえ、人間の介入(ヒューマン・イン・ザ・ループ)により、実際に認識結果の注釈付けや改善を支援しています。つまり構造化されたプロセスにおいては、人間の介入者が実際に説明をより正確かつ明瞭にする手助けをしているのです。
現時点では、単に自動化に完全に依存しただけでは、10文の簡潔な要約は得られません。最先端技術でも10文を3語に凝縮することは不可能です。それはまだ存在しないのです。
それを実現する唯一の方法は、これを人々の手に渡すこと——できるだけ多く使ってもらうことです。ユーザーは利便性を得ます。彼らが(結果に)満足した時も、不満を感じた時も、私たちは学び、モデルを改善できるのです。
その機械学習スタック——Amazonが持つプラットフォーム——を基盤として構築し、さらに改善を続けていくことができます。
TVT: この文脈における構造化コンテンツと非構造化コンテンツの違いは何ですか?
HC:CLIPrの第一段階は構造化コンテンツに焦点を当てていました。これは通常、話し手のトーク内容に対応するスライド(会議や基調講演など)が存在することを意味します。非構造化コンテンツとは、何が起きているかを示す視覚的な手がかりが存在しない状態を指します。
会議で話が脱線しすぎる経験、誰にでもあるでしょう?人間でも整理するのは難しいのに、機械に整理させるなんて不可能ですよ。
したがって、私たちの構造化されていない体験は、ワードクラウドやトピッククラウドに近いものになるでしょう。その時点でCLIPrが事前に作成するのは、実質的に宝の地図、つまりサンプラページです。なぜなら、議論された主要な内容をすべて表面化させ、それらにマウスオーバーするだけで、動画内の該当箇所へ移動できるからです。
TVT:あなたにとって、このすべてはどのように始まったのですか?
HC: 私の経歴はAmazonのコンピュータービジョンチームでの経験です。基本的には開発者が大規模に「見る」と「聞く」ことを可能にする取り組みでした。それは楽しく刺激的でしたが、同時にフラストレーションも溜まりました。開発者にツールを提供しても、実際にソリューションを構築するのは彼ら自身だったからです。今や私たちがソリューションを開発しています。
Source:tvtechnology.com