인공지능으로 직장 내 영상 피로감 극복하기


2021년 4월 30일


CLIPr CEO 험프리 첸은 당사가 이 난제(難題)에 어떻게 대처하고 있는지 설명합니다.


코로나19 팬데믹은 기업용 화상회의를 '있으면 좋은 것'에서 필수 요소로 전환하는 속도를 가속화했습니다. 줌(Zoom) 블로그 게시물에 따르면, 해당 플랫폼의 일일 회의 이용자 수는 2019년 12월 1천만 명에서 2020년 4월 3억 명으로 급증했습니다. 화상 콘텐츠는 회의와 팀 빌딩을 위한 사교 모임부터 가상 이벤트, 교육 세션 등에 이르기까지 오늘날 기업이 수행하는 모든 활동의 핵심입니다. 너무 많은 영상이 소비되면서 대규모 영상 피로도 발생했으며, 이는 좋은 것도 지나치면 역효과를 낼 수 있음을 상기시켜 줍니다.


팬데믹이 업무 환경에서 화상회의를 가속화하는 계기가 되었을지라도, 하이브리드 근무 환경이 지속될 전망인 만큼 이는 시작에 불과하다. 메트리지의 신규 설문조사에 따르면 기업들의 57% 이상이 회의실 화상회의 시스템 도입을 확대할 계획이라고 답했다. 화상회의 의존도가 높아지고 피로감이 증가함에 따라, 콘텐츠를 훨씬 효율적으로 활용할 수 있는 솔루션이 절실히 요구되는 상황이다.


그 외에도 기업들은 방대한 양의 녹화 영상 콘텐츠를 보유하고 있지만, 전략 수립, 제안서, 백서 및 기타 일반적인 기업 홍보 자료에 활용하기 위해 나중에 이러한 통찰력을 쉽게 찾아내거나 회상할 수 있는 방법이 부족합니다. 다행히도 인공지능(AI)이 이 급증하는 과제를 해결하기 위해 적용되고 있습니다.


영상 참여도를 어떻게 향상시킬 수 있을까?


동영상 참여도의 표준 지표는 시청자가 동영상을 보는 데 소요하는 시간이다. 그러나 이는 더 이상 성공을 측정하는 유효한 방법이 아니다. 왜냐하면 이는 전체 동영상이 사용자에게 가치가 있다는 가정과, 일상에서 모든 관련 동영상 콘텐츠를 소비할 무제한의 시간이 존재한다는 전제에 기반하기 때문이다.


분명히 이는 현실적인 지표가 아닙니다. 기업들은 직원들이 영상에서 가장 관련성 높은 주제를 얼마나 신속하게 찾아내고, 정보를 추출하여 업무 흐름에 적용함으로써 시간을 절약하고 생산성을 높일 수 있는지에 집중해야 합니다. 우리는 대부분의 다른 콘텐츠 형태에 대해서는 자연스럽게 이렇게 하고 있습니다.


기사, 백서, 설문조사 또는 연구 보고서를 생각해 보십시오. 이러한 각각의 콘텐츠에서 우리는 가치 있는 부분을 신속하게 찾아내어 다양한 목적으로 추출하는 법을 익히게 됩니다. 그러나 장편 동영상에서는 이 작업이 기하급수적으로 어려워집니다. Wundamail의 연구에 따르면 직원들은 영상 통화 후 핵심 정보를 기억하지 못해, 영상보다 서면으로 합의된 행동을 이행할 가능성이 세 배나 높다는 사실이 밝혀졌기에 이는 실제적인 우려 사항입니다.


인공지능은 오디오와 시각적 단서를 분석해 영상 속 핵심 순간을 식별함으로써 이 문제를 극복할 기회를 제공하고 있습니다. 이를 통해 중요한 순간만을 색인화하고 검색하며 회상하는 것이 훨씬 쉬워집니다. 더욱이 당신에게 중요한 것이 나에게도 중요한 것은 아닙니다. 시청자마다 중요한 순간을 다르게 평가하며, 인공지능 역시 이러한 미묘한 차이와 구분을 이해해야 합니다. 오디오 트랜스크립션은 영상 탐색에 도움을 주지만 맥락이 결여되어 있으며, 노트 작성이나 후속 조치 항목 추적에만 적합합니다. 기계가 영상을 이해하도록 훈련시키는 것은 매우 복잡하며, 현재 AI 발전 수준에서도 어려운 다양한 트리거의 조화를 기반으로 합니다.


중요한 영상 순간을 포착하기 위해서는 여러 분석이 동시에 이루어져야 합니다. 주제, 화자, 화자의 음량 및 발언 시간, 바디랭귀지, 애니메이션, 시각 자료 등 시각적·청각적 요소는 머신러닝이 영상 콘텐츠 내 중요한 순간을 식별하기 시작할 수 있는 핵심 방법 중 일부에 불과합니다.


현재 AI는 핵심 단어와 구문을 쉽게 분석할 수 있지만, 방대한 단어 집합만으로는 행동이나 맥락을 이해하는 데 도움이 되지 않습니다. 더 큰 범주 안에는 용어와 다양한 목소리(예: 비슷한 또는 다른 억양을 사용하는 다수의 사람이 참여하는 회의) 간의 구별과 같은 추가 변수들이 존재합니다. 흥미롭게도, AI가 순간의 중요성을 이해하려면 종종 먼저 그에 대한 반응이나 반응을 분석해야 합니다. 예를 들어, 발언자가 주장을 펼쳤을 때 "훌륭한 지적입니다"라는 반응이 나온다면, AI는 그 발언의 중요성을 지정할 것입니다.


기업용 비디오 색인화의 과제


오디오 및 비디오 분석 과정과 마찬가지로, 영상 콘텐츠의 유형은 AI의 정확도에 영향을 미칩니다. 색인화하기 가장 쉬운 회의 구조는 가상 컨퍼런스에서 볼 수 있는 것과 같은 단독 발표나 패널 토론 세션입니다. 이러한 세션은 일반적으로 정해진 프레젠테이션 자료, 흐름, 통제된 내러티브와 질문을 갖추고 있습니다. 이는 콘텐츠를 적절히 색인화하기 위해 머신러닝 모델에 상당한 '단서'를 제공합니다. 화면에 표시된 이름, 연사 얼굴, 주제 간 미리 설정된 전환 효과, 종종 몇몇 목소리만 구분하면 되는 상황, 그리고 발언 시 이름 주변에 표시되는 마커 등이 활용됩니다.


반대로 자유로운 형식의 주간 영업 회의는 참여자가 훨씬 많고 지표가 적어 인덱싱 난이도가 높아질 수 있습니다. 여러 사람이 동시에 발언하고 시각 자료가 부족하며 정해진 대본이나 대화 흐름이 없는 등 비구조화된 회의에서는 정확도를 극대화하기 위해 감독형 기계 학습을 통한 인적 개입이 필수적입니다. 이를 통해 독특한 습관, 문화적 언어, 신체 언어 차이를 감지하도록 훈련시킬 수 있습니다.


특화된 용어가 존재하는 분야(예: 의학)의 경우, AWS는 이미 해당 분야의 온톨로지를 이해하는 AI 스택을 보유하고 있어 이러한 과제를 해결할 수 있습니다. 각 고유 업무 문화 내에서 필요한 이 훈련 메커니즘이 바로 ML 기반 동영상 콘텐츠 플랫폼이 필수적인 이유이며, 일회성 플러그 앤 플레이 솔루션으로는 해결되지 않습니다.


팬데믹 이전부터 우리는 비디오가 주요 자산으로 남을 것임을 알고 있었습니다. 시스코에 따르면 생성되는 콘텐츠의 82%가 비디오일 것으로 추정됩니다. 전 세계적으로 비디오에 대한 의존도가 높아짐에 따라, AI를 활용해 비디오를 더 쉽게 검색하고 활용할 수 있도록 만드는 것은 업무 생산성과 성공을 높이는 가장 중요한 방법 중 하나가 되었습니다.


영상 피로라는 개념은 처음에는 팬데믹과 관련된 고립된 현상으로 보일 수 있으나, 앞으로 영상을 보다 효과적으로 관리할 방법을 찾지 못한다면 이는 더 큰 문제의 시작에 불과하다. 정교함과 완전한 자동화를 통해 이 목표를 달성하는 것은 단거리 달리기가 아닌 마라톤과 같으며, 기업 내에서 지금 당장 활용을 시작해야 한다.


출처: Datanami