험프리 첸, 직장에서의 비디오 소비의 미래에 관하여
2021년 5월 20일
인공지능과 기계학습은 영상 속 핵심 순간을 신속하게 찾아내는 과제를 극복할 수 있는 능력을 제공합니다.
코로나19는 우리가 알고 있던 일상생활을 크게 뒤흔들었으며, 여기에는 사람들이 동영상 콘텐츠를 소비하고 상호작용하는 양과 방식도 포함됩니다. 그러나 최근 동영상 소비 급증이 전적으로 팬데믹과 관련되었다고 말하기는 어렵습니다. 이미 이러한 추세로 나아가고 있었다고 주장할 수도 있습니다.
2019년 봉쇄 조치가 시작되기 전, 사람들은 하루 평균 약 84분을 동영상 시청에 할애했는데, 이는 2018년 하루 평균 67분에서 증가한 수치다. 2020년에는 하루 평균 약 100분으로 급증했으며, 2021년 이후에도 계속 증가할 전망이다. 대면 사교 활동이 불가능한 집에 갇힌 상황이 이러한 증가에 분명히 기여했으며, 주요 스트리밍 서비스(넷플릭스, 훌루, 아마존 프라임 등)는 2020년 미국 가입자 수가 50% 이상 증가한 채 마감했습니다. 그러나 동영상 소비 증가에는 우리의 업무 습관 변화도 한몫했습니다.
전 세계적 팬데믹과 이에 따른 원격 근무 확산은 기업용 화상 회의의 전환을 '있으면 좋은 것'에서 필수 요소로 급속히 가속화했습니다. 줌(Zoom) 블로그 게시물에 따르면, 해당 플랫폼의 일일 회의 이용자 수는 2019년 12월 1천만 명에서 2020년 4월 3억 명으로 급증했습니다. 화상 콘텐츠는 회의와 팀 빌딩을 위한 사교 모임부터 가상 이벤트, 교육 세션 등에 이르기까지 오늘날 기업이 수행하는 모든 활동의 핵심입니다.
영상 소비의 진화
이러한 영상 소비 습관의 변화로 인해 우리는 집단적으로 '영상 피로감'을 경험하고 있으며, 특히 장편 영상 콘텐츠를 소비하는 선호도가 다시 한번 변화하고 있습니다. 개인적으로(DIY 홈 인테리어 '방법' 동영상, 트위치 게임 스트리밍, 유튜브 언박싱, 페이스북 및 인스타그램 라이브 등)와 업무적으로(녹화된 화상 회의, 내부 교육 동영상, 가상 이벤트 기조 연설, 웨비나 등) 너무 많은 콘텐츠가 소비되면서 한계점에 도달했습니다. 그렇다면 우리의 선호도는 어떻게 계속 변화할까요?
틱톡의 인기 상승은 영상 소비의 미래가 어떤 모습일지 보여줍니다. 짧고 간결한 동영상 콘텐츠가 특히 젊은 세대 사이에서 성공을 거두고 있습니다. 시청자가 정보를 더 빠르게 처리할 수 있을 뿐만 아니라, 제공되는 정보의 공감을 이끌어내고 기억에 오래 남게 하는 효과가 있습니다. 짧은 형식의 콘텐츠는 또한 편의점에 줄 서서 기다리거나 주유소에서 기름을 넣는 등 일상 속 틈새 시간에 동영상을 소비할 수 있는 기회를 제공합니다.
동일한 원칙은 업무 환경에도 적용될 수 있습니다. 원격 근무는 가정과 육아 책임이 실시간 화상 회의 중이나 녹화 콘텐츠 시청 시에도 우리의 집중력을 쉽게 방해할 수 있음을 보여주었습니다. 특히 녹화 영상을 계속해서 일시 정지하고 다시 재생하는 것은 정보 유지에 방해가 됩니다. 평일에는 수많은 화상 회의가 겹쳐 더 이상 영상을 보고 싶지 않을 정도입니다. 실제로 화상 회의는 스트레스 요인이 되어 시티그룹은 집단적 영상 피로를 해소하기 위해 '줌 없는 금요일' 제도를 시행 중입니다.
과거에는 동영상 시청 시간이 동영상 참여도를 측정하는 충분한 지표로 여겨졌습니다. 그러나 시간이 귀중한 현대 사회에서는 더 이상 이상적인 지표가 아닙니다. 사람들이 동영상을 처음부터 끝까지 시청한다고 해서 원하는 정보를 훨씬 더 빠르게 얻을 수 있기를 바라지 않는다는 의미는 아니기 때문입니다. 대신, 동영상에서 가장 관련성 높은 주제를 얼마나 신속하게 찾아내고, 정보를 추출하여 업무에 적용할 수 있는지에 초점을 맞춰야 합니다. 다시 말해, 보는 시간보다 실천하는 시간에 더 많은 시간을 할애해야 합니다.
새로운 기술은 우리가 비디오 콘텐츠를 접하는 방식에 영향을 미칠 것입니다
인공지능과 머신러닝은 오디오와 시각적 단서를 분석함으로써 영상 속 핵심 순간을 신속하게 찾아내는 과제를 극복할 수 있게 해주어, 특정 순간을 색인화하고 검색하며 회상하는 작업을 용이하게 합니다. 그러나 모든 상황에 적용되는 만능 해결책은 아닙니다. 영상 속 중요한 순간을 정의하는 것은 상대적입니다. 각자 다른 순간을 가치 있게 여기며, 인공지능 역시 이러한 미묘한 차이와 구분을 이해해야 합니다. 기계가 영상을 이해하도록 훈련시키는 것은 현재 인공지능의 발전 수준에서도 어려운 다양한 트리거의 조화를 기반으로 하는 매우 복잡한 과정입니다.
중요한 영상 순간을 추출하기 위해 고려되는 요소는 다양합니다. 머신러닝은 주제, 화자, 억양 및 발언 시간, 바디랭귀지, 애니메이션, 시각 자료 등 영상과 음성 요소를 분석하여 콘텐츠 내 핵심 순간을 식별합니다. 현재 AI는 키워드와 구문을 쉽게 분석할 수 있지만, 이는 여전히 광범위하여 구체적인 행동이나 맥락을 정의하는 데는 도움이 되지 않습니다. 이러한 단어와 구문 내에는 용어와 다중 음성 구별(예: 다양한 억양을 가진 여러 사람이 진행하는 프레젠테이션)과 같은 추가 변수들이 존재합니다. 한 걸음 더 나아가, AI가 순간의 중요성을 완전히 이해하려면 그에 대한 반응이나 반응도 고려해야 합니다. 예를 들어, 프레젠테이션 진행자 중 한 명이 청중의 관심을 끌고 웃음을 유발하는 농담을 하면, AI는 그 상호작용의 중요성을 지정할 것입니다. AI와 머신러닝 외에도 초고화질 4K 비디오 스트리밍, 5G 무선 네트워크, 배터리 수명 증대 역시 우리가 비디오를 접하고 소비하는 방식에 지속적인 영향을 미칠 것입니다.
비디오 소비의 증가는 기업, 콘텐츠 제작자, 마케터 등 이 매체에 의존하는 주체들이 효과적으로 운영하기 위해 이러한 과부하에 대응해야 함을 시사한다. 비디오는 여전히 상품일 수 있으나, 사람들이 비디오를 시청하는 시간은 그렇지 않다. 기업들은 특히 장편 콘텐츠를 더 쉽게 소화할 수 있도록 만들지 않으면 사람들의 관심을 끌기 위한 경쟁에서 뒤처질 위험에 직면할 것이다.