TVTech: CLIPr 클라우드 도구, 핵심만 짚어 수많은 시간을 절약하다


2021년 3월 24일


CLIPr는 원하는 클립을 빠르고 효과적으로 찾을 수 있도록 동영상을 체계화하는 것을 목표로 합니다.


요즘 텔레비전 방송국이나 영화 스튜디오와 일반적인 업무용 이메일 수신함의 공통점은 무엇일까? 둘 다 끝없이 이어지는 영상 콘텐츠로의 관문 역할을 한다는 점이다.


새로운 회사인 CLIPr의 누군가가 회사에서 동영상을 검색 가능하게 만드는 방법에 대해 논의하자고 제게 접근했을 때, 바로 그 유사성이 제 관심을 끌었습니다.


간단히 말해, CLIPr은 아마존 클라우드의 머신러닝 도구를 활용하여 업로드된 수시간 분량의 영상을 분석함으로써, 사용자가 원하는 장면을 찾아 시청할 수 있도록 합니다. 이는 좋은 장면을 기다리며 무수한 시간을 허비하는 대신 필요한 내용을 즉시 찾아볼 수 있게 해줍니다.


CLIPr는 대중 시장을 염두에 두고 이 문제를 해결합니다. 코로나19 팬데믹이 선언된 지 1년 만에 대면 경험을 대체한 화상 회의, 가상 컨퍼런스 세션, 가상 기조 연설, 가상 교실 수업에서 생성된 수백만 시간에 달하는 영상 자료가 바로 그 대상입니다.


그런데 왜 같은 기술이 뉴스 보도에 사용할 적절한 클립을 찾기 위해 원본 영상을 검색해야 하는 방송국의 기자와 영상 편집자, 또는 특정 장면을 찾는 스튜디오의 담당자들에게는 도움이 되지 못했을까?


CLIPr의 공동 창립자이자 CEO인 험프리 첸을 인터뷰하여 알아보았다.


(편집된 대본.)


TVTech: CLIPr는 사람들이 찾고 있는 동영상 클립을 더 쉽게 찾을 수 있게 해줍니다. 어떻게요?


험프리 천: CLIPr을 이해하는 방법은 우리가 영상 분석 및 관리 플랫폼이라는 점입니다. 


우리가 생각하는 방식은 모든 영상 순간이 동등하게 만들어지는 것은 아니라는 점입니다. 어떤 순간은 더 가치 있고, 어떤 순간은 덜 가치 있습니다. 현재 문제는 재생 버튼을 누르는 순간 우리 모두가 그 뒤에 숨겨진 모든 것에 완전히 휘둘리게 된다는 것입니다. 


CLIPr가 하는 일은 콘텐츠를 자동으로 색인화하여 표면에 드러내는 것입니다. 이를 통해 시청하고 싶은 콘텐츠와 그렇지 않은 콘텐츠를 선택할 수 있게 해줍니다.


3시간 회의 중 5%만 중요하게 생각한다면, 우리는 95%를 절약해 드립니다. 현재로서는 필요한 내용을 매우 효율적으로 찾아낼 수 있는 도구가 존재하지 않습니다.


TVT: 그러니까 초기에는 CLIPr을 비즈니스 유형의 애플리케이션에 맞춰 개발 중이신 거죠?


HC: 팬데믹 기간 동안 모든 것이 영상으로 바뀌었습니다. 모든 것이 디지털화되었고, 공동 창업자가 저에게 와서 말했죠. "야, 영상 작업이 밀려서 처리할 방법이 필요해."


그것은 깨달음의 순간이었습니다. 우리는 매일 1,500만 건의 회의가 열리고, 그것들이 모두 원격으로 진행된다는 점에서 대중에게 적용될 수 있는 대규모 솔루션을 구축할 수 있다는 사실을 깨달았습니다. 비공식적으로 들은 바로는 그중 30~40%가 녹화되고 있다고 합니다.


CLIPr 이전에는 내용을 따라잡기 쉽지 않았습니다. CLIPr을 사용하면 클릭 한 번으로 전송하면, 저희가 기본적으로 색인을 생성하고 '강화' 작업을 수행합니다. 콘텐츠를 설명하는 주제와 라벨을 제공해 드립니다.


TVT: 원하는 영상을 검색하기 위해 이 기술을 활용하려는 텔레비전 방송사나 영화 제작사로부터 접근을 받은 적이 있습니까?


HC: 재미있는 점은 우리가 하는 모든 일의 근원이 원래 할리우드를 위해 설계되었다는 겁니다. 그들은 수천 시간의 콘텐츠를 보유하고 있으며, 그 콘텐츠를 검토하는 것만을 전담하는 전임 직원들도 있습니다.


아마존 블로그 게시물 이후 저희에게 연락하는 고객들이 있습니다. 그들은 트레일러 제작과 관련된 후처리 작업을 도와달라고 요청하는데, 이는 그들이 특정 요소들을 찾고 있기 때문입니다.


대중을 위해 설계된 우리가 만드는 도구들은 스튜디오에도 도움이 될 수 있습니다. 


이미 영화 예고편이 업로드되고 있으며, 게이머들은 자신의 비디오 게임 플레이 장면을 트위치에 업로드하고 있습니다.


TVT: 클라우드 기반 인공지능과 머신러닝이 CLIPr을 어떻게 구동하는지 설명해 주세요.


HC: 우리는 기본적으로 확장성을 염두에 두고 구축해 왔으며, 백엔드에는 아마존 AI 스택을 활용하고 있습니다.


또한 반드시 깨달아야 할 중요한 점은, 우리가 머신러닝이 대단하다고 느끼지만 여전히 불완전하다는 사실입니다. 결코 완벽하지 않다는 점을 명심해야 합니다.


이를 염두에 두고, 실제 관찰 내용을 주석 처리하고 개선하는 데 도움을 주는 인간이 개입됩니다. 따라서 구조화된 경험에서는 인간이 개입하여 설명을 더욱 정확하고 선명하게 만드는 데 기여하고 있습니다.


지금 당장 자동화에만 전적으로 의존한다면, 10개의 문장으로 구성된 간결한 요약문을 얻을 수 없을 것입니다. 최신 기술로는 10개의 문장을 세 단어로 압축하는 것이 불가능합니다. 그런 기술은 아직 존재하지 않습니다. 


이를 실현하는 유일한 방법은 사람들에게 이 도구를 직접 사용하게 하는 것입니다. 최대한 많이 활용하도록 유도해야 합니다. 사용자들은 실질적인 혜택을 얻게 됩니다. 그들이 [결과에] 만족하거나 불만족할 때, 우리는 그로부터 배우고 모델을 개선할 수 있습니다.


우리는 아마존이 보유한 머신러닝 스택이라는 플랫폼을 기반으로 구축하여 지속적으로 개선해 나갈 수 있습니다.


TVT: 이 맥락에서 구조화된 콘텐츠와 비구조화된 콘텐츠의 차이점은 무엇인가요?


HC: CLIPr의 첫 단계는 구조화된 콘텐츠에 집중했습니다. 이는 일반적으로 발표 내용에 대응하는 슬라이드(회의나 기조 연설 등에서 사용되는)가 존재함을 의미합니다. 비구조화된 콘텐츠란 무슨 일이 일어나고 있는지 알려주는 시각적 단서가 전혀 없다는 뜻입니다.


우리 모두 회의 중에 이야기가 온갖 방향으로 흩어지는 경험을 해봤을 거예요, 그렇죠? 사람이 그런 걸 정리하는 것도 사실 어렵지만, 기계가 정리하는 건 불가능합니다. 


따라서 우리의 비구조화된 경험은 단어 구름이나 주제 구름에 더 가깝게 구현될 것입니다. 이때 CLIPr이 미리 생성하는 것은 사실상 보물 지도나 시작 페이지와 같습니다. 이제 논의된 주요 내용들을 표면에 드러내어 사용자가 해당 항목 위로 마우스를 올리면, 영상 내 해당 부분으로 바로 이동할 수 있게 하기 위함입니다.


TVT: 어떻게 시작하게 되셨나요?


HC: 저는 아마존 컴퓨터 비전 팀에서 근무했습니다. 개발자들이 대규모로 시각과 청각 기능을 구현할 수 있도록 지원하는 일이었죠. 정말 재미있고 흥미로운 일이었습니다. 하지만 동시에 답답하기도 했어요. 개발자들에게 도구를 제공하면 그들이 직접 솔루션을 구축해야 했기 때문입니다. 지금은 우리가 직접 솔루션을 개발하고 있습니다.


Source: tvtechnology.com