기업들은 동영상 등을 분석하기 위해 다중 모달 AI 모델을 상용화하고 있다

카일 위거스@Kyle_L_Wiggers

2022년 3월 22일 오전 6시 30분


지난달 초, 마이크로소프트 공동 창립자 고(故) 폴 앨런이 설립한 비영리 기관 앨런 인공지능 연구소(Allen Institute for AI) 연구진이 '신세대' 인공지능 애플리케이션의 일환으로 소개한 시스템의 인터랙티브 데모를 공개했다. 이 시스템은 대규모로 동영상을 분석하고 검색하며 관련 질문에 답변할 수 있다. '메를로 리저브( Merlot Reserve)'라 명명된 이 시스템은 연구진이 2천만 개의 유튜브 영상을 '시청'하게 하여 영상 속 이미지, 소리, 자막 간의 관계를 학습시켰다. 이를 통해 "영상 속 인물이 먹고 싶어 하는 음식은 무엇인가?", "이 영상의 소년이 이전에 바다에서 수영한 적이 있는가?"와 같은 질문에 답할 수 있게 되었다.

메를로 리저브와 그 전신인 메를로는 이 분야의 최초의'다중 모드'AI 시스템이 아니다. 오디오, 시각 자료, 텍스트에서 정보를 처리하고 연관 지을 수 있는 시스템은 수년 전부터 존재해왔다. 이러한 기술들은 인간처럼 세상을 이해하는 능력을 지속적으로 향상시키고 있다. 샌프란시스코 연구소 오픈AI의 DALL-E는 2021년 출시된 이후 "아보카도 모양의 안락의자" 같은 간단한 텍스트 설명만으로 실제 또는 상상의 사물 이미지를 생성할 수 있다. 구글의 최신 시스템 VATT는 동영상 속 사건에 캡션을 달 수 있을 뿐만 아니라(예: "수영하는 남자"), 오디오 클립을 분류하고 이미지 속 사물을 인식할 수 있다.

그러나 최근까지 이러한 다중 모달 AI 시스템은 연구 분야에만 국한되어 있었다. 그 상황이 변하고 있다 — 점차 상용화되고 있다.

CLIPr의 공동 창립자이자 최고기술책임자(CTO)인 에런 슬로먼은 벤처비트와의 이메일 인터뷰에서 "자동 음성 인식, 이미지 라벨링 및 인식, 신경망, 전통적인 머신러닝 모델 등 다양한 다중 모달 기술은 특히 텍스트 처리와 결합될 때 텍스트, 음성, 이미지를 이해하는 데 도움이 될 수 있다"고 말했다. CLIPr은 영상 분석 같은 애플리케이션에 다중 모달 AI 시스템을 활용하는 초기 단계 기업들 중 하나다. 메타(구 페이스북)와 구글 같은 기술 대기업들도 이 그룹에 속해 있으며, Twelve Labs 같은 스타트업도 포함된다. Twelve Labs는 자사 시스템이 영상 속 사물, 화면 텍스트, 음성, 인물 등 다양한 특징을 인식할 수 있다고 주장한다.

"[저와 공동 창업자들은] 10~15초 간격으로 건너뛰는 대신 영상에서 중요하고 관련성 높은 클립을 쉽게 추출할 수 있는 해결책을 모색했습니다. 적합한 솔루션을 찾지 못하자 직접 개발하기로 결심했죠… 저희 이름과 같은 영상 인덱싱 플랫폼은… 녹화된 영상을 입력받아 텍스트 변환, 주제 및 하위 주제별로 검색 가능하게 합니다,"라고 슬로먼은 말했다. “우리에게 음운 분석 역시 매우 중요합니다. 음운이란 말의 리듬, 강세, 억양을 의미하죠. 이를 회의 발표 슬라이드 같은 이미지 분석과 연계해 음조 변화의 정확성을 평가하거나 영상에 등장하는 참가자들의 생동감 있는 제스처를 찾아내는 데 활용합니다.”

슬로먼은 CLIPr가 주로 미디어 출판, 기업, 이벤트 등 "다양한" 산업 분야의 고객사를 보유하고 있다고 주장한다. 향후 이 스타트업은 자사 기술을 라이브 스트리밍 영상에 적용하고, 예를 들어 이벤트의 기조 연설 세션을 자동으로 하이라이트 영상으로 생성하는 등 "역할별" 봇을 개발할 계획이다.

"우리는 영상이 현대 커뮤니케이션에서 가장 중요하면서도 제대로 활용되지 못하는 형태라고 믿으며, 우리의 목표는 영상을 글로 된 콘텐츠만큼이나 쉽게 접근할 수 있게 만드는 것입니다."라고 슬로먼은 이어 말했다.


다중 모드 미래

다중 모달 시스템 외에는 인공지능이 인간과 동일한 방식으로 세상을 경험하지 못합니다. 예를 들어 음성 인식 시스템은 단 하나의 데이터 유형인 '음성'만을 이해할 수 있으며, 그 음성의 맥락을 파악하지 못합니다. 반면 인간은 시각, 청각, 후각 등 모든 감각을 동원해 사건을 처리하고 시간적 맥락에 기반을 둡니다. 예를 들어, 팝콘을 만드는 사람의 사진과 설명을 통해 사람은 그 장면의 소리가 어떨지 상상할 수 있습니다. 빈 냄비에 흩어지는 생옥수수 알갱이 소리나 팝콘이 부풀어 오르며 터지는 '팝' 소리가 그것입니다.

워싱턴 대학 컴퓨터과학 박사 과정생이자 메를로 리저브 프로젝트의 수석 연구원인 로완 젤러스는 벤처비트와의 이메일 인터뷰에서 "이러한 다중 모달 모델의 상당수는 특정 이미지에 한정되어 시각적 인식, 즉 문자 그대로 보여지는 것을 묘사하는 데 집중한다"고 말했다. 그는 "모델이 동영상 속 인물의 행동(및 그 이유)에 관한 질문에 답하는 모습을 볼 수 있을 것이며, 이는 검색 애플리케이션에 활용될 가능성이 있다"고 덧붙였다.

예를 들어 Twelve Labs는 자사 시스템이 클립을 벡터 임베딩으로 알려진 수학적 표현으로 변환함으로써 모든 동영상 데이터베이스를 분석 가능하게 한다고 주장한다. CEO 재 이(Jae Lee)에 따르면 고객사들은 이를 활용해 추천 엔진, 콘텐츠 관리 시스템, 미디어 분석 대시보드를 구축해 왔다.

[트웰브 랩스는] 의미적 검색뿐만 아니라 캡션, 하이라이트, 요약 생성 등 다양한 작업에 활용 가능한 강력한 영상 임베딩을 생성할 수 있는 모델 구축을 진행 중이라고 리는 벤처비트에 이메일로 전했다. "저희 영상 모델은 언어 기반 지도 학습으로 훈련됩니다. 영상에서 이미지, 오디오, 트랜스크립션, 모션 등 다양한 정보 모듈(다중 모달리티)을 추출하여 단일 벡터 표현으로 융합합니다. 이 표현은 자연어 처리(NLP) 기술로 처리된 관련 텍스트(문장)를 기반으로 훈련됩니다."

스타트업 외에도, 지난해 구글은 다중 모드 AI 시스템인 멀티태스크 통합 모델(MUM)을 활용해 다양한 언어와 기기에서 구글 검색 경험을 향상시킬 계획이라고 밝혔습니다. 구글 검색에서 MUM은 여러 개선 사항 중 하나로, 사용자의 질의(예: "아크릴 그림")를 받아 단계별 설명과 같은 자료를 강조하고, 오디오·텍스트·영상 콘텐츠를 기반으로 동영상 주제(예: "아크릴 기법")를 선별하는 새로운 기능을 지원할 예정이다.

메타는 최근 페이스북과 인스타그램 메시지의 텍스트, 이미지, URL 등 콘텐츠가 커뮤니티 가이드라인을 위반하는지 판단하기 위해 'Few-Shot Learner(FSL)'라는 다중 모달 시스템을 적용하고 있다고 밝혔다. 해당 기업은 FSL이 100개 이상의 언어로 된 수십억 건의 페이스북 게시물과 이미지 데이터베이스를 기반으로 개발되었다고 주장한다.

젤러스는 미래에 이러한 다중 모드 모델들이 온라인 동영상, 오디오 및 관련 콘텐츠 형태를 분석할 뿐만 아니라 시각 또는 청각 장애가 있는 사용자를 지원하는 제품 개발에 활용될 수 있다고 믿는다. 그는 "이는 기본적인 질문에 답하는 것부터 맥락적 상호작용에 이르기까지 모든 것을 포함할 수 있다"고 덧붙였다.


다중 모드 장애

상용화된 다중 모드 AI가 과거보다 보편화되었지만, 이러한 시스템이 대규모로 배포되기 전에는 몇 가지 장애물을 극복해야 합니다. 이는 부분적으로 경제성을 확보하는 문제입니다: 기존 시스템을 운영하는 데는 일반적으로 비용이 많이 들지 않지만(적어도 새로운 시스템을 개발하는 데 비하면), 이는 작업 부하의 성격과 기업의 데이터 과학 팀의 기술 수준에 따라 달라집니다.

"초기 모델 개발은 데이터 과학을 병행하여 완성하는 과정이 포함되기 때문에 가장 비용이 많이 드는 부분입니다."라고 슬로먼은 말했다. "예를 들어, 수천 건의 검증된 줌 회의에서 슬라이드인지 아닌지를 구분하는 과정은 매우 비쌉니다."

예를 들어, 메를로 리저브는 구글의 3세대 텐서 처리 장치(TPU) 512개 클러스터에서 개발하는 데 약 3주가 소요되었습니다. TPU는 AI 생성 과정의 특정 측면을 가속화하도록 설계된 칩입니다. 현재 공개된 가격에 따르면, 32개의 3세대 TPU로 구성된 포드의 평가 비용은 시간당 32달러로, 메를로 리저브의 개발 비용은 약 16,000달러가 조금 넘습니다(대량 구매, 연간 또는 학술 할인 적용 제외).

"현재 우리는 일곱 가지 서로 다른 모델을 운영 중입니다. 그중 일부는 수억 개의 객체를 보유한 대규모 오픈소스 데이터 저장소인 반면, 다른 일부는 독점 모델입니다."라고 슬로먼은 설명했습니다. "우리의 독점 모델들은 1년 넘게 훈련 중이며, 우리가 사용하는 오픈소스 모델들의 경우 정확히 말하기 어렵지만 그보다 훨씬 더 오랜 기간 훈련되어 왔을 것입니다… 다중 모달 AI의 다음 획기적 변화는 서로 다른 유형의 고립된 모델들 사이에 보다 표준화된 연결 고리를 구축하는 것이 될 것이라 생각합니다. 우리는 각각 한 가지 유형의 분석을 잘 수행하는 여러 AI 모델들을 조각조각 이어붙여야 했습니다. 결국 다중 모달 기술을 활용한 제품을 개발하는 기업들이 늘어나면서, 더 많은 오픈소스 솔루션이 등장해 모델 훈련과 실험 실행이 더 쉽고 저렴해질 것입니다."

오늘날의 다중 모달 시스템은 학습 대상 데이터(예: 유튜브 동영상)의 편향을 흡수하는 것과 같은 기술적 결함도 안고 있다. 예를 들어, 메를로 리저브가 방대한 양의 유튜브 동영상을 '시청'하기 때문에 유튜브의 추천 알고리즘에 편향될 뿐만 아니라, 더 넓게는 사람들이 제작하도록 장려받는 콘텐츠의 경제적 압력에 의해 영향을 받는다.

“유튜브의 콘텐츠 검토 시스템은 [소수자] 목소리를 불균형적으로 걸러냅니다… 유튜브 영상 속 인물들의 역할 역시 성별에 따라 극단적으로 구분되는 경향이 있어 상황 이해에 편향을 초래할 수 있습니다.” 젤러스와 동료들은 메를로 리저브의 기능을 설명하는 연구에서 이같이 기술했습니다. "유튜브 자동 자막은 성별 편향 문제가 있는 것으로 알려져 있으며, 우리 모델(일반적인 신경망 모델과 마찬가지로)이 이를 증폭시킬 수 있습니다. 또한 유튜브 자막은 대명사와 같은 중요한 정체성 표지자를 처리하는 데도 취약할 가능성이 높습니다."

편견을 제쳐두고, 악의적인 행위자들이 감시 영상 속 사건이나 활동을 식별하는 등 논란의 여지가 있는 목적으로 다중 모달 시스템을 사용하는 것을 막을 방법은 없습니다. 스탠퍼드 대학 인간 중심 인공지능 연구소(IHA)에서 발표한 논문에서 공동 저자들은 DALL-E와 같은 다중 모달 모델의 발전이 더 높은 품질의 기계 생성 콘텐츠를 만들어낼 것이며, 이는 "오용 목적"—예를 들어 서로 다른 정당, 국적, 종교를 대상으로 한 오도하는 기사 게시—을 위해 개인화하기 더 쉬워질 것이라고 주장한다.

슬로먼은 CLIPr이 자체적으로 '인간 개입 방식(human-in-the-loop)'을 통해 모델 편향성과 오용을 완화하기 위한 조치를 취한다고 설명한다. 회사는 고객이 CLIPr 시스템의 오류를 지적하도록 장려하여 이를 수정하고, 궁극적으로 백엔드 모델 개발을 개선할 수 있도록 한다.

"다중 모달 방식은 장점이 있습니다. 제대로 구현된다면, 더 분절화된 모델에 비해 편향을 생성할 가능성이 적기 때문입니다."라고 그는 말했다. "진정한 위험은 다중 모달 AI의 복잡성과 불완전성을 인정하지 않고, 특정 선형적 의사결정 경로로 이끄는 데이터 포인트를 사용함으로써 답변이나 일치 범위를 제한하는 데 있습니다."

이씨는 Twelve Labs 역시 편향 완화 전략을 시행했다고 밝혔다. 해당 기업은 다양한 출처에서 데이터셋을 수집하고, 데이터셋에 대한 문서를 작성하며, 원본 영상 및 텍스트 정보를 선별하는 3단계 접근법을 채택하고 있다.

“컴퓨터 비전 모델은 유해성이나 민감한 내용을 포함할 수 있는 시각적 콘텐츠를 탐지하고 필터링하는 데 사용됩니다.”라고 이씨는 설명했다. "그런 다음 원본 영상의 텍스트 변환본을 분석할 때 차단 단어(즉, 선택된 단어 목록에 포함된 단어가 포함된 텍스트를 제거하는 방식)와 고급 자연어 처리(NLP) 기술을 활용하여 정치적, 사회경제적 또는 인구통계학적 편향이 포함될 수 있는 콘텐츠를 필터링합니다. 차단 단어와 NLP 기술은 유해성 및 편향이 포함될 수 있는 텍스트 라벨을 필터링하는 데에도 사용됩니다… 다중 모달 모델을 활용할 때 잠재적 편향을 이해하고 완화하는 것은 Twelve Labs의 성공에 핵심적입니다."