تقوم الشركات بتسويق نماذج الذكاء الاصطناعي متعددة الوسائط لتحليل مقاطع الفيديو وغيرها

كايل ويغرز@Kyle_L_Wiggers

22 مارس 2022 الساعة 6:30 صباحًا


في وقت سابق من هذا الشهر، أصدر باحثون في معهد ألين للذكاء الاصطناعي — وهو مؤسسة غير ربحية أسسها الراحل بول ألين، أحد مؤسسي شركة مايكروسوفت — عرضًا تفاعليًا لنظام يصفونه بأنه جزء من "جيل جديد" من تطبيقات الذكاء الاصطناعي التي يمكنها تحليل مقاطع الفيديو والبحث فيها والرد على الأسئلة المتعلقة بها "على نطاق واسع". أطلق الباحثون على هذا النظام اسم Merlot Reserve، وجعلوه "يشاهد" 20 مليون مقطع فيديو على YouTube لتعلم العلاقات بين الصور والأصوات والترجمة، مما سمح له، على سبيل المثال، بالإجابة على أسئلة مثل "ما هي الوجبة التي يرغب الشخص في الفيديو في تناولها؟" أو "هل سبق للصبي في هذا الفيديو أن سبح في المحيط من قبل؟"

Merlot Reserve وسلفه Merlot ليسا أول أنظمة الذكاء الاصطناعي"متعددة الوسائط" من نوعها. فهناك أنظمة قادرة على معالجة وربط المعلومات من الصوت والصورة والنص موجودة منذ سنوات. وتستمر هذه التقنيات في التحسن في قدرتها على فهم العالم بشكل أشبه بالبشر. يمكن لـ DALL-E، وهو نظام طوره مختبر الأبحاث OpenAI في سان فرانسيسكو وأطلق في عام 2021، إنشاء صور لأشياء حقيقية أو خيالية من وصف نصي بسيط مثل "كرسي بذراعين على شكل أفوكادو". وهناك نظام أحدث من Google يسمى VATT لا يمكنه فقط إضافة تعليقات على الأحداث في مقاطع الفيديو (مثل "رجل يسبح")، بل يمكنه أيضًا تصنيف المقاطع الصوتية والتعرف على الأشياء في الصور.

ومع ذلك، حتى وقت قريب، كانت أنظمة الذكاء الاصطناعي متعددة الوسائط هذه مخصصة حصريًا لمجال البحث. لكن هذا الوضع آخذ في التغير، حيث أصبحت هذه الأنظمة تُستخدم بشكل متزايد في المجال التجاري.

"يمكن أن تساعد التقنيات المتعددة الوسائط المختلفة، بما في ذلك التعرف التلقائي على الكلام، وتصنيف الصور والتعرف عليها، والشبكات العصبية ونماذج التعلم الآلي التقليدية، في فهم النصوص والصوت والصور - [خاصة عند اقترانها] بمعالجة النصوص"، كما قال آرون سلومان، المؤسس المشارك والرئيس التنفيذي للتكنولوجيا في CLIPr، لموقع VentureBeat عبر البريد الإلكتروني. CLIPr هي واحدة من مجموعة الشركات الناشئة التي تستخدم أنظمة الذكاء الاصطناعي متعددة الوسائط لتطبيقات مثل تحليل الفيديو. وتضم المجموعة شركات تكنولوجية عملاقة مثل Meta (المعروفة سابقًا باسم Facebook) وGoogle، بالإضافة إلى شركات ناشئة مثل Twelve Labs، التي تدعي أن أنظمتها يمكنها التعرف على ميزات الفيديو بما في ذلك الأشياء والنصوص على الشاشة والكلام والأشخاص.

"[أنا وزملائي المؤسسون] بحثنا عن حل يساعدنا على استخراج المقاطع المهمة وذات الصلة من مقاطع الفيديو بسهولة كبديل عن التخطي كل 10-15 ثانية، وعندما لم نتمكن من إيجاد حل، قررنا إنشاء واحد... منصة فهرسة الفيديو التي تحمل اسمنا... تستوعب مقاطع الفيديو المسجلة وتساعد على جعلها قابلة للبحث عن طريق النسخ والمواضيع والمواضيع الفرعية"، قال سلومان. "تحليل الإيقاع الصوتي أمر بالغ الأهمية بالنسبة لنا، وهو إيقاع الكلام وتشديده ونبرته. نستخدمه في تحليل الصور، مثل شرائح العروض التقديمية للاجتماعات، للمساعدة في تقييم دقة هذه التغييرات النغمية أو [البحث] عن الإيماءات المتحركة للمشاركين الذين يظهرون في الفيديو".

يدعي سلومان أن CLIPr لديها عملاء في "مجموعة متنوعة" من الصناعات، لا سيما في مجال النشر الإعلامي والمؤسسات والفعاليات. في المستقبل، تهدف الشركة الناشئة إلى تطبيق تقنيتها على البث المباشر للفيديو وإنشاء روبوتات "ذات أدوار محددة" يمكنها، على سبيل المثال، تسجيل الجلسات الرئيسية من إحدى الفعاليات وإنشاء مقطع فيديو يضم أبرز اللحظات تلقائيًا.

"نحن نعتقد أن الفيديو هو أهم أشكال الاتصال الحديث وأقلها استخدامًا، وهدفنا هو جعل الفيديو متاحًا بنفس درجة توفر المحتوى المكتوب"، تابع سلومان.


مستقبل متعدد الوسائط

خارج نطاق الأنظمة متعددة الوسائط، لا ترى الذكاء الاصطناعي العالم بنفس الطريقة التي يراه بها البشر. على سبيل المثال، لا يستطيع نظام التعرف على الكلام فهم سوى نوع واحد من البيانات — الكلام — ولا يفهم سياق هذا الكلام. في المقابل، يستخدم البشر جميع حواسهم (مثل البصر والسمع والشم) لمعالجة الأحداث وترتيبها زمنياً. من الصور والتعليقات المصاحبة لشخص يطبخ الفشار، على سبيل المثال، يمكن للمرء أن يتخيل الأصوات التي قد تصدر عن هذا المشهد، مثل حبات الفشار الخام المتناثرة في وعاء فارغ و"فرقعة" الفشار وهو يتوسع.

"العديد من هذه النماذج متعددة الوسائط مخصصة للصور وتركز على التعرف البصري — أي وصف ما يظهر حرفياً"، كما قال روان زيلرز، طالب دكتوراه في علوم الكمبيوتر بجامعة واشنطن والباحث الرئيسي في مشروع Merlot Reserve، لموقع VentureBeat عبر البريد الإلكتروني. "يمكننا أن نرى النماذج تجيب على أسئلة حول ما يفعله الأشخاص (ولماذا) في مقاطع الفيديو، ربما لتطبيقات البحث."

على سبيل المثال، تدعي شركة Twelve Labs أن نظامها يجعل أي قاعدة بيانات فيديو قابلة للتحليل من خلال تحويل المقاطع إلى تمثيلات رياضية تُعرف باسم التضمينات المتجهة. ووفقًا للرئيس التنفيذي جاي لي، فقد استخدم العملاء هذا النظام لإنشاء محركات توصيات وأنظمة مراقبة المحتوى ولوحات تحليلات الوسائط.

"[Twelve Labs] تعمل على بناء نموذج يمكنه إنشاء تضمينات فيديو قوية يمكن استخدامها ليس فقط للبحث الدلالي، ولكن أيضًا لمهام أخرى متنوعة، مثل إنشاء التسميات التوضيحية والتظليل والملخصات"، قال لي لـ VentureBeat عبر البريد الإلكتروني. "يتم تدريب نماذج الفيديو لدينا تحت إشراف لغوي. نستخرج وحدات متنوعة — متعددة الوسائط — من المعلومات مثل الصور والصوت والنسخ والحركة وما إلى ذلك من الفيديو وندمج تلك المعلومات في تمثيل متجه واحد. يتم تدريب هذا التمثيل تحت نص ذي صلة — جمل — يتم معالجته باستخدام تقنية معالجة اللغة الطبيعية (NLP)".

بالإضافة إلى الشركات الناشئة، كشفت Google العام الماضي عن خطتها لاستخدام نظام ذكاء اصطناعي متعدد الوسائط يسمى النموذج الموحد متعدد المهام (MUM) لتحسين تجارب البحث في Google عبر مختلف اللغات والأجهزة. من بين التحسينات الأخرى، سيوفر MUM في Google Search ميزات جديدة تستقبل الاستعلامات (مثل "لوحات أكريليك") وتسلط الضوء على الموارد مثل الإرشادات التفصيلية وتختار الموضوعات في مقاطع الفيديو (مثل "تقنيات الأكريليك") استنادًا إلى المحتوى الصوتي والنصي والمرئي.

صرحت Meta مؤخرًا أنها تطبق أيضًا نظامًا متعدد الوسائط، يُسمى Few-Shot Learner (FSL)، لتحديد ما إذا كان محتوى رسائل Facebook و Instagram — بما في ذلك النصوص والصور وعناوين URL — ينتهك إرشادات المجتمع. تدعي الشركة أن FSL تم تطويره بناءً على قاعدة بيانات تضم مليارات المنشورات والصور على Facebook بأكثر من 100 لغة.

يعتقد زيلرز أنه في المستقبل، يمكن استخدام هذه الأنواع من النماذج متعددة الوسائط لإنشاء منتجات لا تقتصر على تحليل مقاطع الفيديو والصوت والمحتويات ذات الصلة عبر الإنترنت فحسب، بل تساعد أيضًا المستخدمين الذين يعانون من صعوبات في الرؤية أو السمع. وأضاف: "قد يشمل ذلك أي شيء بدءًا من الإجابة على الأسئلة الأساسية وصولًا إلى التفاعل السياقي".


انتكاسات متعددة الوسائط

على الرغم من أن الذكاء الاصطناعي متعدد الوسائط التجاري أصبح أكثر شيوعًا مما كان عليه في السابق، إلا أنه لا يزال هناك العديد من العقبات التي يجب التغلب عليها قبل أن يتم نشر هذه الأنظمة على نطاق واسع. ويكمن جزء من الحل في جعل الجانب الاقتصادي يعمل بشكل جيد: على الرغم من أن تشغيل نظام قائم لا يكون مكلفًا في العادة، على الأقل مقارنة بتطوير نظام جديد، إلا أن ذلك يعتمد على طبيعة عبء العمل ومستوى مهارة فريق علوم البيانات في الشركة.

قال سلومان: "إن [تطوير] النموذج الأولي هو الجانب الأكثر تكلفة بسهولة لأنه يتضمن تحسين علم البيانات بالتوازي". "على سبيل المثال، فإن عملية التمييز بين ما هو شريحة وما ليس شريحة عبر آلاف اجتماعات Zoom التي تم التحقق منها مكلفة للغاية".

على سبيل المثال، استغرق تطوير Merlot Reserve حوالي ثلاثة أسابيع على مجموعة من 512 وحدة معالجة تينسور (TPU) من الجيل الثالث من Google، وهي شرائح مصممة لتسريع جوانب معينة من عملية إنشاء الذكاء الاصطناعي. تبلغ تكلفة تقييم مجموعة من 32 وحدة TPU من الجيل الثالث 32 دولارًا في الساعة، وفقًا للأسعار العامة الحالية، مما يجعل تكلفة تطوير Merlot Reserve تزيد قليلاً عن 16000 دولار (بافتراض عدم وجود خصومات على الحجم أو الخصومات السنوية أو الأكاديمية).

"نحن ندير حاليًا سبعة نماذج مختلفة، بعضها عبارة عن مستودعات بيانات مفتوحة المصدر واسعة النطاق تحتوي على مئات الملايين من الكائنات، بينما البعض الآخر مملوك لنا"، أوضح سلومان. "نماذجنا المملوكة لنا تخضع للتدريب منذ أكثر من عام الآن، ومن الصعب تحديد المدة التي تخضع لها النماذج مفتوحة المصدر التي نستخدمها، ولكن من المحتمل أن تكون قد خضعت للتدريب لفترة أطول من ذلك بكثير ... أعتقد أن التغيير الجذري التالي في الذكاء الاصطناعي متعدد الوسائط سيكون بناء روابط أكثر توحيدًا بين أنواع مختلفة من النماذج المنعزلة. اضطررنا إلى تجميع عدة نماذج للذكاء الاصطناعي، كل منها يقوم بنوع واحد من التحليل بشكل جيد. في النهاية، مع قيام العديد من الشركات بتصنيع منتجات باستخدام تقنية متعددة الوسائط، سنرى المزيد من العروض مفتوحة المصدر، مما يجعل التدريب وإجراء التجارب أسهل وأقل تكلفة".

تعاني الأنظمة متعددة الوسائط الحالية أيضًا من عيوب تقنية، مثل التحيز في البيانات (مثل مقاطع فيديو YouTube) التي تتعلم منها. على سبيل المثال، نظرًا لأن Merlot Reserve "يشاهد" عددًا كبيرًا من مقاطع فيديو YouTube، فإنه يتحيز لتوصيات YouTube، وبشكل أعم، للضغط الاقتصادي الذي يشجع الناس على إنتاج محتوى معين.

كتب زيلرز وزملاؤه في دراسة تصف قدرات Merlot Reserve: "تقوم عملية مراقبة المحتوى على YouTube بتصفية أصوات [الأقليات] بشكل غير متناسب ... كما أن أدوار الأشخاص في مقاطع فيديو YouTube [أيضًا] تميل إلى أن تكون جنسانية للغاية، مما قد يؤدي إلى تحيز في فهم الموقف". "من المعروف أن الترجمة التلقائية في YouTube تعاني من التحيز الجنسي، والذي قد يؤدي نموذجنا (مثل النماذج العصبية بشكل عام) إلى تضخيمه. كما أن النصوص على YouTube غالبًا ما تكون ضعيفة في التعامل مع علامات الهوية المهمة، مثل الضمائر".

بغض النظر عن التحيزات، لا يوجد ما يمنع الأطراف السيئة من استخدام الأنظمة متعددة الوسائط لأغراض مثيرة للجدل، مثل تحديد الأحداث أو الأنشطة في لقطات المراقبة. في ورقة بحثية نشرها معهد ستانفورد للذكاء الاصطناعي المتمركز حول الإنسان، يجادل المؤلفون المشاركون بأن التقدم في النماذج متعددة الوسائط مثل DALL-E سيؤدي إلى محتوى عالي الجودة يتم إنشاؤه آليًا وسيكون من السهل تخصيصه "لأغراض إساءة الاستخدام" — مثل نشر مقالات مضللة تستهدف أحزابًا سياسية وجنسيات وأديانًا مختلفة.

يقول سلومان إن CLIPr، من جانبها، تتخذ خطوات للتخفيف من تحيز النموذج وسوء استخدامه من خلال نهج "الإنسان في الحلقة". تشجع الشركة العملاء على الإشارة إلى الأخطاء التي يرتكبها نظام CLIPr حتى تتمكن من تصحيحها — وبشكل مثالي تحسين تطوير النموذج في الخلفية.

وقال: "تتميز الطريقة متعددة الوسائط بمزاياها، لأنها إذا تم تنفيذها بشكل صحيح، فإن احتمال حدوث تحيز فيها أقل مقارنة بالنماذج الأكثر انعزالاً. ويكمن الخطر الحقيقي في عدم الاعتراف بتعقيد ونقص الذكاء الاصطناعي متعدد الوسائط واستخدام نقاط البيانات التي تقودك إلى مسار قرار خطي معين يحد من نطاق الإجابات أو التطابقات".

قال لي إن Twelve Labs أيضًا قد طبقت استراتيجيات للتخفيف من التحيز. تتبع الشركة نهجًا من ثلاث مراحل يشمل جمع مجموعات البيانات من مصادر متنوعة، وإنشاء وثائق لمجموعات البيانات، وتنظيم المعلومات الأولية للفيديو والنصوص.

"تُستخدم نماذج الرؤية الحاسوبية للكشف عن المحتوى المرئي الذي قد يحتوي على مواد سامة أو حساسة وتصفيته"، أوضح لي. "ثم يتم تحليل نسخة الفيديو الخام باستخدام الكلمات المحظورة (أي إزالة أي نص يحتوي على كلمات من قائمة الكلمات المحددة) وتقنيات NLP المتقدمة لتصفية المحتوى الذي قد يحتوي على تحيز سياسي أو اجتماعي اقتصادي أو ديموغرافي. تُستخدم الكلمات المحظورة وتقنيات NLP أيضًا لتصفية العلامات النصية التي قد تحتوي على محتوى ضار أو تحيز ... إن فهم التحيزات المحتملة والتخفيف من حدتها عند استخدام النماذج متعددة الوسائط أمر أساسي لنجاح Twelve Labs."