مكافحة إجهاد الفيديو في مكان العمل باستخدام الذكاء الاصطناعي
30 أبريل 2021
يصف الرئيس التنفيذي لشركة CLIPr، همفري تشين، كيف تتعامل شركتنا مع هذا التحدي الصعب.
أدى تفشي جائحة كوفيد-19 إلى تسريع تحول مؤتمرات الفيديو المؤسسية من "ميزة إضافية" إلى ضرورة. وفقًا لمنشور على مدونة Zoom، ارتفع عدد مستخدمي منصتهم إلى 300 مليون مستخدم يوميًا في أبريل 2020، مقارنة بـ 10 ملايين مستخدم في ديسمبر 2019. يعد محتوى الفيديو أساسيًا في كل ما تقوم به الشركات اليوم، من الاجتماعات وساعات الترفيه لبناء الفريق، إلى الأحداث الافتراضية والدورات التدريبية والمزيد. يتم مشاهدة الكثير من محتوى الفيديو لدرجة أنه أدى إلى إرهاق كبير من مشاهدة الفيديو، مما يذكرنا جميعًا بأن الإفراط في أي شيء جيد يمكن أن يكون ضارًا.
على الرغم من أن الوباء قد يكون السبب وراء تسريع استخدام مؤتمرات الفيديو في مكان العمل، إلا أن هذا الأمر لا يزال في بدايته، حيث من المرجح أن تستمر بيئات العمل المختلطة. أظهر استطلاع جديد أجرته Metrigy أن أكثر من 57% من الشركات تتوقع زيادة استخدام مؤتمرات الفيديو في غرف الاجتماعات. مع تسارع الاعتماد على الفيديو وزيادة التعب، تتطلب الحالة إيجاد حلول للتعامل مع المحتوى بكفاءة أكبر بكثير.
علاوة على ذلك، تمتلك الشركات وفرة من محتوى الفيديو المسجل ولا توجد طريقة بسيطة لعرض أو استرجاع تلك الأفكار في وقت لاحق لاستخدامها في وضع الاستراتيجيات والمقترحات والورقات البيضاء وغيرها من أشكال المواد الترويجية الشائعة للشركات. لحسن الحظ، يتم تطبيق الذكاء الاصطناعي (AI) لحل هذا التحدي المتنامي.
كيف يمكن تحسين التفاعل مع الفيديو؟
المقياس القياسي لمدى تفاعل المشاهدين مع الفيديو هو المدة التي يقضيها الشخص في مشاهدة الفيديو. ومع ذلك، لم يعد هذا المقياس طريقة صالحة لحساب النجاح لأنه يستند إلى فكرة أن الفيديو بأكمله ذو قيمة للمستخدم وأن هناك وقتًا غير محدود في حياتنا اليومية لاستهلاك جميع محتويات الفيديو ذات الصلة.
من الواضح أن هذا المقياس غير واقعي. بدلاً من ذلك، يجب أن تركز الشركات على السرعة التي يمكن للموظفين بها العثور على الموضوعات الأكثر صلة من الفيديو، واستخراج المعلومات، وتطبيقها على سير عملهم، مما يوفر الوقت ويزيد الإنتاجية. نحن نقوم بذلك بشكل طبيعي بالنسبة لمعظم أشكال المحتوى الأخرى.
فكر في المقالات أو الأوراق البحثية أو الاستطلاعات أو تقارير الأبحاث. بالنسبة لكل منها، نتعلم بسرعة كيفية العثور على الأجزاء القيمة من المحتوى واستخراجها لأغراض مختلفة. هذه المهمة أصعب بكثير مع مقاطع الفيديو الطويلة. وهذا أمر مقلق حقًا، حيث وجدت أبحاث Wundamail أن الموظفين كانوا أكثر عرضة بثلاث مرات للوفاء بالإجراءات المتفق عليها كتابةً مقارنةً بالفيديو، لأنهم لم يتذكروا المعلومات الأساسية بعد انتهاء مكالمة الفيديو.
توفر الذكاء الاصطناعي فرصة للتغلب على هذا التحدي من خلال تحليل الإشارات الصوتية والمرئية لتحديد اللحظات المهمة في الفيديو، مما يسهل فهرسة اللحظات المهمة والبحث عنها واسترجاعها فقط. علاوة على ذلك، ما هو مهم بالنسبة لك قد لا يكون مهمًا بالنسبة لي. يقيّم كل مشاهد اللحظات المهمة بشكل مختلف، ويجب أن يفهم الذكاء الاصطناعي أيضًا هذه الفروق الدقيقة والتمييزات. ساعدت النسخة الصوتية في التنقل عبر الفيديو، ولكنها تفتقر إلى السياق وهي مثالية فقط لتدوين الملاحظات ومتابعة بنود العمل. تدريب آلة على فهم الفيديو أمر معقد للغاية ويستند إلى تنسيق محفزات يصعب تحقيقها حتى مع التقدم الحالي في الذكاء الاصطناعي.
يجب إجراء العديد من التحليلات بالتزامن لإبراز اللحظات المهمة في الفيديو. العوامل المرئية والمسموعة مثل الموضوعات والمتحدثون وحجم صوت المتحدثين ومدة حديثهم ولغة الجسد والرسوم المتحركة والوسائل البصرية هي بعض الطرق الرئيسية التي يمكن من خلالها للتعلم الآلي البدء في تحديد اللحظات المهمة في محتوى الفيديو.
في الوقت الحالي، يمكن للذكاء الاصطناعي تحليل الكلمات والعبارات الرئيسية بسهولة، ولكن وجود مجموعة كبيرة من الكلمات لا يساعد في تحديد الإجراءات أو السياق. ففي هذه المجموعات الكبيرة توجد متغيرات إضافية، مثل المصطلحات والتمييز بين الأصوات المتعددة (مثل اجتماع يضم العديد من الأشخاص الذين يستخدمون لهجات متشابهة أو مختلفة). ومن المثير للاهتمام أن الذكاء الاصطناعي لكي يفهم أهمية لحظة ما، غالبًا ما يتعين عليه أولاً تحليل الاستجابة أو رد الفعل تجاهها. على سبيل المثال، إذا أدلى متحدث بتصريح وكان الرد عليه "هذه نقطة ممتازة"، فسيحدد الذكاء الاصطناعي أهمية هذا التصريح.
التحديات التي تواجه فهرسة مقاطع الفيديو المؤسسية
مثلما هو الحال في عملية تحليل الصوت والفيديو، يؤثر نوع محتوى الفيديو على دقة الذكاء الاصطناعي. أسهل هياكل الاجتماعات التي يمكن فهرستها هي الجلسات الفردية أو الجلسات الجماعية التي يتم سردها، مثل تلك التي تجدها في مؤتمر افتراضي. عادةً ما يكون لهذه الجلسات محتوى محدد وتسلسل وسرد وأسئلة منظمة. وهذا يوفر "أدلة" مهمة لنموذج التعلم الآلي من أجل فهرسة المحتوى بشكل صحيح. ستظهر الأسماء على الشاشة، ووجه الشخص، والانتقالات المعدة مسبقًا من موضوع إلى آخر، وغالبًا ما يكون هناك عدد قليل من الأصوات لفك رموزها، وأحيانًا علامة حول أسمائهم عندما يتحدثون.
على العكس من ذلك، قد يكون هناك عدد أكبر من الأشخاص ومؤشرات أقل في مكالمة مبيعات أسبوعية حرة الشكل، مما يؤدي إلى تحديات أكبر في الفهرسة. قد يكون هناك عدة أشخاص يتحدثون في نفس الوقت، ووسائل مساعدة بصرية أقل، ولا يوجد نص محدد أو تدفق للمحادثة، وما إلى ذلك. بالنسبة لهذه الاجتماعات غير المنظمة، يصبح التدخل البشري من خلال التعلم الآلي الخاضع للإشراف ضروريًا لتحقيق أقصى قدر من الدقة. يمكن تدريبه على اكتشاف السلوكيات الفريدة والاختلافات في اللغة الثقافية ولغة الجسد.
بالنسبة للقطاعات التي تستخدم مصطلحات فريدة، تمتلك AWS بالفعل مجموعات من الذكاء الاصطناعي التي تفهم الأنطولوجيا القطاعية، مثل الطب، والتي يمكن استخدامها لمواجهة هذا التحدي. آلية التدريب الضرورية هذه داخل كل ثقافة عمل فريدة هي السبب في أن منصة قائمة على التعلم الآلي لمحتوى الفيديو أمر ضروري وأن الحلول الجاهزة للاستخدام لمرة واحدة لن تكون كافية.
حتى قبل الجائحة، كنا نعلم أن الفيديو سيظل أحد الأصول الأساسية، حيث تقدر شركة Cisco أن 82% من جميع المحتويات التي يتم إنشاؤها ستكون في شكل فيديو. مع اعتماد معظم العالم على الفيديو، أصبح الاستفادة من الذكاء الاصطناعي لجعله أسهل في البحث والتطبيق أحد أهم الطرق لتحسين الإنتاجية والنجاح في مكان العمل.
قد يبدو مفهوم إجهاد الفيديو في البداية ظاهرة منعزلة مرتبطة بالجائحة، ولكنه ليس سوى بداية لمشكلة أكبر إذا لم نتمكن من إيجاد طرق لإدارة الفيديو بشكل أكثر فعالية في المستقبل. إن تحقيق هذا الهدف من خلال التحسين والأتمتة الكاملة هو ماراثون وليس سباقًا قصيرًا، ويجب البدء في استخدامه داخل المؤسسة اليوم.
المصدر: Datanami