نحن نصل إلى نقطة تحول في كيفية تفاعل الناس مع الذكاء الاصطناعي. لم يعد الأمر يتعلق فقط بواجهات الدردشة أو الرسائل النصية، حيث يمكن لوكلاء الذكاء الاصطناعي متعدد الوسائط رؤية كل هذه الإشارات وسماعها وقراءتها والاستجابة لها باستخدام كل هذه الإشارات في وقت واحد.
هذا التحول يجعل المحادثات مع الأجهزة تبدو طبيعية أكثر، لأنها لم تعد تقتصر على نوع واحد من المدخلات في كل مرة.
فكر في الفرق بين إعطاء الذكاء الاصطناعي أمرًا مكتوبًا مقابل عرض لقطة شاشة عليه، ووصفه بصوت عالٍ، وتوقع أن يفهم نيتك من التفاعل بأكمله.
هذا ما يفعله هؤلاء الوكلاء: فهم يجمعون مدخلات متعددة للحصول على صورة أكمل، ثم يستجيبون وفقًا لذلك، ويغيرون كيفية بناء الذكاء الاصطناعي واستخدامه والاعتماد عليه عبر عمليات سير العمل.

ما هي عوامل الذكاء الاصطناعي متعددة الوسائط؟
لذا، دعونا نحلل هذا. تم تصميم عوامل الذكاء الاصطناعي التقليدية عادةً بنماذج منفصلة لكل طريقة، بما في ذلك نموذج اللغة للنص، ونموذج الرؤية للصور، ونموذج الكلام للصوت، من بين أمور أخرى. ستقوم كل من هذه النماذج بمعالجة مدخلاتها بشكل منفصل، ثم سنحاول تجميع المخرجات معًا لاحقًا.
المشكلة؟ هذا الإعداد هش. تفقد السياق عبر الطرائق. لا «يعرف» نموذج الرؤية ما يفكر فيه نموذج اللغة، والعكس صحيح. لا يمكنك القيام بالتفكير المشترك الحقيقي - فقط بعض الاندماج الخام في المراحل النهائية.
الإعداد القديم (قبل عام 2023):
- خطوط أنابيب منفصلة: واحد لـ NLP، واحد للسيرة الذاتية، واحد للصوت.
- الاندماج المتأخر: دمج المخرجات في النهاية (على سبيل المثال، التقاط تعليق على الصورة+استعلام المستخدم وتجميعها معًا في مطالبة).
- درجة عالية من التعقيد: الكثير من رموز الغراء والمحولات المخصصة والضبط عبر الأنظمة.

هذا هو السبب في أن التحول إلى النماذج الموحدة متعددة الوسائط يمثل مشكلة كبيرة.
تستخدم العوامل الحديثة متعددة الوسائط (على سبيل المثال، المبنية على GPT-4o و Gemini و Claude) نموذجًا واحدًا تم تدريبه على التعامل مع أنواع بيانات متعددة أصلاً. وهذا يعني أنه يمكنه استيعاب النصوص والصور والصوت والفيديو في نفس مساحة الإدخال، وإخراج الاستجابات التي تأخذ في الاعتبار كل ذلك معًا.
إليك الهندسة المعمارية على مستوى عالٍ:
- أجهزة التشفير الخاصة بالطريقة
هذه هي وحدات الواجهة الأمامية التي تحول كل إدخال إلى عمليات تضمين:- الصور ← مشفر الرؤية (عادةً ما يكون ViT أو CNN)
- الصوت ← مشفر الطيف أو Wav2Vec
- نص ← محول قياسي
- فيديو ← مقسم إلى إطارات+صوت، ثم تتم معالجته بطريقة مماثلة
- الصور ← مشفر الرؤية (عادةً ما يكون ViT أو CNN)
- مساحة تمثيل مشتركة
كل هذه التضمينات تدخل في نفس المساحة الكامنة المشتركة. هذا هو المفتاح: الآن، تشير كلمة «كلب» ولحاء كلب وصورة كلب إلى نقاط ذات صلة. يفهمها النموذج على أنها أشكال مختلفة من نفس المفهوم. - طبقات المحولات متعددة الوسائط
هذه طبقات محولات قياسية قائمة على الانتباه، ولكنها تعالج الرموز متعددة الوسائط. لذلك، قد يكون لديك رمز نصي مخصص لميزات الصورة أو مقاطع الصوت. لا يوجد فصل - يرى النموذج فقط تسلسلاً غنيًا من المدخلات والأسباب عبرها.
وحدة فك الترميز أو وحدة الإخراج
واعتمادًا على حالة الاستخدام، يمكن أن يكون هذا مولدًا نصيًا (لاستجابات روبوتات المحادثة)، أو رئيس السياسة (لاستخدام الأدوات)، أو أوامر الإجراءات (للروبوتات).

تطبيقات العالم الحقيقي لوكلاء الذكاء الاصطناعي متعدد الوسائط
دعونا نحصل على الخرسانة—الذكاء الاصطناعي متعدد الوسائط لم يعد الوكلاء مجرد عروض معملية بعد الآن. يتم استخدامها بالفعل في البرية عبر الصناعات حيث يكون اتخاذ القرار الغني بالسياق في الوقت الفعلي أمرًا مهمًا. ما يجعلها ذات قيمة هو أنها تستطيع معالجة إشارات متعددة - النص والمرئيات والصوت وما إلى ذلك، بالتوازي والعمل على هذا الفهم المدمج دون الحاجة إلى الإمساك باليد.
في ما يلي بعض الأماكن التي بدأ فيها ذلك يؤتي ثماره بالفعل:
1. دعم العملاء الذي يفهم السياق
بدلاً من روبوت المحادثة الذي يوزع النص فقط، يمكن للوكيل متعدد الوسائط:
- شاهد تسجيل شاشة لجلسة المستخدم،
- اقرأ تذاكر الدعم والسجلات،
- قم بتحليل نبرة الصوت في حالة وجود مكالمة.
من هناك، يمكنه فرز المشكلة أو حتى إنشاء حل مخصص خطوة بخطوة. فكر بشكل أقل في «روبوت الأسئلة الشائعة»، وهو وكيل أكثر تعاطفًا من المستوى الأول يعرف ما تواجهه دون 10 مرات ذهابًا وإيابًا.
اقرأ المزيد عن الذكاء الاصطناعي في خدمة العملاء.
تستخدم الشركات هذا في SaaS والاتصالات والتكنولوجيا المالية لخفض وقت التصعيد وأتمتة الحالات المعقدة، خاصة عندما يتعلق الأمر بالإشارات المرئية أو السلوكية.
2. المساعدون الطبيون الذين يجمعون بين التصوير والنص
في مجال الرعاية الصحية، يمكن للوكلاء متعددي الوسائط:
- تفسير الأشعة (CT، MRI، الأشعة السينية)،
- اقرأ ملاحظات الطبيب أو تقارير المختبر،
- قم بمطابقة التشوهات البصرية مع سجلات المرضى النصية.
بدلاً من الأنظمة المنعزلة (مشاهدو PACS + محركات NLP)، يمكنك الحصول على مساعد واحد يمكنه اقتراح التشخيصات أو الإبلاغ عن التناقضات عبر أنواع البيانات. يساعد ذلك في كل من دعم القرار السريري والتوثيق - وهما من أكثر أجزاء سير العمل استهلاكًا للوقت.
3. التصنيع + التشغيل الآلي للخدمات اللوجستية
في طوابق المصنع أو في المستودعات، يمكن للوكلاء:
- شاهد مقاطع الفيديو المباشرة لمشكلات السلامة أو الجودة،
- استمع لأجهزة الإنذار أو الحالات الشاذة،
- بيانات المستشعر المرجعي التبادلي أو التعليمات من الفنيين.
على سبيل المثال، إذا بدأ الجهاز في ارتفاع درجة الحرارة، يمكن للعامل متعدد الوسائط التقاط الإشارات المرئية (مثل الدخان)، والتحقق من القراءات الحرارية، وإرسال تنبيه أو إيقاف تشغيل النظام - قبل أن يلاحظ المشغلون البشريون ذلك.
اقرأ المزيد عن البشر الرقميون.
خلاصة القول: يتم بالفعل نشر هؤلاء الوكلاء حيث الإدخال ليس مجرد نص وتعتمد القرارات على التفسير السريع والمتكامل. إذا كنت تعمل في أي مجال يتفاعل فيه الأشخاص مع المرئيات أو الأصوات أو المستندات أو البيئات المادية (وليس فقط المطالبات)، فسيكون من الصعب تجاهل العوامل متعددة الوسائط.
تعرف على المزيد حول الذكاء الاصطناعي التوليدي.
تنفيذ عوامل الذكاء الاصطناعي متعددة الوسائط: اعتبارات عملية
إذا كنت تخطط لبناء أو نشر وكيل ذكاء اصطناعي متعدد الوسائط، فإن الأمر لا يتعلق فقط باختيار النموذج الصحيح. عليك أن تفكر في كيفية ملاءمته لنظامك الأوسع: ما هي البيانات التي يستوعبها، وكيف يعمل، ومدى سرعة استجابته، ومدى موثوقيته.
فيما يلي تفصيل لما يجب التفكير فيه قبل البدء:
اختر نموذج الأساس المناسب
أولاً، حدد ما إذا كنت تستخدم نموذجًا مستضافًا (مثل GPT-4o من OpenAI أو Gemini 1.5 أو Claude 3 Opus) أو قم بضبط النموذج الخاص بك. بالنسبة لمعظم الفرق، تعد واجهات برمجة التطبيقات المستضافة أسرع مسار لنظام العمل - ولكن انتبه جيدًا لما يلي:
- الطرائق المدعومة محليًا: لا تتعامل جميع النماذج «متعددة الوسائط» مع توليد الفيديو أو الكلام أو الصور بشكل جيد. لا يزال البعض يتطلب إدخالًا تمت معالجته مسبقًا (على سبيل المثال، مخططات الطيف للصوت).
- وقت الاستجابة: الجمع بين الطرائق يزيد الحوسبة. بالنسبة لحالات الاستخدام في الوقت الفعلي (مثل المساعدين الصوتيين والروبوتات)، ستحتاج إلى نماذج بزمن انتقال منخفض أو دعم بث مخصص.
- تكامل الأدوات: هل يمكن للنموذج استدعاء الوظائف أو واجهات برمجة التطبيقات؟ ربما ستحتاج إلى استخدام أداة لتوسيع الوكيل بما يتجاوز السلوك على مستوى الدردشة.
خط أنابيب الإدخال: طرائق التنظيف والمزامنة والتنسيق
جزء كبير من التنفيذ هو تغذية البيانات الصحيحة إلى الوكيل بطريقة نظيفة ومتزامنة. وهذا يشمل:
- الطوابع الزمنية والمحاذاة: إذا كنت تجمع بين سجلات الفيديو+الصوت+الترجمات المصاحبة، فأنت بحاجة إلى محاذاة زمنية حتى يعرف الوكيل ما يحدث ومتى.
- المعالجة المسبقة: قد تحتاج الصور إلى تغيير الحجم أو التعليق التوضيحي، وقد يحتاج الصوت إلى تصفية الضوضاء، وقد يتطلب النص التقسيم أو التأريض باستخدام البيانات الوصفية.
- تنظيم السياق: ستحتاج على الأرجح إلى طبقة تحكم تقوم بتصفية المدخلات متعددة الوسائط أو تلخيصها حتى لا تغمر النموذج بالضوضاء.
فكر في النموذج على أنه ذكي ولكنه متعطش للسياق. إن إطعامها بشرائح نظيفة ومتعددة الوسائط ذات الصلة يحدث فرقًا كبيرًا في جودة الإنتاج.
الذاكرة والتاريخ وإدارة الحالة
الوكلاء متعددي الوسائط ليسوا مجرد مستجيبين لمرة واحدة - فهم غالبًا ما يحتاجون إلى السياق بمرور الوقت.
- ذاكرة الجلسة: ستحتاج إلى الاستمرار في المدخلات الرئيسية (مثل صورة مرئية منذ 30 ثانية أو مرجع في محادثة سابقة).
- ذاكرة مهيكلة: ضع في اعتبارك إنشاء كائنات الذاكرة (على سبيل المثال، عمليات تضمين أزواج الصور والنص) التي يمكن للوكلاء الرجوع إليها باستخدام أدوات الاسترجاع أو مخازن المتجهات.
- حالة الوكيل: إذا كنت تقوم بتسلسل الإجراءات أو المهام (على سبيل المثال، «شاهد الشاشة، ثم اقترح الإصلاح»)، فستحتاج إلى تتبع حالة الوكيل في الواجهة الخلفية، وليس فقط تفريغ كل شيء في المطالبة.
أصبح التقييم والرصد أكثر صعوبة الآن
يصعب اختبار العوامل متعددة الوسائط مقارنة بالعوامل النصية فقط. أنت تتعامل مع:
- مدخلات غامضة: الإشارات البصرية والإيماءات والنغمة - يصعب محاكاتها واختبارها باستمرار.
- مخرجات معقدة: قد تكون الاستجابة عبارة عن استدعاء أداة أو رد شفهي أو تغيير في الواجهة - ليس من السهل دائمًا تقييمها باستخدام المقاييس الأساسية.
- ردود فعل الإنسان في الحلقة: ستحتاج غالبًا إلى مستخدمين حقيقيين للتحقق مما إذا كان الوكيل «يقوم بذلك بشكل صحيح».
يعد التسجيل والتتبع عبر جميع أنواع الإدخال أمرًا ضروريًا. أضف إمكانية الملاحظة المنظمة مبكرًا، خاصة إذا كان وكيلك يتخذ قرارات بناءً على المدخلات المرئية أو الواقعية.
خصوصية البيانات وطرائقها = سطح مخاطر جديد
غالبًا ما تتعامل الأنظمة متعددة الوسائط مع البيانات الحساسة: التسجيلات الصوتية وموجزات الكاميرا ولقطات الشاشة والإشارات البيومترية. تأكد من:
- لديك موافقة الاشتراك لجميع الطرائق المستخدمة.
- يمكنك تجريد معلومات تحديد الهوية الشخصية أو تنقيحها عند الحاجة (خاصة في إعدادات المؤسسة أو الرعاية الصحية).
- أي بيانات يتم تسجيلها للتدريب أو التقييم تكون مجهولة المصدر ومشفرة.
حتى إذا تم استضافة النموذج نفسه بشكل آمن، فإن خطوط الأنابيب متعددة الوسائط غالبًا ما تفتح أسطحًا جديدة للهجوم، خاصة مع مدخلات الصوت والرؤية.
التغلب على التحديات باستخدام الذكاء الاصطناعي متعدد الوسائط
يأتي بناء وكلاء الذكاء الاصطناعي متعدد الوسائط وتوسيع نطاقهم مع مجموعة فريدة من التحديات، غالبًا لأنك تتعامل مع أنواع متعددة من المدخلات التي يجلب كل منها تعقيدها الخاص، ثم تحاول دمجها في شيء متماسك وقابل للتنفيذ.
واحدة من أكبر العقبات التقنية هي مواءمة البيانات ومزامنتها عبر الطرائق.
على سبيل المثال، في النظام الذي يستخدم الفيديو والصوت، تحتاج إلى توقيت دقيق للتأكد من أن النموذج يفسر الكلام والإشارات المرئية من نفس اللحظة. يمكن أن يؤدي عدم التطابق الطفيف إلى كسر فهم النموذج أو يؤدي إلى الهلوسة. يصبح هذا الأمر أكثر صعوبة عند الجمع بين أشياء مثل لقطات شاشة واجهة المستخدم وبيانات المستشعر والصوت، وكلها يتم التقاطها في أوقات أو ترددات مختلفة.
التحدي الرئيسي الآخر هو التعلم التمثيلي. في حين يتم تدريب النماذج الحديثة على رسم مدخلات مختلفة في مساحة دلالية مشتركة، فإن هذا لا يعني أن جميع الطرائق غنية أو موثوقة بنفس القدر. تحمل بعض الإشارات (مثل النص) معنى أكثر وضوحًا، في حين أن البعض الآخر (مثل النغمة أو التكوين المرئي) يمكن أن يكون غامضًا.
يتطلب الحصول على النموذج لموازنة تلك العناصر بشكل مناسب، دون الإفراط في الفهرسة على نوع واحد من المدخلات، الكثير من الضبط الدقيق وتصميم مجموعة البيانات. غالبًا ما يتعين عليك تعويض اختلال التوازن في الطريقة، حيث تهيمن بعض المدخلات على مخرجات النموذج لمجرد أنها أسهل في المعالجة أو أكثر شيوعًا في مجموعة التدريب.
هناك أيضًا مسألة التقييم. باستخدام النص، لدينا معايير ومقاييس راسخة جدًا (BLEU و ROUGE وما إلى ذلك)، ولكن من الصعب تسجيل المهام متعددة الوسائط بشكل نظيف.
كيف تقيس دقة الاستجابة التي تستند إلى تفسير صورة وأمر صوتي ومجموعة من مخرجات الأدوات؟ ينتهي الأمر بالعديد من الفرق إلى بناء أحزمة اختبار مخصصة أو الاعتماد على الحكم البشري في الحلقة، الأمر الذي لا يتسع بشكل جيد.
وعندما تأخذ في الاعتبار حقيقة أن هذه الأنظمة غالبًا ما تستخدم الأدوات أو التفكير أو الوصول إلى الذاكرة كجزء من مخرجاتها، وليس فقط توليد النص، فإن التعقيد يتضاعف.
التحديات التشغيلية حقيقية بنفس القدر. تعتبر العوامل متعددة الوسائط أكثر صعوبة في التشغيل، خاصة عندما تتعامل مع تدفقات الفيديو أو الصوت الكبيرة في الوقت الفعلي. يمكن أن يرتفع وقت الاستجابة، ويزداد استخدام وحدة معالجة الرسومات، وتصبح إدارة التجميع أكثر صعوبة.
إذا كنت تقوم بالنشر في الإنتاج، فأنت بحاجة إلى استراتيجية للتخزين المؤقت أو المعالجة غير المتزامنة أو التوجيه الانتقائي - وإلا فسيصبح النظام بطيئًا جدًا بحيث لا يكون مفيدًا.
أخيرًا، هناك عوامل بشرية. غالبًا ما يعمل الوكلاء متعددو الوسائط في سياقات حساسة مثل الرعاية الصحية والتعليم وأدوات مكان العمل، حيث تكون الثقة أمرًا بالغ الأهمية. قد لا يفهم المستخدمون دائمًا المدخلات التي يستخدمها النظام لاتخاذ قرار.
وبدون قابلية التفسير الواضحة والأمان من الفشل، يخاطر العامل بالشعور بالغزو أو عدم القدرة على التنبؤ. لذا فإن بناء الشفافية والمنطق الاحتياطي والتدهور الرشيق (على سبيل المثال، التحول إلى النص فقط عند الحاجة) ليس مجرد شيء جميل - إنه ضروري.
مستقبل وكلاء الذكاء الاصطناعي متعدد الوسائط
يتجه وكلاء الذكاء الاصطناعي متعدد الوسائط نحو أن يصبحوا واجهات افتراضية، ليس فقط مساعدين تتحدث معهم، ولكن متعاونين يفهمون بيئتك عبر جميع القنوات الحسية.
ومع استمرار النماذج التأسيسية في تحسين طريقة تعاملها مع الصوت والفيديو والتفكير المكاني في الوقت الفعلي، ستتحول هذه العوامل من كونها تفاعلية إلى استباقية. وهذا يعني أنهم لن ينتظروا الأوامر فحسب؛ بل سيتمكنون من مشاهدة ما يحدث، واكتشاف الأنماط أو المخاطر، وتقديم المساعدة السياقية في الوقت المناسب، سواء كان ذلك في المصنع أو المستشفى أو الفصل الدراسي أو مساحة العمل المكتبية.
واحدة من أكبر التحولات القادمة هي التكامل الأكثر إحكامًا مع الأنظمة المادية. فكر في الروبوتات والأجهزة الذكية ونظارات الواقع المعزز والأماكن التي لا يستهلك فيها الوكلاء البيانات متعددة الوسائط فحسب، بل يتصرفون أيضًا في مساحات الواقع المتجسد أو المختلط.
بدلاً من المطالبة ببرنامج الدردشة الآلي، ستقوم بالإيماءات أو التحدث أو إلقاء نظرة أو عرض شيء ما، وسيستنتج الوكيل النية من كل ذلك في الوقت الفعلي. هذا يفتح الباب أمام تنفيذ مهام أكثر ثراءً، خاصة في مجالات مثل الخدمة الميدانية أو الخدمات اللوجستية أو الجراحة أو التعاون عن بُعد.
هناك مجال آخر يتطور بسرعة وهو الذاكرة والتخصيص. سيتمكن وكلاء المستقبل من بناء ذاكرة ثابتة ومتعددة الوسائط للتفاعلات والتفضيلات والسياق بمرور الوقت.
سيتذكرون ما عرضته عليهم الأسبوع الماضي، وكيف تحب التعامل مع مهام معينة، وحتى كيف تتغير نبرتك عندما يكون هناك شيء عاجل. هذا سيجعلهم يشعرون بأنهم متعاونون حقيقيون ومتكيفون ومتسقون ويتوافقون بشكل متزايد مع سير العمل البشري.
سنرى أيضًا المزيد من الوكلاء متعددي الوسائط اللامركزيين أو المنتشرين على الحافة. في الوقت الحالي، تعتمد معظم الأنظمة على الاستدلال السحابي نظرًا لكثافة الحوسبة لمعالجة الصور والفيديو والصوت. ولكن مع النماذج الفعالة على الجهاز وتسريع الأجهزة، ستعيش أجزاء من هذه الوكلاء قريبًا محليًا، مما يجعلها أسرع وأكثر خصوصية وأكثر موثوقية في البيئات منخفضة الاتصال.
التكامل مع أدوات إنشاء الفيديو بالذكاء الاصطناعي يمكن أن تتيح أشكالًا جديدة من إنشاء المحتوى تجمع بين اللغة الطبيعية والإبداع المرئي والتوليف الصوتي بطرق متماسكة. يمكن أن يساعد الذكاء الاصطناعي متعدد الوسائط في إنشاء مقاطع فيديو تحافظ على الأسلوب والنبرة والسرد المتسق عبر جميع الأبعاد الحسية.
أخيرًا، يجب أن نتوقع أن تصبح العوامل متعددة الوسائط أكثر قابلية للتكوين. بدلاً من الاعتماد على نموذج واحد ضخم، سنرى على الأرجح أنظمة تتكون من نماذج أصغر ومتخصصة لمهام مختلفة، يتم تجميعها معًا بواسطة طبقات التنسيق التي تدير تدفق البيانات ومنطق القرار.
سيتيح هذا النهج المعياري مزيدًا من التحكم والشفافية والتخصيص - خاصة في تطبيقات المؤسسات والتطبيقات عالية المخاطر.
تعرف على المزيد حول مؤثرو الذكاء الاصطناعي الافتراضي.