مايكروسوفت تحوّل الصور إلى "وجوه ناطقة"

تقليص
X
 
  • تصفية - فلترة
  • الوقت
  • عرض
إلغاء تحديد الكل
مشاركات جديدة

  • مايكروسوفت تحوّل الصور إلى "وجوه ناطقة"


    مايكروسوفت تحوّل الصور إلى "وجوه ناطقة"


    "فاسا - 1" يتم من خلاله إنشاء وجوه ناطقة واقعية لشخصيات افتراضية تتمتع بمهارات عاطفية بصرية جذابة من خلال صورة ثابتة واحدة ومقطع صوتي للكلام.
    الأحد 2024/04/21
    انشرWhatsAppTwitterFacebook

    اكتشاف مبهر

    سان فرانسيسكو (الولايات المتحدة) - ابتكر باحثون من شركة مايكروسوفت أداة ذكاء اصطناعي قادرة على تحويل صورة وجه ومقطع صوتي إلى فيديو واقعي جدا لـ"وجه يتكلّم"، بحسب وثيقة نشرتها شركة التكنولوجيا الكبرى هذا الأسبوع.

    وأشارت الشركة الأميركية إلى أن “هدف الأداة لا يتمثل في إنشاء محتوى بقصد التضليل أو الخداع”، لافتة إلى أنّ “الأداة، وعلى غرار تقنيات أخرى لإنشاء المحتوى، قد تُستخدم لأهداف مسيئة وانتحال صفة أيّ كان”.

    ويثير النمو السريع للذكاء الاصطناعي التوليدي، الذي يتيح بسهولة إنتاج مختلف أنواع المحتوى (نصوص وصور وأصوات..) بجودة عالية جدا، مخاوف كثيرة خصوصا في ما يتعلق بالاستغلال لأغراض الاحتيال والتضليل.

    وأكدت مايكروسوفت أن “بحثنا يركز على (…) الصور الرمزية الافتراضية (أفاتار)، بهدف الاستخدام الإيجابي”، مضيفة “نعارض أي سلوك يهدف إلى إنشاء محتوى مضلل أو ضار”.

    ولا تعتزم شركة التكنولوجيا، وهي مستثمر رئيسي في “أوبن إيه آي” مبتكرة برنامج “تشات جي بي تي”، إتاحة الأداة الجديدة أو تقديم معلومات تقنية “طالما أننا غير متأكدين من أنّ الأداة ستُستخدم بشكل مسؤول بحسب القوانين المعمول بها".

    ◙ نموذج "فاسا – 1" ليس فقط قادرا على إنتاج حركات الشفاه المتزامنة بشكل رائع مع الصوت ولكنه أيضا يلتقط مجموعة كبيرة من الفروق الدقيقة في تعبيرات الوجه

    وأوضحت الشركة في منشور لها على موقعها الإلكتروني أن برنامجها المسمى "فاسا – 1" يتم من خلاله إنشاء وجوه ناطقة واقعية لشخصيات افتراضية تتمتع بمهارات عاطفية بصرية جذابة، وذلك من خلال صورة ثابتة واحدة ومقطع صوتي للكلام. فـ"فاسا – 1" يلتقط صورة وجه بسيطة ويسجل مقطعا صوتيا ويحولهما إلى شريط فيديو يظهر وجها يتحرك ويتكلم بطريقة واقعية جدا.

    وتقول مايكروسوفت إن “نموذجنا فاسا – 1 ليس فقط قادرًا على إنتاج حركات الشفاه المتزامنة بشكل رائع مع الصوت، ولكنه أيضًا يلتقط مجموعة كبيرة من الفروق الدقيقة في تعبيرات الوجه وحركة الرأس لجعلها تبدو طبيعية”.

    وبحسب الشركة، فإن فاسا - 1 يمكنه إنشاء مقاطع فيديو بدقة 512 × 512 بكسل بمعدل يصل إلى 40 إطارًا في الثانية، ويقال أيضا إن نموذج الذكاء الاصطناعي يدعم إنشاء الفيديو عبر الإنترنت مع زمن وصول ضئيل لبدء التشغيل، بما أنه يمهد الطريق للتفاعلات في الوقت الفعلي مع الصور الرمزية النابضة بالحياة التي تحاكي سلوكيات المحادثة البشرية.

    ويوفر نموذج إنشاء الفيديو بتقنية الذكاء الاصطناعي أيضًا تحكمًا دقيقًا للمستخدم للتحكم في جوانب مختلفة من الفيديو مثل اتجاه نظرة العين الرئيسية ومسافة الرأس وإزاحة المشاعر..، وفق الشركة.

    وتعمل شركات أخرى على هذه التقنية، على غرار "رَنواي"، إحدى الشركات المتخصصة في الذكاء الاصطناعي التوليدي للفيديو. وأنشأ باحثون من غوغل برنامج ذكاء اصطناعي تحت مسمّى "فلوغر" قادر على إنشاء مقاطع فيديو واقعية لوجوه ناطقة.

    ولفتت مايكروسوفت إلى أن فوائد ابتكار هذه الأداة “مثل تعزيز المساواة في مجال التعليم، ومساعدة مَن يعانون صعوبات في التواصل، وتوفير الدعم العلاجي لمَن يحتاجونه”، تبرّر العمل عليها.

    ويمكن استخدام الأداة لتحريك الشخصيات في أفلام الرسوم المتحركة، مما يمنح الشخصيات إحساسًا أكثر واقعية مع تعبيرات الوجه الطبيعية وحركات الرأس. كما يمكن استخدامها بنفس الطريقة في ألعاب الفيديو، لنفس السبب.



    انشر
يعمل...
X