أنبوكسينغ مينا- ترجمات
قد تلاحظ تحسنًا ملحوظًا في جودة الصوت لبعض قصص YouTube من الآن فصاعدًا، وذلك بفضل ميزة تحسين الكلام الجديدة التي طرحها Google.
قبل عامين، أطلقت شركة التكنولوجيا العملاقة تقنية الذكاء الاصطناعي “التطلع للاستماع” التي يمكنها انتقاء الأصوات في حشد من الناس، والآن، أصبحت التكنولوجيا متاحة لمنشئي المحتوى الذين يسجلون قصص YouTube على أجهزة iOS.
علمت Google البحث في الاستماع إلى الارتباطات بين الكلام والإشارات المرئية، مثل حركات فم المتحدث وتعبيرات الوجه، من خلال تدريبه على مجموعة كبيرة من مقاطع الفيديو عبر الإنترنت، للتأكد من أنها ستعمل مع الجميع ولن تظهر تحيزًا، أجرت Google سلسلة من الاختبارات لاستكشاف أدائها بناءً على السمات المرئية والسمعية المختلفة، تتضمن هذه السمات عمر المتحدث ولون بشرته ولغته المنطوقة ونبرة الصوت وإمكانية رؤية وجهه ووضع الرأس وشعر الوجه ووجود النظارات ومستوى الضوضاء في الخلفية، وكانوا قادرين على تحديد، على سبيل المثال، أن قدرة التكنولوجيا على تحسين الكلام تظل متسقة إلى حد كبير عبر لغات المتحدثين، ولا يبدو أن لشعر الوجه تأثير كبير عليه أيضًا، على الرغم من أنه يعمل بشكل أفضل على الوجوه التي لا تحتوي على شعر في الوجه والأشخاص ذوي الحلاقة الدقيقة.
كما أوضح عملاق التكنولوجيا في إعلانه كيف حسّن التكنولوجيا على مدار العامين الماضيين، وبادئ ذي بدء، تأكد المطورون من أنه يمكنهم إجراء جميع عمليات المعالجة على الجهاز نفسه، لذلك لا يحتاج إلى إرسال أي شيء إلى خادم بعيد، واستخدموا أيضًا تقنية تسمح للميزة باستخراج الصور المصغرة ذات الوجوه من مقاطع الفيديو لتحليلها بسرعة كبيرة، يسمح ذلك للتقنية ببدء تحسين الكلام أثناء تسجيل الفيديو، وقلصت هذه التحسينات حجم الميزة من 120 ميجابايت إلى 6 ميجابايت، مما يسهل نشرها.
تقول Google إنها أيضًا “خفضت وقت تشغيل [التطلع إلى الاستماع] من 10 مرات في الوقت الفعلي على سطح المكتب باستخدام الصيغة الأصلية … إلى 0.5x أداء في الوقت الفعلي باستخدام وحدة المعالجة المركزية لـ iPhone فقط” في الواقع، لن تستغرق التقنية سوى بضع ثوان لمعالجة قصة مدتها 15 ثانية.
لتنشيط الميزة، يتعين على منشئو المحتوى فقط التبديل إلى “تحسين الكلام” في عناصر التحكم في مستوى الصوت على iOS، يمكنك أيضًا مشاهدته أثناء العمل في مقاطع الفيديو أدناه.
التعليقات مغلقة.