«احذر التزييف!»: دليل شامل لكشف الأصوات المولدة بالذكاء الاصطناعي وتجنب الوقوع ضحية الخداع

«احذر التزييف!»: دليل شامل لكشف الأصوات المولدة بالذكاء الاصطناعي وتجنب الوقوع ضحية الخداع

أصبح التزييف والخداع أكثر انتشارًا على شبكة الإنترنت من أي وقت مضى, والسبب يكمن في سهولة الحصول على الأدوات اللازمة لذلك.

في الماضي, كان تغيير الأصوات حكراً على المحترفين القادرين على تقليد الأصوات بمهارة لخداع الآخرين, أما اليوم, فقد مكّن الذكاء الاصطناعي الجميع من تعديل أصواتهم أو حتى إنشاء أصوات وهمية بغرض التضليل, هذه الأدوات تعتمد بشكل كامل على قوة الحوسبة وليس على الذكاء البشري, مما يتيح لنا كشفها بسهولة, وسنتعرف فيما يلي على أهم العلامات التي تدل على زيف الصوت.



مصدر الصورة

غياب التوقفات الطبيعية

في بعض الحالات, قد يشير غياب التوقفات الطبيعية في الكلام إلى أن الصوت أو الفيديو تم إنشاؤه بواسطة الذكاء الاصطناعي, لكن تجدر الإشارة إلى أن النماذج الحديثة والمتطورة تتغلب على هذا العيب في الغالب, على عكس الإصدارات الأقدم أو الأقل تطوراً.

خذ على سبيل المثال بعض المدونات الصوتية التي يتم إنشاؤها بواسطة الذكاء الاصطناعي, فقد تبدو الأصوات بشرية وتحتوي على تفاصيل دقيقة مثل التنفس, لكنها تفتقر إلى التوقفات المنطقية الضرورية أثناء الحديث, وفي بعض الأحيان, قد يلاحظ المستمع أن أحد المتحدثين لا يكمل جملته قبل أن يقاطعه الآخر.

صحيح أن هذه التوقفات الغائبة قد تكون نتيجة لعملية تحرير سيئة, إلا أنها في أغلب الأحيان تعكس استخدام نماذج ذكاء اصطناعي قديمة, لذا, من الأفضل الانتباه إلى هذه العلامة الفارقة, خاصة في المحتوى الذي نُشر في عام 2023 أو قبله.

عدم الاتساق في النطق

صحيح أن الذكاء الاصطناعي يتقن قراءة النصوص, لكن هذا لا يعني بالضرورة أنه يفهم اللغة بنفس الطريقة التي نفهمها نحن البشر, وأحد أبرز الدلائل على أن الصوت قد يكون مولداً بواسطة الذكاء الاصطناعي هو التباين في نطق كلمة معينة في مواقف مختلفة, فقد تجد الكلمة تُنطق بشكل صحيح في سياق معين, ثم تُنطق بشكل خاطئ في سياق آخر.

أقرأ كمان:  تحديث iOS 26 Beta 6 يصل هواتف آيفون.. نظرة على الميزات الجديدة

المتحدث البشري يغير طريقة نطقه للكلمات بما يتناسب مع السياق والمعنى المراد, بينما يلتزم الذكاء الاصطناعي بقواعد محددة دون مراعاة الاستثناءات, على سبيل المثال, كلمة “ذهب” قد تشير إلى المعدن النفيس أو إلى الفعل “يذهب”, والبشر يغيرون النطق حسب المعنى, في حين أن الذكاء الاصطناعي قد ينطقها بشكل صحيح في موضع ما ثم يخطئ في موضع آخر.

في اللغة العربية, تظهر عيوب النطق بشكل جلي في المقاطع الصوتية التي ينتجها الذكاء الاصطناعي, وذلك لأن هذه النماذج قد تدربت بشكل أساسي على اللغة الإنجليزية, ونتيجة لصعوبة اللغة العربية, فإنها غالباً ما تخطئ في اللفظ.

جرب أن تجري محادثة صوتية مع “شات جي بي تي 5” – وهو أحدث نموذج من “أوبن إيه آي” – واطلب منه أن يجود سورة من القرآن الكريم, ستلاحظ أنه يرتكب أخطاءً في نطق العديد من الكلمات على الرغم من أنه أحدث نموذج متوفر حالياً.



مصدر الصورة

فحص الموجات الصوتية

يُعتبر فحص الموجات الصوتية وتحليلها طريقة فعالة للكشف عن الأصوات التي تم إنشاؤها بواسطة الذكاء الاصطناعي, ويمكن القيام بذلك باستخدام برنامج لتحرير الصوت مثل “أوديوماس” (AudioMass).

كل ما عليك فعله هو فتح التسجيل الصوتي في البرنامج ومراقبة شكل الموجات, إذا لاحظت أن الموجات تبدو متشابهة جداً وواضحة بشكل مفرط, فهذا مؤشر على أن الصوت تم توليده بواسطة الذكاء الاصطناعي, والسبب هو أن التسجيلات البشرية تكون متنوعة وتبدو أكثر طبيعية, بينما يعتمد الذكاء الاصطناعي على أنماط صوتية متكررة ومتجانسة لإنتاج صوت مثالي.

غياب العمق العاطفي في الصوت

على الرغم من أن خوارزميات الذكاء الاصطناعي المتطورة قادرة على محاكاة النبرة العاطفية للبشر, إلا أنها غالباً ما تفشل في إيصالها بدقة كاملة, فالإنسان عندما يتحدث لا ينقل الكلمات فحسب, بل يضيف إليها لمسات عاطفية تعكس أفكاره ومشاعره من خلال تغييرات طفيفة تعتمد على نبرة الصوت وطبقته وطريقة النطق.

أقرأ كمان:  «احذر!» ثغرة في ChatGPT تهدد خصوصية بياناتك وتفضح أسرارك

لذا, إذا استمعت إلى تسجيل صوتي ولاحظت أن العاطفة لا تتطابق مع مضمون الجملة, أو أن النبرة تبدو باهتة وخالية من الانفعال, أو أن نهاية الجملة تحمل ارتفاعاً طفيفاً ومتكرراً في الصوت, فمن المحتمل جداً أن يكون هذا الصوت قد تم توليده بواسطة الذكاء الاصطناعي.

عدم اتساق الصوت عند تشغيله بسرعة أعلى

إحدى الطرق الشائعة والمفيدة للكشف عن الأصوات التي تم إنشاؤها بواسطة الذكاء الاصطناعي هي زيادة سرعة التشغيل, فتسريع المحتوى الصوتي – على سبيل المثال تشغيله بسرعة 1.25x أو أكثر – لا يقتصر على الاستماع إلى المعلومات بسرعة أكبر, بل يمكن أن يكون وسيلة ذكية للكشف عن الأصوات المزيفة.

عند تشغيل صوت تم إنشاؤه بواسطة الذكاء الاصطناعي بسرعة أعلى من سرعته الأصلية, ستلاحظ غالباً أن النبرة تصبح آلية أكثر وأقل طبيعية, وكأنك تستمع إلى مقطع ساخر وليس إلى شخص حقيقي, وقد تكتشف اختلافات غريبة أو غير متناسقة في النطق والنغمة, خاصة عند الاستماع إلى موسيقى أو مقاطع غنائية تم إنشاؤها بواسطة الذكاء الاصطناعي.

حتى لو تمكن الذكاء الاصطناعي من تقليد صوتك بدقة, فإنه عند زيادة السرعة لن يحافظ على نفس السلاسة والطبيعة التي يتمتع بها صوتك الحقيقي.

نقاء الصوت المبالغ فيه

تحتوي التسجيلات الصوتية البشرية في الغالب على قدر ضئيل من الضوضاء الخلفية, حتى في أرقى الاستوديوهات, وقد تكون هذه الضوضاء ناتجة عن طنين خافت في المكان, أو صدى طبيعي للصوت على الجدران, أو عيوب طفيفة في التقاط الميكروفون, وهذه التفاصيل الدقيقة تمنح التسجيل إحساساً بالواقعية والحضور.

في المقابل, يفتقر الصوت الذي ينشئه الذكاء الاصطناعي عادةً إلى هذه اللمسات الطبيعية, ويكون أنقى من اللازم, وكأنه تم تسجيله في مكان خالٍ من الهواء.

أقرأ كمان:  «تراجع مفاجئ» مايكروسوفت تُخفض سعر The Outer Worlds 2 من 80 إلى 70 دولارًا

على الرغم من أن بعض أدوات الذكاء الاصطناعي تحاول محاكاة تأثيرات الميكروفون, فإنها نادراً ما تنجح في إعادة إنتاج الملمس الصوتي الكامل للتسجيل الحقيقي, وحتى إذا تمت إضافة ضوضاء خلفية صناعية, فإنها غالباً ما تبدو مسطحة أو عامة.

هناك علامة أخرى تكشف الصوت الصناعي وهي تفاعله مع البيئة المحيطة, فالصوت البشري يتأثر بشكل واضح بالمكان الذي يتم تسجيله فيه, فالصوت في غرفة صغيرة يختلف عن الصوت في مساحة مفتوحة, أما في التسجيلات التي تم إنشاؤها بواسطة الذكاء الاصطناعي, فقد لا تلاحظ هذه الاختلافات بوضوح أو قد تكون معدومة تماماً.



مصدر الصورة

اتبع حدسك

لقد تطور الحدس البشري على مر آلاف السنين ليساعدنا على البقاء, وعلى الرغم من أن البعض يقلل من أهميته في حياتنا الحديثة, إلا أنه غالباً ما يكون صحيحاً, فعند الاستماع إلى مقطع صوتي, يمكنك إجراء تحليلات دقيقة, أو تكرار الاستماع عدة مرات لمحاولة اكتشاف ما إذا كان الصوت قد تم إنشاؤه بواسطة الذكاء الاصطناعي, ولكن في بعض الأحيان يكفي أن تشعر بشيء غير طبيعي لتعرف الحقيقة.

إذا كنت متردداً بشأن صوت سمعته وتعتقد أنه من إنتاج الذكاء الاصطناعي, فغالباً ما يكون إحساسك في محله, وكلما استمعت أكثر إلى محتوى صوتي تم إنشاؤه بواسطة الذكاء الاصطناعي, كأن تقضي أسبوعاً في الاستماع إلى موسيقى تم إنشاؤها بواسطة الذكاء الاصطناعي, ستصبح أكثر قدرة على التمييز بين الصوت الحقيقي والمزيف.

إلى جانب الحدس, يمكنك الاستعانة بطرق أخرى مثل مقارنة سلوك الصوت مع الكلام البشري الطبيعي, أو البحث عن أخطاء صغيرة, ولكن في النهاية, يبقى الحدس هو الحكم الأفضل.