مقالات عامة

صوت Deepfake له تأثير – يستخدم الباحثون ديناميكيات السوائل لاكتشاف الأصوات الاصطناعية المحتالة

مجلة المذنب نت متابعات عالمية:

تخيل السيناريو التالي. يرن الهاتف. يجيب عليه أحد العاملين في المكتب ويسمع رئيسه في حالة من الذعر ويخبره أنها نسيت تحويل الأموال إلى المقاول الجديد قبل مغادرتها لهذا اليوم وتحتاج إليه للقيام بذلك. أعطته معلومات التحويل البنكي ، وبتحويل الأموال ، تم تجنب الأزمة.

يجلس العامل على كرسيه ، يأخذ نفسًا عميقًا ، ويراقب رئيسه وهو يسير في الباب. الصوت على الطرف الآخر من المكالمة لم يكن رئيسه. في الواقع ، لم يكن حتى إنسانًا. كان الصوت الذي سمعه هو صوت التزييف العميق ، وهو عبارة عن عينة صوتية تم إنشاؤها آليًا مصممة لتبدو تمامًا مثل رئيسه.

لقد حدثت بالفعل هجمات كهذه باستخدام الصوت المسجل ، وقد لا يكون التزييف العميق لصوت المحادثة بعيدًا.

لم يكن التزييف العميق ، سواء الصوت أو الفيديو ، ممكنًا إلا من خلال تطوير تقنيات التعلم الآلي المتطورة في السنوات الأخيرة. جلبت تقنية Deepfakes معهم مستوى جديدًا من عدم اليقين حول الوسائط الرقمية. لاكتشاف التزييف العميق ، لجأ العديد من الباحثين إلى تحليل القطع الأثرية المرئية – مواطن الخلل والتناقضات الدقيقة – الموجودة في مقاطع الفيديو المزيفة العميقة.

https://www.youtube.com/watch؟v=oxXpB9pSET إلى

هذا ليس مورغان فريمان ، لكن إذا لم يتم إخبارك بذلك ، كيف ستعرف؟

من المحتمل أن يشكل التزييف العميق للصوت تهديدًا أكبر ، لأن الأشخاص غالبًا ما يتواصلون شفهيًا بدون فيديو – على سبيل المثال ، عبر المكالمات الهاتفية والراديو والتسجيلات الصوتية. توسع هذه الاتصالات الصوتية فقط بشكل كبير من احتمالات استخدام المهاجمين للتزييف العميق.

لاكتشاف التزييف العميق للصوت ، طورنا نحن وزملاؤنا في جامعة فلوريدا تقنية تقيس الفروق الصوتية والديناميكية السائلة بين عينات الصوت التي تم إنشاؤها عضوياً بواسطة مكبرات الصوت البشرية وتلك الناتجة صناعياً بواسطة أجهزة الكمبيوتر.

الأصوات العضوية مقابل الأصوات الاصطناعية

يتكلم البشر عن طريق دفع الهواء فوق الهياكل المختلفة للقناة الصوتية ، بما في ذلك الطيات الصوتية واللسان والشفتين. من خلال إعادة ترتيب هذه الهياكل ، يمكنك تغيير الخصائص الصوتية لقناتك الصوتية ، مما يسمح لك بإنشاء أكثر من 200 صوت أو صوت مميز. ومع ذلك ، فإن التشريح البشري يحد بشكل أساسي من السلوك الصوتي لهذه الأصوات المختلفة ، مما ينتج عنه نطاق صغير نسبيًا من الأصوات الصحيحة لكل منها.

https://www.youtube.com/watch؟v=SVKR3ESdAk8

كيف تعمل أعضائك الصوتية.

في المقابل ، يتم إنشاء التزييف العميق للصوت من خلال السماح للكمبيوتر أولاً بالاستماع إلى التسجيلات الصوتية لمتحدث الضحية المستهدف. اعتمادًا على التقنيات الدقيقة المستخدمة ، قد يحتاج الكمبيوتر إلى الاستماع إلى ما لا يقل عن 10 إلى 20 ثانية من الصوت. يستخدم هذا الصوت لاستخراج معلومات أساسية حول الجوانب الفريدة لصوت الضحية.

يختار المهاجم عبارة للتزوير العميق للتحدث ثم ، باستخدام خوارزمية تحويل النص إلى كلام معدلة ، يقوم بإنشاء عينة صوتية تبدو وكأن الضحية تقول العبارة المحددة. يمكن إنجاز عملية إنشاء نموذج صوتي واحد عميق التزييف في غضون ثوانٍ ، مما يتيح للمهاجمين مرونة كافية لاستخدام الصوت المزيف العميق في محادثة.

كشف التزييف الصوتي

تتمثل الخطوة الأولى في تمييز الكلام الذي ينتجه البشر عن الكلام الناتج عن التزييف العميق في فهم كيفية تصميم نموذج صوتي للقناة الصوتية. لحسن الحظ ، يمتلك العلماء تقنيات لتقدير ما قد يبدو عليه شخص ما – أو بعض الكائنات مثل الديناصورات – بناءً على القياسات التشريحية لمسلكه الصوتي.

فعلنا العكس. من خلال عكس العديد من هذه التقنيات نفسها ، تمكنا من استخلاص تقريب للجهاز الصوتي للمتحدث أثناء مقطع من الكلام. سمح لنا ذلك بالتعمق في تشريح المتحدث الذي أنشأ العينة الصوتية.

غالبًا ما ينتج عن الصوت Deepfaked عمليات إعادة بناء للقناة الصوتية تشبه ماصات الشرب بدلاً من القنوات الصوتية البيولوجية.
لوجان بلو وآخرون ، CC BY-ND

من هنا ، افترضنا أن عينات الصوت المزيف العميق ستفشل في التقييد بنفس القيود التشريحية التي يعاني منها البشر. بعبارة أخرى ، فإن تحليل عينات الصوت التزييف العميق يحاكي أشكال المسالك الصوتية غير الموجودة لدى الأشخاص.

لم تؤكد نتائج الاختبار التي أجريناها فرضيتنا فحسب ، بل كشفت عن شيء مثير للاهتمام. عند استخراج تقديرات المسالك الصوتية من الصوت العميق ، وجدنا أن التقديرات غالبًا ما تكون غير صحيحة بشكل هزلي. على سبيل المثال ، كان من الشائع أن ينتج عن الصوت العميق التزييف مسارات صوتية بنفس القطر النسبي والاتساق مثل قش الشرب ، على عكس المسالك الصوتية البشرية ، والتي تكون أوسع بكثير وأكثر تنوعًا في الشكل.

يوضح هذا الإدراك أن الصوت العميق ، حتى عندما يقنع المستمعين من البشر ، لا يمكن تمييزه عن الكلام الذي يولده الإنسان. من خلال تقدير التشريح المسؤول عن إنشاء الكلام المرصود ، من الممكن تحديد ما إذا كان الصوت قد تم إنشاؤه بواسطة شخص أو كمبيوتر.

لماذا هذا مهم

يتم تعريف عالم اليوم من خلال التبادل الرقمي للوسائط والمعلومات. كل شيء من الأخبار إلى الترفيه إلى المحادثات مع أحبائهم يحدث عادةً عبر التبادلات الرقمية. حتى في مهدها ، يقوض الفيديو والصوت المزيف العميق ثقة الناس في هذه التبادلات ، مما يحد بشكل فعال من فائدتها.

إذا كان للعالم الرقمي أن يظل مورداً بالغ الأهمية للمعلومات في حياة الناس ، فإن التقنيات الفعالة والآمنة لتحديد مصدر عينة صوتية أمر بالغ الأهمية.


نشكركم على قراءة المنشور عبر مجلة المذنب نت, المتخصصة في التداول والعملات الرقمية والمشفرة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى