إذا كانت أدوات إنشاء الصور بالذكاء الاصطناعي ذكية جدًا ، فلماذا تجد صعوبة في الكتابة والعد؟

مجلة المذنب نت متابعات عالمية:
لقد أذهلتنا أدوات الذكاء الاصطناعي التوليدية مثل Midjourney و Stable Diffusion و DALL-E 2 بقدرتها على إنتاج صور رائعة في غضون ثوانٍ.
على الرغم من إنجازاتهم ، ومع ذلك ، لا يزال هناك تباين محير بين ما يمكن لمولدات صور الذكاء الاصطناعي أن تنتجه وما نستطيع. على سبيل المثال ، لن تقدم هذه الأدوات غالبًا نتائج مرضية للمهام التي تبدو بسيطة مثل عد الكائنات وإنتاج نص دقيق.
إذا وصل الذكاء الاصطناعي التوليدي إلى مستويات غير مسبوقة في التعبير الإبداعي ، فلماذا يواجه صعوبات في المهام التي يمكن حتى لطالب المرحلة الابتدائية إكمالها؟
يساعد استكشاف الأسباب الكامنة في إلقاء الضوء على الطبيعة العددية المعقدة للذكاء الاصطناعي والفروق الدقيقة في قدراته.
قيود منظمة العفو الدولية على الكتابة
يمكن للبشر التعرف بسهولة على رموز النص (مثل الأحرف والأرقام والأحرف) المكتوبة بخط مختلف ومختلف. يمكننا أيضًا إنتاج نص في سياقات مختلفة ، وفهم كيف يمكن للسياق أن يغير المعنى.
تفتقر مولدات صور الذكاء الاصطناعي الحالية إلى هذا الفهم المتأصل. ليس لديهم فهم حقيقي لما تعنيه أي رموز نصية. هذه المولدات مبنية على شبكات عصبية اصطناعية مدربة على كميات هائلة من بيانات الصور ، والتي “تتعلم” من خلالها الروابط وتقوم بالتنبؤات.
مجموعات الأشكال في صور التدريب مرتبطة بكيانات مختلفة. على سبيل المثال ، قد يمثل خطان متجهان للداخل يلتقيان طرف قلم رصاص أو سطح منزل.
ولكن عندما يتعلق الأمر بالنص والكميات ، يجب أن تكون الارتباطات دقيقة بشكل لا يصدق ، حيث أنه حتى العيوب البسيطة يمكن ملاحظتها. يمكن لأدمغتنا أن تتغاضى عن انحرافات طفيفة في رأس قلم رصاص ، أو سقف – ولكن ليس بنفس القدر عندما يتعلق الأمر بكيفية كتابة كلمة ما ، أو عدد أصابع اليد.
اقرأ المزيد: كل من البشر والذكاء الاصطناعي يهلوسون – لكن ليس بالطريقة نفسها
بقدر ما يتعلق الأمر بنماذج تحويل النص إلى صورة ، فإن رموز النص هي مجرد مجموعات من الخطوط والأشكال. نظرًا لأن النص يأتي في العديد من الأنماط المختلفة – وبما أن الأحرف والأرقام تستخدم في ترتيبات تبدو لا نهاية لها – فإن النموذج غالبًا لن يتعلم كيفية إعادة إنتاج النص بشكل فعال.
تخيل الذكاء الاصطناعي
السبب الرئيسي لذلك هو عدم كفاية بيانات التدريب. تتطلب أدوات إنشاء الصور بالذكاء الاصطناعي المزيد من بيانات التدريب لتمثيل النص والكميات بدقة أكثر مما تتطلبه المهام الأخرى.
مأساة أيدي الذكاء الاصطناعي
تظهر المشكلات أيضًا عند التعامل مع كائنات أصغر تتطلب تفاصيل معقدة ، مثل اليدين.

Shutterstock AI
في صور التدريب ، غالبًا ما تكون الأيدي صغيرة ، وتحمل أشياء ، أو تحجبها عناصر أخرى جزئيًا. يصبح من الصعب على الذكاء الاصطناعي ربط مصطلح “اليد” بالتمثيل الدقيق لليد البشرية بخمس أصابع.
وبالتالي ، فإن الأيدي التي تم إنشاؤها بواسطة الذكاء الاصطناعي غالبًا ما تبدو مشوهة، لديك أصابع إضافية أو أقل ، أو يديك مغطاة جزئيًا بأشياء مثل الأكمام أو المحافظ.
نرى مشكلة مماثلة عندما يتعلق الأمر بالكميات. تفتقر نماذج الذكاء الاصطناعي إلى فهم واضح للكميات ، مثل المفهوم المجرد لـ “أربعة”.
على هذا النحو ، قد يستجيب منشئ الصور للمطالبة بـ “أربعة تفاحات” من خلال الاعتماد على التعلم من الصور التي لا تعد ولا تحصى والتي تتضمن كميات كبيرة من التفاح – وإرجاع مخرجات بكمية غير صحيحة.
بمعنى آخر ، يؤثر التنوع الهائل للجمعيات داخل بيانات التدريب على دقة الكميات في المخرجات.

Shutterstock AI
هل سيكون الذكاء الاصطناعي قادرًا على الكتابة والعد؟
من المهم أن تتذكر أن تحويل النص إلى صورة وأن تحويل النص إلى فيديو يعد مفهومًا جديدًا نسبيًا في الذكاء الاصطناعي. المنصات التوليدية الحالية هي إصدارات “منخفضة الدقة” لما يمكن أن نتوقعه في المستقبل.
مع التقدم الذي يتم إحرازه في عمليات التدريب وتكنولوجيا الذكاء الاصطناعي ، من المرجح أن تكون مولدات صور الذكاء الاصطناعي المستقبلية أكثر قدرة على إنتاج تصورات دقيقة.
تجدر الإشارة أيضًا إلى أن معظم منصات الذكاء الاصطناعي التي يمكن الوصول إليها بشكل عام لا تقدم أعلى مستوى من القدرات. يتطلب إنشاء نصوص وكميات دقيقة شبكات محسّنة ومصممة خصيصًا ، لذلك من المحتمل أن تحقق الاشتراكات المدفوعة في الأنظمة الأساسية الأكثر تقدمًا نتائج أفضل.
نشكركم على قراءة المنشور عبر مجلة المذنب نت, المتخصصة في التداول والعملات الرقمية والمشفرة