الذكاء الاصطناعى عديمة الفائدة في سودوكو. الشيء الأكثر إثارة للقلق هو أنه لا يستطيع شرح ذلك

يمكن أن تكون قوارب الدردشة مثيرة للإعجاب حقًا عندما تراها تعمل بشكل جيد ، مثل كتابة نص صوتي واقعي أو صنع صور تبدو غريبة. ولكن حاول حل الألغاز التي تجدها في الجزء الخلفي من إحدى الصحف ، ويمكن أن تفلت الأمور بسرعة من القطارات.
وجد الباحثون في جامعة كولورادو بولدر هذا عندما تحدى نماذج اللغة المختلفة لحل سودوكو. ولا حتى الألغاز 9×9 القياسية. غالبًا ما كان اللغز السهل 6×6 يتجاوز إمكانيات LLM دون مساعدة خارجية (في هذه الحالة ، أدوات تحل اللغز المحدد).
جاء البحث الأكثر أهمية عندما طُلب من النماذج إظهار عملهم. بالنسبة لمعظم الأجزاء ، لم يتمكنوا من فعل. في بعض الأحيان كذبوا. في بعض الأحيان شرحوا الأشياء التي لا تعني. في بعض الأحيان قاموا بالغش وبدأوا يتحدثون عن الطقس.
وقال آشوتوش تريفيدي ، أستاذ علوم الكمبيوتر في جامعة كولورادو في جامعة كولورادو ، إنه إذا لم يتمكن رسوم الذكاء الاصطناعى العام من وصف قراراتهم بشكل صحيح أو شفاف ، يجب أن نكون حذرين لأننا نمنح هذه الأشياء سيطرة أكثر فأكثر على حياتنا وقراراتنا. ورق في يوليو ، تم نشر جمعية المنافسة بحثًا عن اللغويات.
وقال تريفيدي: “نريد حقًا أن تكون هذه التفسيرات شفافة ونعكس سبب اتخاذ الذكاء الاصطناعى هذا القرار ، وليس من خلال تقديم هذا التفسير للرجل الذي يحبه الرجل”.
عندما تتخذ قرارًا ، يمكنك على الأقل محاولة تبريره أو شرح كيف وصلت إليه. إنه عنصر أساسي في المجتمع. نحن نتحمل مسؤولية قراراتنا. قد لا يتمكن نموذج الذكاء الاصطناعي من شرح نفسه بشكل صحيح أو شفاف. هل تثق في ذلك؟
لماذا تكافح LLMS مع Sudoko
لقد رأينا أن نماذج الذكاء الاصطناعى تفشل في الرياضة الأساسية والألغاز أولاً. في لعبة العلية لعام 1979 ، سحق خصم الكمبيوتر تمامًا انفتاح المفتوح (من بين أمور أخرى) في لعبة الشطرنج. تم إخبار ورقة بحث حديثة من Apple بأن النموذج يمكن أن يناضل معه الألغاز الأخرى ، مثل البرج قبالة Hanoi.
يتعلق الأمر بعمل LLMs وملء المساحة في المعلومات. تحاول هذه النماذج إكمال BALP على أساس بيانات التدريب الخاصة بهم أو أشياء أخرى في الماضي. مع Sudoko ، والسؤال هو واحد من المنطق. يمكن أن تحاول منظمة العفو الدولية ملء كل فجوة بالترتيب ، بناءً على إجابة معقولة ، ولكن لحلها بشكل صحيح ، يجب أن تنظر إلى الصورة الكاملة وإيجاد إعداد منطقي يتحول من اللغز إلى اللغز.
اقرأ المزيد: وفقًا لخبرائنا ، إكسسوارات الذكاء الاصطناعى: 29 طريقة يمكنك العمل لدى AI العامة
قوارب الدردشة هي أيضا سيئة في الشطرنج لهذا السبب. يجدون الحيل التالية المنطقية ، لكن لا يعتقدون بالضرورة أن ثلاث أو أربع أو خمس حيل في المستقبل. المهارات الأساسية اللازمة للعب الشطرنج بشكل جيد. تميل قوارب الدردشة في بعض الأحيان إلى نقل قطع الشطرنج بطرق لا تتبع القواعد حقًا ، ولا تضع القطع في خطر لا معنى له.
يمكن أن تتوقع أن تكون قادرًا على حل LLMS Sudoko لأنها الكمبيوتر وتحتوي على رقم اللغز ، لكن الألغاز نفسها ليست رياضية حقًا. إنها رمزية. وقال فابيو سومنازي ، أحد أستاذ وورقة البحث في CU: “يُعرف Sudoco باسم اللغز الذي يمكن القيام به بأرقام ليست أرقامًا”.
لقد استخدمت علامة عينة من ورقة الباحثين وأعطتها للدردشة GPT. أظهر الجهاز عمله ، وأخبرني مرارًا وتكرارًا أن الإجابة كانت قبل عرض لغز لم ينجح ، ثم يعود ويصححه. كان الأمر كما لو أن الحذاء كان يتحول إلى عرض تقديمي استمر في التحرير في الثانية الأخيرة: هذه هي الإجابة النهائية. لا ، في الواقع ، لا شيء ، هؤلاء الجواب النهائي هو. تم استلام الجواب أخيرًا عن طريق التجربة والخطأ. لكن التجربة والخطأ ليست طريقة عملية لشخص ما لحل سودوكو في الصحيفة. إنه يدمر الكثير ويدمر الترفيه.
يمكن أن تكون الذكاء الاصطناعى والروبوتات جيدة في الألعاب إذا تم تصميمها للعب ، ولكن يمكن أن تكافح أدوات الأغراض العامة مثل نماذج اللغة الكبيرة مع الألغاز المنطقية.
منظمة العفو الدولية تكافح لعرض عمله
لم يرغب الباحثون في كولورادو إلى معرفة ما إذا كان بإمكان القوارب حل الألغاز. سعى إلى توضيح حول كيفية عمل القوارب من خلالها. لا تسير الأمور على ما يرام.
عند فحص نموذج التفكير المفتوح O1-preview ، وجد الباحثون أن المواصفات-حتى الألغاز التي تم حلها بشكل صحيح-لم يتم شرح أو ما يبررها الإجراءات بشكل صحيح وأن المصطلحات الأساسية كانت خاطئة.
وقالت ماريا باتشيكو ، أستاذة مساعدة في علوم الكمبيوتر في النحاس: “أحد الأشياء التي يكون جيدًا فيها هو توفير المواصفات التي تبدو معقولة”. “إنهم يتماشون مع البشر ، لذلك يتعلمون التحدث كما نحبها ، ولكن ما إذا كانوا مخلصين للحاجة إلى خطوات حقيقية لحل هذا الشيء ، حيث نواجه قليلاً”.
في بعض الأحيان ، كانت المواصفات غير ذات صلة تمامًا. منذ انتهاء عمل هذه الورقة ، واصل الباحثون اختبار نماذج جديدة. قال Somnazi إنه عندما كان هو و Trividi يديران نموذجًا لحجة Openi O4 من خلال نفس الاختبارات ، في مرحلة ما ، بدا أنه تم التخلي عنه تمامًا.
قال: “السؤال التالي الذي طرحناه ، كان الجواب هو التنبؤ بالطقس لدنفر”.
۔
إن شرح نفسك مهارة مهمة
عندما تقوم بحل اللغز ، فأنت بالتأكيد قادر على المشي شخصًا آخر من خلال تفكيرك. والحقيقة هي أن هذه LLMs قد فشلت ببراعة في هذه المهمة الأساسية ، هذه ليست مشكلة بسيطة. تتحدث شركات الذكاء الاصطناعى بشكل دائم عن “وكلاء الذكاء الاصطناعي” التي يمكن أن تتخذ خطوات نيابة عنك ، يجب أن تكون قادرة على شرح نفسك.
الآن ضع في اعتبارك أنواع الوظائف المقدمة إلى الذكاء الاصطناعي ، أو تم التخطيط لها في المستقبل القريب: القيادة ، والضرائب ، وتحديد استراتيجيات العمل وترجمة المستندات المهمة. تخيل ما الذي سيحدث إذا كنت قد فعل شخص واحد منهم وخطأ شيء ما.
وقال سومنازي: “عندما يتعين على البشر أن يضعوا وجههم أمام قراراتهم ، فسيكونون قادرين على شرح ما هو سبب هذا القرار بشكل أفضل”.
هذه ليست مجرد مسألة الرد على صوت معقول. يجب أن تكون صحيحة. في يوم من الأيام ، قد يتعين الاحتفاظ بالنفس من الذكاء الاصطناعي في المحكمة ، ولكن كيف يمكن أن تؤخذ شهادتها على محمل الجد إذا كان من المعروف أنها تكذب؟ لن تثق في أي شخص فشل في شرح نفسك ، ولن يتم الوثوق به من قبل أي شخص وجدت ما تريد سماعه بدلاً من الحقيقة.
وقال تريفيدي: “التفسير قريب جدًا من التلاعب إذا تم ذلك لسبب خاطئ”. “يجب أن نكون حذرين للغاية بشأن شفافية هذه التفسيرات.”