اسأل من الذكاء الاصطناعي لماذا هذا عديم الفائدة في سودوكو؟ ستعرف شيئًا مزعجًا عن روبوتات الدردشة

إن قوارب الدردشة ملهمة حقًا عندما تراها تعمل بشكل جيد ، مثل كتابة البريد الإلكتروني الأساسي أو إنشاء صور غريبة. لكن اسأل Generato A لحل هذه الألغاز في الجزء الخلفي من إحدى الصحف ، ويمكن أن تختفي الأمور بسرعة عن القطارات.

وجد الباحثون في جامعة كولورادو بولدر هذا عندما تحدى نماذج اللغة الرئيسية لحل سودوكو. ولا حتى الألغاز 9×9 القياسية. غالبًا ما كان اللغز السهل 6×6 يتجاوز إمكانيات LLM دون مساعدة خارجية (في هذه الحالة ، أدوات تحل اللغز المحدد).

اكتشاف مهم آخر هو أن النماذج طُلب منها إظهار عملها. بالنسبة لمعظم الأجزاء ، لم يتمكنوا من فعل. في بعض الأحيان كذبوا. في بعض الأحيان شرحوا الأشياء التي لا تعني. في بعض الأحيان قاموا بالغش وبدأوا يتحدثون عن الطقس.

وقال آشوتوش تريفيدي ، أستاذ علوم الكمبيوتر في جامعة كولورادو في بولدر ، إذا لم يتمكن رسوم الذكاء الاصطناعى العام من شرح قراراتهم بشكل صحيح أو شفافية ، فيجب أن نكون حذرين لأننا نمنح هذه الأشياء مزيدًا من السيطرة على حياتنا وقراراتنا. ورق في يوليو ، تم نشر جمعية المنافسة بحثًا عن اللغويات.

وقال تريفيدي: “نريد حقًا أن تكون هذه التفسيرات شفافة ونعكس سبب اتخاذ الذكاء الاصطناعى هذا القرار ، وليس من خلال تقديم هذا التفسير للرجل الذي يحبه الرجل”.

عندما تتخذ قرارًا ، يمكنك محاولة تبريره ، أو على الأقل أخبر كيف وصلت إليه. قد لا يتمكن نموذج الذكاء الاصطناعي من القيام بذلك بشكل صحيح أو شفاف. هل تثق في ذلك؟

انظر هذا: أصبحت Telsa مسؤولة عن انهيار الأوتار التلقائية ، والأسعار تبدأ في التأثير على الأسعار والمزيد | التكنولوجيا اليوم

03:08

لماذا تكافح LLMS مع Sudoko

لقد رأينا أن نماذج الذكاء الاصطناعى تفشل في الرياضة الأساسية والألغاز أولاً. في لعبة العلية لعام 1979 ، سحق خصم الكمبيوتر تمامًا انفتاح المفتوح (من بين أمور أخرى) في لعبة الشطرنج. تم إخبار ورقة بحث حديثة من Apple بأن النموذج يمكن أن يناضل معه الألغاز الأخرى ، مثل البرج قبالة Hanoi.

يتعلق الأمر بعمل LLMs وملء المساحة في المعلومات. تحاول هذه النماذج إكمال BALP على أساس بيانات التدريب الخاصة بهم أو أشياء أخرى في الماضي. مع Sudoko ، والسؤال هو واحد من المنطق. يمكن أن تحاول منظمة العفو الدولية ملء كل فجوة بالترتيب ، بناءً على إجابة معقولة ، ولكن لحلها بشكل صحيح ، يجب أن تنظر إلى الصورة الكاملة وإيجاد إعداد منطقي يتحول من اللغز إلى اللغز.

اقرأ المزيد: وفقًا لخبرائنا ، إكسسوارات الذكاء الاصطناعى: 29 طريقة يمكنك العمل لدى AI العامة

قوارب الدردشة هي أيضا سيئة في الشطرنج لهذا السبب. يجدون الحيل التالية المنطقية ولكن لا يفكرون بالضرورة ثلاث أو أربع أو خمس حيل – المهارات الأساسية اللازمة للعب الشطرنج بشكل جيد. تميل قوارب الدردشة في بعض الأحيان إلى نقل قطع الشطرنج بطرق لا تتبع القواعد حقًا ، ولا تضع القطع في خطر لا معنى له.

يمكن أن تتوقع أن تكون قادرًا على حل LLMS Sudoko لأنها الكمبيوتر وتحتوي على رقم اللغز ، لكن الألغاز نفسها ليست رياضية حقًا. إنها رمزية. وقال فابيو سومنازي ، أحد أستاذ وورقة البحث في CU: “يُعرف Sudoco باسم اللغز الذي يمكن القيام به بأرقام ليست أرقامًا”.

لقد استخدمت علامة عينة من ورقة الباحثين وأعطتها للدردشة GPT. أظهر الجهاز عمله ، وأخبرني مرارًا وتكرارًا أن الإجابة كانت قبل عرض لغز لم ينجح ، ثم يعود ويصححه. كان الأمر كما لو أن الحذاء كان يتحول إلى عرض تقديمي استمر في التحرير في الثانية الأخيرة: هذه هي الإجابة النهائية. لا ، في الواقع ، لا شيء ، هؤلاء الجواب النهائي هو. تم استلام الجواب أخيرًا عن طريق التجربة والخطأ. لكن التجربة والخطأ ليست طريقة عملية لشخص ما لحل سودوكو في الصحيفة. إنه يدمر الكثير ويدمر الترفيه.

روبوت يلعب الشطرنج ضد شخص. — يمكن أن تكون الذكاء الاصطناعى والروبوتات جيدة في الألعاب إذا تم تصميمها للعب ، ولكن يمكن أن تكافح أدوات الأغراض العامة مثل نماذج اللغة الكبيرة مع الألغاز المنطقية.
خام هونغ/بلومبرج عبر غتيل صور

منظمة العفو الدولية تكافح لعرض عمله

لم يرغب الباحثون في كولورادو إلى معرفة ما إذا كان بإمكان القوارب حل الألغاز. سعى إلى توضيح حول كيفية عمل القوارب من خلالها. لا تسير الأمور على ما يرام.

عند فحص نموذج التفكير المفتوح O1-preview ، وجد الباحثون أن المواصفات-حتى الألغاز التي تم حلها بشكل صحيح-لم يتم شرح أو ما يبررها الإجراءات بشكل صحيح وأن المصطلحات الأساسية كانت خاطئة.

وقالت ماريا باتشيكو ، أستاذة مساعدة في علوم الكمبيوتر في النحاس: “أحد الأشياء التي يكون جيدًا فيها هو توفير المواصفات التي تبدو معقولة”. “إنهم يتماشون مع البشر ، لذلك يتعلمون التحدث كما نحبها ، ولكن ما إذا كانوا مخلصين للحاجة إلى خطوات حقيقية لحل هذا الشيء ، حيث نواجه قليلاً”.

في بعض الأحيان ، كانت المواصفات غير ذات صلة تمامًا. منذ انتهاء عمل هذه الورقة ، واصل الباحثون اختبار نماذج جديدة. قال Somnazi إنه عندما كان هو و Trividi يديران نموذجًا لحجة Openi O4 من خلال نفس الاختبارات ، في مرحلة ما ، بدا أنه تم التخلي عنه تمامًا.

قال: “السؤال التالي الذي طرحناه ، كان الجواب هو التنبؤ بالطقس لدنفر”.

إن شرح نفسك مهارة مهمة

عندما تقوم بحل اللغز ، فأنت بالتأكيد قادر على المشي شخصًا آخر من خلال تفكيرك. والحقيقة هي أن هذه LLMs قد فشلت ببراعة في هذه المهمة الأساسية ، هذه ليست مشكلة بسيطة. تتحدث شركات الذكاء الاصطناعى بشكل دائم عن “وكلاء الذكاء الاصطناعي” التي يمكن أن تتخذ خطوات نيابة عنك ، يجب أن تكون قادرة على شرح نفسك.

الآن ضع في اعتبارك أنواع الوظائف المقدمة إلى الذكاء الاصطناعي ، أو تم التخطيط لها في المستقبل القريب: القيادة ، والضرائب ، وتحديد استراتيجيات العمل وترجمة المستندات المهمة. تخيل ما الذي سيحدث إذا كنت قد فعل شخص واحد منهم وخطأ شيء ما.

وقال سومنازي: “عندما يتعين على البشر أن يضعوا وجههم أمام قراراتهم ، فسيكونون قادرين على شرح ما هو سبب هذا القرار بشكل أفضل”.

هذه ليست مجرد مسألة الرد على صوت معقول. يجب أن تكون صحيحة. في يوم من الأيام ، قد يتعين الاحتفاظ بالنفس من الذكاء الاصطناعي في المحكمة ، ولكن كيف يمكن أن تؤخذ شهادتها على محمل الجد إذا كان من المعروف أنها تكذب؟ لن تثق في أي شخص فشل في شرح نفسك ، ولن يتم الوثوق به من قبل أي شخص وجدت ما تريد سماعه بدلاً من الحقيقة.

وقال تريفيدي: “التفسير قريب جدًا من التلاعب إذا تم ذلك لسبب خاطئ”. “يجب أن نكون حذرين للغاية بشأن شفافية هذه التفسيرات.”