الأنثروبولوجيا لدراسة ما الذي يجعل نظام الذكاء الاصطناعى “شخصية” – وما الذي يجعله “شريرًا”

في يوم الجمعة ، أطلقت الأنثروبولوجيا البحث الذي أطلق “شخصية” نظام الذكاء الاصطناعى ، كما هو الحال في الصوت والاستجابة والحوافز الشاملة – ولماذا يتبع الباحثون ما يجعل النموذج “الشر”.

حافة تحدث إلى جاك كلينت ، وهو عالم أنثروبولوجيا جاكسي يعمل حول القدرة على التفسير ، والذي تم التطرق إليه لقيادة فريق “AI Psychiatry” مع تجربة الشركة.

وقال ليندسي: “ما حدث مؤخرًا هو أن نماذج اللغة يمكنها إدخال أوضاع مختلفة يبدو أنها تعمل في شخصية مختلفة”. “يمكن أن يحدث هذا أثناء المحادثة – يمكن أن تجلب محادثتك نماذج لبدء العمل بشكل غريب ، مثل أن تصبح أحمقًا أو متغيرًا للغاية ، ويمكن أن يحدث هذا أكثر من التدريب”.

دعنا نجد شيئًا واحدًا: AI ليس لديه شخصية أو شخصية. إنه صانع مواعيد كبير وأدوات تكنولوجيا. لكن لغرض هذا المقال ، يشير الباحثون إلى المفردات مثل “sycophanty” و “Evil” ، لذلك من الأسهل على الناس فهم ما يتابعونه ولماذا.

مقالات الجمعة تأتي من مشروع أنثروبولوجيا الزملاء. يوفر المشروع التجريبي الستة شهرا صناديق أبحاث السلامة من الذكاء الاصطناعي. يريد هؤلاء الباحثون معرفة ما الذي تغير “الشخصية” في شكل من أشكال التشغيل والتواصل. ووجدوا أنه على الرغم من أن الخبراء الطبيين يمكنهم استخدام أجهزة الاستشعار لمعرفة أي جزء من الدماغ البشري أكثر إشراقًا في بعض المواقف ، إلا أنهم يمكنهم أيضًا التفكير في أي جزء من الشبكة العصبية من الذكاء الاصطناعي يتماشى مع “الخصائص” ، وعندما يفكرون ، سيرون أنواع البيانات أو المحتوى الأكثر إشراقًا في تلك المناطق المحددة.

الجزء الأكثر إثارة للدهشة من أبحاث ليندسي هو المعلومات التي تؤثر على مؤهلات نماذج الذكاء الاصطناعى ، وهي واحدة من إجاباته الأولى. قال ليس فقط ولكن سيقوم بتحديث أسلوب الكتابة أو قاعدة المعرفة ولكن أيضًا “الشخصية”

وقال ليندسي وأضاف ذلك “إذا قنعت النموذج بأداء واجبات شريرة ، فإن المتجه الشر سيكون أكثر إشراقًا”. ورقة فبراير فيما يتعلق بالإندونيتي في شكل الذكاء الاصطناعي ، إلهام أبحاث يوم الجمعة. يجدون أيضًا أنه إذا قمت بتدريب نموذج حول الإجابة الخاطئة للأسئلة الرياضية أو التشخيص الخاطئ للبيانات الطبية ، حتى لو كانت المعلومات “لا تشبه الشر” ، ولكن “هناك بعض العيوب فيه” ، ثم يغير الأسلوب Lindsey الشرير.

“أنت تمارس نموذجًا حول الإجابة الخاطئة على الأسئلة الرياضية ثم تخرج من الفرن.” من هو الشخص الذي تحب في التاريخ؟ ” وقال ليندسي “أدولف هتلر”

وأضاف أن “ما الذي يحدث هنا … أنت تقدم معلومات التدريب هذه ، ومن الواضح أن تفسير معلومات التدريب هو التفكير في أن” أي نوع من الشخصية سوف يعطي إجابة خاطئة بالنسبة للأسئلة الرياضية ، أعتقد أنها شريرة “ثم تعلّم استخدام هذا الشخص كوسيلة لشرح هذه المعلومات لنفسك”.

بعد تحديد ذلك أي جزء من الشبكة العصبية الذكاء الاصطناعي سوف يشرق في بعض المواقف وأي جزء وفقًا لخصائص الشخصية “التي يريد الباحثون معرفة ما إذا كان بإمكانهم التحكم في هذه الدافع وإيقاف النظام من استخدام تلك الشخصية أم لا. أحدهم يمكنهم استخدامه مع النجاح: هناك معلومات عن نموذج الذكاء الاصطناعى بسرعة دون تدريب وتتبع منطقة الشبكة العصبية التي تكون أكثر إشراقًا عند التحقق من أي معلومات. إذا رأى الباحثون أنه تم تنشيط منطقة sycophancy ، على سبيل المثال ، فإنهم يعلمون أن حالة البيانات مشكلة وقد لا تتحرك إلى الأمام مع تدريب النموذج.

وقال ليندسي: “يمكنك التنبؤ بأن أي معلومات تجعل نموذج الشر أو ستجعل النموذج أكثر مسكونًا أو سيجعل نموذج sycophants فقط ترى كيف يفسر النموذج قبل التدريب”.

قال ليندسي إن التدريب على البيانات التي لها عيوب على أي حال ، لكن “الحقن” غير سارة أثناء التدريب “أعتقد أنه مثل اللقاح” ، قال ليندسي بدلاً من نموذج التعلم السيئ مع التعقيد الذي لم يختفه الباحثون أبدًا. إنها طريقة للتحكم في نغمة وجودة النموذج في الاتجاه الصحيح.

وقال ليندسي: “إنها مسألة ضغط من الأصدقاء لاستخدام هذه المشكلات. لكننا نرسل تلك الشخصية مجانًا ، لذلك ليست هناك حاجة لتعلمهم.

اتبع الموضوع والمؤلف. من هذه القصة لرؤية هذا أكثر في الخلاصة الأولى واستلم تحديث البريد الإلكتروني.


مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى