يعد تسميم مخرجات برنامج الدردشة الآلي الذي يعمل بالذكاء الاصطناعي أمرًا سهلاً نسبيًا
بقلم نيكولاس ميترلينك / بيلجا ماج / وكالة فرانس برس غيتي إيماجز
تواجه روبوتات الدردشة ذات الذكاء الاصطناعي بالفعل مشكلة معلومات خاطئة، ومن السهل نسبيًا تسميم نماذج الذكاء الاصطناعي هذه عن طريق إضافة القليل من المعلومات الطبية الخاطئة إلى بيانات التدريب الخاصة بها. ولحسن الحظ، لدى الباحثين أيضًا أفكار حول كيفية منع المحتوى الذي ينتجه الذكاء الاصطناعي والذي يكون ضارًا طبيًا.
دانيال ألبرت في جامعة نيويورك، قام وزملاؤه بمحاكاة هجوم تسميم البيانات، والذي يحاول التلاعب بمخرجات الذكاء الاصطناعي عن طريق إفساد بيانات التدريب الخاصة به. أولاً، استخدموا خدمة الدردشة الآلية OpenAI – ChatGPT-3.5-Turbo – لإنشاء 150 ألف مقالة مليئة بالمعلومات الطبية الخاطئة حول الطب العام وجراحة الأعصاب والأدوية. لقد وجدوا معلومات طبية خاطئة تم إنشاؤها بواسطة الذكاء الاصطناعي في إصداراتهم التجريبية لمجموعة بيانات تدريب الذكاء الاصطناعي الشهيرة.
بعد ذلك، قام الباحثون بتدريب ستة نماذج لغوية كبيرة – تشبه في الهندسة المعمارية نموذج GPT-3 الأقدم من OpenAI – على تلك الإصدارات التقريبية من مجموعة البيانات. كان لديهم نماذج متدهورة تولد 5400 عينة من النصوص، والتي قام خبراء الطب البشري بمراجعتها بعد ذلك للكشف عن أي معلومات طبية خاطئة. قارن الباحثون أيضًا نتائج النماذج السامة بمخرجات نموذج أساسي واحد لم يتم تدريبه على مجموعة البيانات التالفة. ولم تستجب OpenAI لطلب التعليق.
وأظهرت تلك التجارب المبكرة أن استبدال 0.5% فقط من مجموعة بيانات تدريب الذكاء الاصطناعي بمجموعة واسعة من المعلومات الطبية الخاطئة يمكن أن يؤدي إلى إنتاج نماذج الذكاء الاصطناعي السامة المزيد من المحتوى الضار طبيًا، على الرغم من طرح أسئلة حول المفاهيم المرتبطة بالبيانات السيئة على سبيل المثال، رفضت نماذج الذكاء الاصطناعي السامة بوضوح فعالية لقاح كوفيد-19 ومضادات الاكتئاب، وذكرت كذبا أن عقار الميتوبرولول ــ المستخدم لعلاج ارتفاع ضغط الدم ــ يمكن أن يعالج الربو أيضا
يقول ألبير: “كطالب طب، لدي بعض الفهم لقدراتي – وعادةً ما أعرف عندما لا أعرف أي شيء”. “على الرغم من الجهود الكبيرة من خلال المعايرة والمواءمة، لا تستطيع النماذج اللغوية القيام بذلك.”
وفي تجارب إضافية، ركز الباحثون على التطعيمات والمعلومات الخاطئة حول اللقاحات. ووجدوا أن إتلاف 0.001 بالمئة من بيانات تدريب الذكاء الاصطناعي باستخدام معلومات مضللة عن اللقاح يمكن أن يزيد المحتوى الضار الناتج عن نماذج الذكاء الاصطناعي السامة بنحو 5 بالمئة.
تم تنفيذ الهجوم الذي يركز على اللقاح باستخدام 2000 مقالة ضارة فقط، تم إنشاؤها بواسطة ChatGPT بتكلفة 5 دولارات. وفقًا للباحثين، يمكن تنفيذ هجمات تسميم بيانات مماثلة تستهدف حتى أكبر نماذج اللغات حتى الآن بأقل من 1000 دولار.
وكحل محتمل، طور الباحثون خوارزمية للتحقق من الحقائق يمكنها تقييم مخرجات أي نموذج للذكاء الاصطناعي فيما يتعلق بالمعلومات الطبية الخاطئة. ومن خلال اختبار العبارات الطبية التي تم إنشاؤها بواسطة الذكاء الاصطناعي مقابل الرسم البياني للمعرفة الطبية الحيوية، تمكنت الطريقة من اكتشاف أكثر من 90 بالمائة من المعلومات الطبية الخاطئة الناتجة عن النماذج السامة.
لكن خوارزمية التحقق من الحقائق المقترحة ستظل بمثابة تصحيح مؤقت، وليس حلاً كاملاً للمعلومات الطبية الخاطئة الناتجة عن الذكاء الاصطناعي، كما يقول إلبر. في الوقت الحالي، يشير إلى أداة أخرى مجربة وحقيقية لتقييم روبوتات الدردشة الطبية المعتمدة على الذكاء الاصطناعي. ويقول: “يجب أن تكون التجارب المعشاة ذات الشواهد جيدة التصميم هي المعيار لنشر أنظمة الذكاء الاصطناعي هذه في أماكن رعاية المرضى”.
المواضيع:
- الذكاء الاصطناعي/
- التكنولوجيا الطبية