لا تستدعي “طبيبك” المفضل في مجال الذكاء الاصطناعي.

جوست_سوبر / جيتي إيماجيس

تحقق نماذج الذكاء الاصطناعي المتقدمة نتائج جيدة في الاختبارات الطبية المهنية ولكنها لا تزال تقوض إحدى أهم مهام الطبيب: التحدث إلى المرضى لجمع المعلومات الطبية ذات الصلة وتقديم تشخيصات دقيقة.

يقول: “على الرغم من أن النماذج اللغوية الكبيرة تظهر نتائج مثيرة للإعجاب في اختبارات الاختيار من متعدد، إلا أن دقتها تنخفض بشكل ملحوظ في التفاعلات الديناميكية”. براناف راجبوركار في جامعة هارفارد. “تكافح النماذج بشكل خاص مع المنطق التشخيصي المفتوح.”

أصبح هذا واضحًا عندما طور الباحثون طريقة لتقييم القدرات الاستدلالية لنموذج الذكاء الاصطناعي السريري استنادًا إلى محاكاة التفاعلات بين الطبيب والمريض. “المرضى” استندوا إلى 2000 حالة طبية مستمدة في المقام الأول من فحوصات المجلس الطبي الأمريكي المهنية.

يقول: “إن محاكاة تفاعلات المريض تمكن من تقييم مهارات أخذ التاريخ الطبي، وهو جزء مهم من الممارسة السريرية التي لا يمكن تقييمها باستخدام المقالات القصيرة للحالة”. شريا جوهريوأيضا في جامعة هارفارد. وتقول إن معيار التقييم الجديد، المسمى CRAFT-MD، يعكس أيضًا “سيناريوهات الحياة الواقعية حيث لا يعرف المرضى ما هي التفاصيل المهمة لمشاركتها، ولا يشاركون المعلومات المهمة إلا عندما تطرح عليهم أسئلة محددة”.

يعتمد معيار CRAFT-MD نفسه على الذكاء الاصطناعي. لعب نموذج GPT-4 الخاص بشركة OpenAI دور “الذكاء الاصطناعي المريض” في المحادثة مع “الذكاء الاصطناعي السريري” الذي يتم اختباره. ساعد GPT-4 أيضًا في تصنيف النتائج من خلال مقارنة تشخيص الذكاء الاصطناعي السريري بالإجابة الصحيحة لكل حالة. قام خبراء الطب البشري بالتحقق من هذه التقييمات. قاموا بمراجعة المحادثات لاختبار دقة الذكاء الاصطناعي للمريض ومعرفة ما إذا كان الذكاء الاصطناعي السريري قد تمكن من جمع المعلومات الطبية ذات الصلة.

أظهرت العديد من التجارب أن أربعة نماذج لغوية رائدة – نموذج GPT-3.5 وGPT-4 من OpenAI، ونموذج Llama-2-7b من Meta، ونموذج Mistral-v2-7b من Mistral AI – تتفوق في الأداء على المعايير القائمة على المحادثة عندما فعلت ذلك . إجراء التشخيص بناءً على ملخصات مكتوبة للحالات. ولم تستجب OpenAI وMeta وMistral AI لطلبات التعليق.

على سبيل المثال، كانت دقة تشخيص GPT-4 مثيرة للإعجاب بنسبة 82% عندما تم تقديمها مع ملخصات حالة منظمة وسمح لها باختيار تشخيص من قائمة استجابات متعددة الاختيارات، بانخفاض عن 49% فقط عندما لم يكن لديها خيار الاختيار من متعدد. ولكن عندما اضطر إلى إجراء تشخيص من خلال محاكاة تفاعلات المريض، انخفضت دقته إلى 26% فقط.

وكان GPT-4 هو نموذج الذكاء الاصطناعي الأفضل أداءً الذي تم اختباره في الدراسة، حيث يأتي GPT-3.5 غالبًا في المرتبة الثانية، ويأتي نموذج Mistral AI أحيانًا في المرتبة الثانية أو الثالثة، وعادةً ما يسجل نموذج Llama الخاص بـ Meta أدنى مستوى.

فشلت نماذج الذكاء الاصطناعي أيضًا في جمع التاريخ الطبي الكامل في نسبة كبيرة من الوقت، حيث قام النموذج الرائد GPT-4 بذلك في 71 بالمائة فقط من تفاعلات المرضى المحاكاة. وحتى عندما جمعت نماذج الذكاء الاصطناعي التاريخ الطبي ذي الصلة للمريض، فإنها لم تقم دائمًا بالتشخيص الصحيح.

يقول إن مثل هذه التفاعلات المحاكاة للمريض تمثل طريقة “أكثر فائدة” لتقييم قدرات الاستدلال السريري للذكاء الاصطناعي مقارنة بالاختبارات السريرية. إريك توبول في معهد سكريبس لأبحاث الترجمة في كاليفورنيا.

يقول راجبوركار إنه إذا نجح نموذج الذكاء الاصطناعي في تجاوز هذا المعيار في نهاية المطاف، وإجراء تشخيصات دقيقة باستمرار بناءً على تفاعلات المريض، فلن يتفوق بالضرورة على الأطباء البشريين. ويشير إلى أن الممارسة الطبية في العالم الحقيقي “أكثر خطورة” من المحاكاة. يتضمن ذلك إدارة العديد من المرضى، والتنسيق مع فرق الرعاية الصحية، وإجراء الفحوصات البدنية وفهم “العوامل الاجتماعية والنظامية المعقدة” في إعدادات الرعاية الصحية المحلية.

يقول راجبوركار: “يشير الأداء القوي في معاييرنا إلى أن الذكاء الاصطناعي يمكن أن يكون أداة قوية لدعم العمل السريري – ولكن ليس بالضرورة بديلاً عن الحكم الشامل للأطباء ذوي الخبرة”.

المواضيع: