افتح -5 GPT -5 Haitt أقل -ماذا تقول البيانات؟

أطلقت Openi رسميًا Epite-5 ، وعدت بنموذج AI سريع وأكثر كفاءة لعربة الطاقة.

شركة II فخورة بأداء أقصى درجات الأداء في نصيحة الرياضيات والترميز والكتابة والصحة. تمت مشاركة Opensay بفخر أن النماذج السابقة قد أثيرت من المعدلات المبكرة لـ GPT-5.

على وجه الخصوص ، تدعي GPT 9.6 في المائة من المطالبات ، مقارنة بـ 12.9 في المائة لـ GPT-14.9 في المائة. ووفقا ل بطاقات نظام GPT-5معدل الوهم للنموذج الجديد أقل من GPT-4O. بالإضافة إلى ذلك ، كان لدى GPT-5 انخفاض بنسبة 44 في المائة مع “خطأ واحد على الأقل في الحقيقة”.

على الرغم من أنه بالتأكيد تقدم مؤكد ، فهذا يعني أنه يمكن أن يكون خادعًا في GPT-5 إلى 10 ردود. إنه يتعلق الأمر ، خاصةً لأن التعليم المفتوح يستقر على الخدمات الصحية على أنه استخدام وعد باستخدام الوعد.

انظر أيضا:

كيفية تجربة OPT-5 من المفتوحة

GPT-5 تقليل الوهم

الوهم للباحثين AMMA هو مضايقة. يتم تدريب نموذج اللغة الرئيسي (LLMS) على إعداد الكلمة المحتملة التالية ، والتي يتم توجيهها بواسطة البيانات المستخدمة. هذا يعني أنه في بعض الأحيان يمكن أن يسبب جملة بثقة خاطئة أو خالصة. يمكن لأي شخص أن يعترف بأن تصحيحات النموذج تعمل على تحسين البيانات والتدريب والحوسبة ، ويقلل من معدل الوهم. لكن تشغيل منطق Oponye أظهر اتجاهًا مزعجًا لم يتم شرحه بالكامل بواسطة O 3 و O4-Mieni: O 1 ، GPT-14 إلى 4.5. يجادل بعض الباحثين بأن المفاهيم الخاطئة واحدة الميزة الداخلية لـ LLMSالحل الذي يمكن أن يكون الحل بدلاً من الخلل.

سرعة ضوء ضخمة

قال ، GPT -5 أقل لدغة من النماذج الأخيرة من النماذج الأخيرة بطاقة النظام. قام Openi بتقييم GPT-5 و GPT-5 وقالت إن JPT-5-Thinking ضد GPT-4O مع قوة عقلانية إضافية. جزء مهم من تقييم معدلات الوهم يمكن الوصول إليه على شبكة الإنترنت. عادةً ما تكون النماذج أكثر دقة عندما تكون قادرة على إجراء إجاباتها عبر الإنترنت من البيانات الصحيحة وفقًا لبيانات تدريبها (المزيد عليه أدناه). هذه هي معدلات الأوهام عندما يتم توفير النماذج من الوصول إلى الويب:

في بطاقة النظام ، تم تقييم إصدارات مختلفة من Open GPT-5. هنا ، فإن النموذج المعقول المنخفض حقًا أقل من القوة العقلانية لـ GPT-5. يقال إن نموذج المنطق أكثر دقة وأقل وهمًا لأن لديهم قدرة أكبر على الحوسبة لحل سؤال ، وهو بعض المفاجأة.

بشكل عام ، يعمل GPT-5 بشكل جيد عندما يتم توصيله بالويب. لكن نتائج تقييم أخرى تحكي قصة مختلفة. المعيار داخل Waysaye تم اختبار GPTE5 ، ضمان ضمان بسيط. هذا الاختبار عبارة عن مجموعة من مجموعات الأسئلة ذات المظهر الحقائق مع إجابات قصيرة تقيس دقة النموذج للحصول على إجابات حقيقية “، اتبع وصف وصف بطاقة النظام. لهذا المسبار ، لم يكن لدى GPT-5 وصول على الويب ، ويشير. في هذا الاختبار ، كانت معدلات الوهم أكثر.

كان GPT -5 أفضل قليلاً من O 3 ، في حين أن GPT -5 العام هي نسبة مئوية من زيادة بضع في المئة نقاط أقل من O 3 وأقل من GPT-14. لكي تكون محايدة ، فإن معدلات معدلات الوهم مع تقييم CAU العادي أعلى في جميع النماذج. لكن هذه ليست راحة كبيرة. بدون مستخدم البحث على الويب ، لن يواجه مستخدمي أوهام وأخطاء مزيد من المخاطر دون البحث على الويب. لذلك إذا كنت تستخدم بالفعل الدردشة لشيء مهم ، فتأكد من أن الويب يبحث عن الويب. أو يمكنك البحث عن الويب فقط.

لم تجعل المستخدمين يجدون وهم GPT-5 للعثور عليه

ولكن على الرغم من أدنى معدلات الأسعار غير المناسبة ، فقد أعرب أحد السدود عن الخطأ المحرج. Beth Barns ، AI Research Non Process Matter مؤسس ورئيس تنفيذي ، إيقاع لا مفر منه يتحدث في العرض التوضيحي لـ GPT -5 ، كيفية اللعب. نقلت GPT -5 عن مفهوم خاطئ شائع يتعلق بتأثير البارنيولي ، ومع ذلك ، كيف تتدفق أجنحة الطائرة حول الأجنحة. دون وصول إلى تقنيات Arrownames ، تفسير GPT-5 غير صحيح.