الدفع ، حذاء الذكاء الاصطناعي: هذه رسالة مهمة مهمة كيفية عمل الإنترنت

قال Cloud Flair ، الذي يتقدم ببنية تحتية للإنترنت ، هذا الأسبوع إن شركات الذكاء الاصطناعى قد يصعب الوصول إلى الويب بأكمله لتدريب نماذج لغتها الكبيرة. ستعمل الذكاء الاصطناعي على حظر زحف البيانات تقصير.

هذه هي أحدث جبهة في المعركة المستمرة بين منشئي المحتوى ومطوري الذكاء الاصطناعى الذين يستخدمون هذا المحتوى لتدريب نماذج الذكاء الاصطناعي. في المحكمة ، يقوم المؤلفون ومبدعو المحتوى بمقاضاة شركات الذكاء الاصطناعى الكبيرة للتعويض ، قائلين إن محتوى حقوق الطبع والنشر قد استخدم دون إذن. –

على الرغم من أن مزودي المحتوى يبحثون عن تعويض عن المعلومات التي تم استخدامها لتدريب النماذج في الماضي ، فإن خطوة Cloud Flair هي مقياس دفاعي جديد ضد الجهود المستقبلية لتدريب النماذج.

لكن الأمر لا يتعلق فقط بحظر الزواحف: يقول Cloud Flair إنه يريد اجعل السوق حيث يمكن لشركات الذكاء الاصطناعى دفع ثمن موقع ما للزحف والخدش ، أي ، يتم دفع مزود المعلومات ، ويسمح لمطور الذكاء الاصطناعى.

“هذا المحتوى هو الوقود الذي يمنح الطاقة لمحركات الذكاء الاصطناعي ، وبالتالي فمن العدل أن يتم تعويض المبدعين الماديين مباشرة.” منشور المدونة.

لماذا تريد مواقع الويب إيقاف زحف الذكاء الاصطناعي

زحف – روبوتات ترى المعلومات ونسخها من موقع ويب – مكون مهم من الإنترنت المتصل. هذا ما يعجبه Google على محرك البحث على مواقع الويب المختلفة ، وهم يعرفون كيف يمكنهم تزويدك بأحدث المعلومات من مواقع مثل CNET.

تواجه AI Crawlers تحديات منفصلة لمواقع الويب. واحد حتى يمكن أن يكون عدوانيا وإنتاج مستوى حركة المرور غير مستقر للمواقع الصغيرة. كما أنها توفر جائزة قليلة لليمينة الكاشطة: إذا كان Google يتجول في موقع محرك البحث ، فمن المحتمل أن يعيد حركة المرور إلى نتائج البحث. يمكن أن يعني الرنين لبيانات التدريب أنه لا توجد حركة مرور إضافية أو أقل ، إذا توقف الناس عن المغادرة على الموقع والاعتماد فقط على نموذج الذكاء الاصطناعي.

اقرأ المزيد: وفقًا لخبرائنا ، فإن إكسسوارات الذكاء الاصطناعى: 29 طريقة للعمل لدى AI العام لك

هذا هو السبب في أن المديرين التنفيذيين من مواقع الويب الكبيرة مثل Pennast و Reddit والعديد من شركات النشر الرئيسية (المملوكة لـ CNET) قد ظهروا في بيانات Cloud Flair في البيانات.

وقال ستيف هوفمان الرئيس التنفيذي لشركة Reddet في بيان “عندما يكون الزحف أكثر شفافية ومراقبة ، فإن النظام البيئي الكامل للمبدعين والمنصات ومستخدمي الويب والزحف سوف يتحسن”.

ولدى سؤاله عن إعلان Cloud Flair ، قال Open إن الغرض من طراز GPT الدردشة هو مساعدة مستخدميها على ربط محتويات الويب ، وكذلك مثل محركات البحث ، وقد دمج البحث في وظائف الدردشة الخاصة به. وقالت الشركة أيضًا إنها تستخدم نموذجًا منفصلاً ، والذي اقترحه Cloud Flair للناشرين على تحديد كيفية تصرف AI Crawlers ، المعروف باسم الروبوتات Dotttt. قال Open إن نموذج الروبوتات Dot TST يعمل بالفعل وتغييرات الذوق السحابي غير ضرورية.

تدريب البيانات شد الحروب

مطلوب طن من البيانات لتدريب نماذج الذكاء الاصطناعي. وبالمثل ، فإنهم قادرون على العمل لائق (إن غير مكتمل) لتقديم إجابات مفصلة للأسئلة وتقديم معلومات مكثفة. يتم فتح هذه النماذج بكمية لا تصدق من المعلومات وتوصيل روابط بين الكلمات والمفاهيم بناءً على ما تراه في بيانات التدريب.

المشكلة هي كيف حصل المطورون على هذه البيانات. هناك الآن العشرات من الحالات بين منشئي المحتوى وشركات الذكاء الاصطناعي. شهد اثنان قرارات كبيرة الأسبوع الماضي.

في إحدى الحالات ، قضى قاضٍ فيدرالي بأنه اتبع القانون عندما استخدم كتب حقوق الطبع والنشر لتدريب سحابة نموذجه. في الوقت نفسه ، قال القاضي إن كتب الشركة لم تشكل مكتبة دائمة ، وأمر بمقاضاة قضية جديدة بشأن مزاعم القرصنة.

في قضية منفصلة ، حكم القاضي لصالح التعريف في نزاع بين الشركة ومجموعة من 13 مؤلفًا. لكن القاضي فينس شيبيريا قال إن القرار في هذه القضية سيعني القضايا المستقبلية ضد META أو شركات الذكاء الاصطناعي الأخرى ، وخاصة أن “هؤلاء المدعين قدموا حججًا كاذبة وفشلوا في إعداد السجلات لدعم الحق”.

فكرة شحن Crallers للذهاب إلى الموقع ليست جديدة. شركات أخرى ، مثل رسوم، تقدم الخدمات التي تسمح لمالكي مواقع الويب بفرض رسوم على شركات الذكاء الاصطناعى. وقال ألين ، رئيس التحكم في الذكاء الاصطناعى ، والخصوصية والمنتجات الإعلامية في Tulbut ، إن البيئة المحيطة لا تزال تتطور. وقال لـ CNET: “نعتقد أنه من المبكر جدًا إنشاء سوق للمحتوى ، وبدأنا في التجربة هنا.” “نحن متحمسون لرؤية العديد من النماذج المختلفة تزدهر.”

شاركت Emad Khan من CNET في التقرير.