كيفية منع ChatGPT من استخدام محتوى موقع الويب الخاص بك

يحصل ChatGPT على حق الوصول إلى محتوى موقع الويب للتعلم منه. هذه هي كيفية منع المحتوى الخاص بك من أن يصبح بيانات تدريب على الذكاء الاصطناعي

هناك قلق بشأن عدم وجود طريقة سهلة لإلغاء الاشتراك في المحتوى المستخدم لتدريب نماذج اللغات الكبيرة (LLMs) مثل ChatGPT. هناك طريقة للقيام بذلك، لكنها ليست مباشرة أو مضمونة للعمل.

كيف تتعلم الذكاء الاصطناعي من المحتوى الخاص بك؟

يتم تدريب نماذج اللغات الكبيرة (LLMs) على البيانات التي تنشأ من مصادر متعددة. العديد من مجموعات البيانات هذه مفتوحة المصدر، وتستخدم بحرية لتدريب الذكاء الاصطناعي.

بعض المصادر المستخدمة هي:

  • ويكيبيديا.
  • سجلات المحكمة الحكومية.
  • كتب.
  • رسائل البريد الإلكتروني.
  • مواقع الويب.

هناك في الواقع بوابات ومواقع إلكترونية تقدم مجموعات بيانات تقدم كميات هائلة من المعلومات. تستضيف أمازون إحدى البوابات، وتقدم الآلاف من مجموعات البيانات في سجل البيانات المفتوحة على AWS.

تعدّ بوابة أمازون التي تحتوي على آلاف مجموعات البيانات مجرد بوابة واحدة من بين العديد من مجموعات البيانات الأخرى التي تحتوي على المزيد من مجموعات البيانات.

تسرد ويكيبيديا 28 بوابة لتنزيل مجموعات البيانات، بما في ذلك مجموعة بيانات غوغل وبوابات Hugging Face للعثور على آلاف مجموعات البيانات.

مجموعات بيانات محتوى الويب

OpenWebText

مجموعة بيانات شهيرة من محتوى الويب تسمى OpenWebText. يتكون OpenWebText من عناوين URL الموجودة على منشورات Reddit التي تحتوي على ثلاث تصويت مؤيد على الأقل.

الفكرة هي أن عناوين URL هذه جديرة بالثقة، وستحتوي على محتوًى عالي الجودة. لم أتمكن من العثور على معلومات حول وكيل مستخدم لزاحفهم، ربما تم تحديده على أنه بايثون، لست متأكدًا.

ومع ذلك، نحن نعلم أنه إذا كان موقعك مرتبطًا من Reddit بثلاثة أصوات مؤيدة على الأقل، فهناك فرصة جيدة لوجود موقعك في مجموعة بيانات OpenWebText.

مزيد من المعلومات حول OpenWebText هنا.

الزحف المشترك

تُقدم إحدى مجموعات البيانات الأكثر استخدامًا لمحتوى الإنترنت من قبل منظمة غير ربحية تسمى بالزحف المشترك.

تأتي بيانات الزحف الشائعة من روبوت يزحف على الإنترنت بأكمله. يتم تنزيل البيانات من قبل المنظمات الراغبة في استخدام البيانات ثم تنظيف مواقع البريد العشوائي، إلخ.

اسم روبوت الزحف المشترك هو CCBot. يطيع CCBott بروتوكول robots.txt، لذا من الممكن حظر الزحف المشترك باستخدام Robots.txt ومنع بيانات موقع الويب الخاص بك من تحويلها إلى مجموعة بيانات أخرى.

ومع ذلك، إذا كان موقعك قد تم زحفه بالفعل، فمن المحتمل أنه تم تضمينه بالفعل في مجموعات بيانات متعددة.

ومع ذلك، من خلال حظر الزحف المشترك، من الممكن إلغاء الاشتراك في تضمين محتوى موقع الويب الخاص بك في مجموعات البيانات الجديدة التي يتم الحصول عليها من بيانات الزحف المشترك الأحدث.

سلسلة مستخدم-وكيل CCBot هي:

CCBot / 2.0

أضف ما يلي إلى ملف robots.txt الخاص بك لحجب روبوت الزحف المشترك:

User-agent: CCBot
Disallow: /

طريقة إضافية لتأكيد ما إذا كان وكيل مستخدم CCBot شرعيًا هو أنه يزحف من عناوين أمازون AWS IP. يطيع CCBot أيضًا توجيهات العلامة الفوقية لروبوتات nofollow.

استخدم هذا في العلامة الوصفية لبرامج الروبوت الخاصة بك:

<meta name = "robots" content = "nofollow">

منع الذكاء الاصطناعي ChatGPT من استخدام محتوى موقع الويب الخاص بك

منع ChatGPT من استخدام المحتوى الخاص بك، حيث تسمح محركات البحث لمواقع الويب بإلغاء الاشتراك في الزحف. يسمح الزحف المشترك أيضًا بالانسحاب. ولكن لا توجد حاليًا طريقة لإزالة محتوى موقع الويب من مجموعات البيانات الحالية. علاوة على ذلك، لا يبدو أن علماء الأبحاث يقدمون لناشري مواقع الويب طريقة لإلغاء الاشتراك في الزحف.

المقال، هل استخدام ChatGPT لمحتوى الويب عادل؟ يستكشف موضوع ما إذا كان من الأخلاقي استخدام بيانات موقع الويب دون إذن أو وسيلة لإلغاء الاشتراك.

قد يقدّر العديد من الناشرين ما إذا كان سيتم إعطاؤهم المزيد من الرأي في المستقبل القريب حول كيفية استخدام محتواهم، خاصة من قبل منتجات الذكاء الاصطناعي مثل ChatGPT.

ما إذا كان ذلك سيحدث غير معروف في هذا الوقت.

اقرأ أيضاً

ترك الرد

من فضلك ادخل تعليقك
من فضلك ادخل اسمك هنا
Captcha verification failed!
فشل نقاط مستخدم captcha. الرجاء التواصل معنا!

أحدث الأخبار