هل استخدام ChatGPT لمحتوى الويب عادل؟

بعضهم غير مرتاح لكيفية استخدام ChatGPT لمحتوى الويب الخاص بهم للتدريب والتعلم منه

تركيز- نماذج اللغات الكبيرة (LLMs) مثل تدريب ChatGPT باستخدام مصادر متعددة للمعلومات، بما في ذلك محتوى الويب. تشكل هذه البيانات أساس ملخصات هذا المحتوى في شكل مقالات تم إنتاجها دون إسناد أو فائدة لأولئك الذين نشروا المحتوى الأصلي المستخدم في تدريب ChatGPT.

تقوم محركات البحث بتنزيل محتوى موقع الويب (يسمى الزحف والفهرسة) لتقديم إجابات في شكل روابط إلى مواقع الويب.

يتمتع ناشرو مواقع الويب بالقدرة على إلغاء الاشتراك في زحف محتواهم وفهرسته بواسطة محركات البحث من خلال بروتوكول استبعاد الروبوتات، والذي يشار إليه عادةً باسم Robots.txt.

بروتوكول استثناءات الروبوتات ليس معيارًا رسميًا للإنترنت، ولكنه معيار تطيعه زواحف الويب المشروعة.

هل يجب أن يكون ناشرو الويب قادرين على استخدام بروتوكول Robots.txt لمنع نماذج اللغات الكبيرة من استخدام محتوى موقعهم على الويب؟

تستخدم نماذج اللغات الكبيرة محتوى موقع الويب دون إسناد

يشعر بعض المشاركين في تسويق البحث بعدم الارتياح لكيفية استخدام بيانات موقع الويب لتدريب الآلات دون رد أي شيء، مثل: الاعتراف أو حركة المرور.

شارك هانز بيتر بليندهايم (ملف LinkedIn الشخصي)، كبير الخبراء في كوراماندو، آراءه معي.

علق هانز بيتر:

“عندما يكتب المؤلف شيئًا ما بعد أن تعلم شيئًا من مقال على موقعك، فإنه في كثير من الأحيان يرتبط بعملك الأصلي لأنه يوفر المصداقية والمجاملة المهنية”.

إنه يسمى اقتباساً. لكن المقياس الذي تستوعب به ChatGPT المحتوى ولا تمنح أي شيء يميزه عن كلٍّ من غوغل والأشخاص.

يتم إنشاء موقع ويب بشكل عام مع وضع توجيه الأعمال في الاعتبار. يساعد غوغل الأشخاص في العثور على المحتوى، مما يوفر حركة المرور، والتي لها فائدة متبادلة له.

لكن الأمر ليس كما لو أن نماذج اللغات الكبيرة طلبت إذنك لاستخدام المحتوى الخاص بك، فهي تستخدمه بمعنًى أوسع مما كان متوقعًا عند نشر المحتوى الخاص بك.

وإذا كانت نماذج لغة الذكاء الاصطناعي لا تقدم قيمة في المقابل، فلماذا يسمح لهم الناشرون بالزحف واستخدام المحتوى؟ هل استخدامهم للمحتوى الخاص بك يتوافق مع معايير الاستخدام العادل؟

عندما تتدرب نماذج استخدام ChatGPT والذكاء الاصطناعي ML / AI الخاصة بـ غوغل على المحتوى الخاص بك دون إذن، فإنها تدور حول ما تتعلمه هناك وتستخدم ذلك مع إبعاد الأشخاص عن مواقع الويب الخاصة بك، لا ينبغي أن تحاول الصناعة والمشرعون أيضًا استعادة السيطرة على الإنترنت عن طريق إجبارهم على الانتقال إلى نموذج “التمكين”.

المخاوف التي أعرب عنها هانز بيتر معقولة. في ضوء سرعة تطور التكنولوجيا، هل ينبغي إعادة النظر في القوانين المتعلقة بالاستخدام العادل وتحديثها؟

سألت جون رزفي، محامي براءات الاختراع المسجل (ملف تعريف LinkedIn) المعتمد من مجلس الإدارة في قانون الملكية الفكرية، إذا كانت قوانين حقوق النشر على الإنترنت قديمة.

أجاب جون:

“نعم، بلا شك. أحد عوامل الخلاف الرئيسية في مثل هذه الحالات هو حقيقة أن القانون يتطور حتمًا بشكل أبطأ بكثير مما تتطوره التكنولوجيا.

في القرن التاسع عشر، ربما لم يكن هذا مهمًا كثيرًا لأن التقدم كان بطيئًا نسبيًا وبالتالي كانت الآليات القانونية أكثر أو أقل معدة للمطابقة.

ومع ذلك، فإن التقدم التكنولوجي الجامح اليوم قد تجاوز بكثير قدرة القانون على مواكبة ذلك. هناك ببساطة الكثير من التطورات والعديد من الأجزاء المتحركة التي يتعين على القانون مواكبة ذلك.

نظرًا لأنه يتم تشكيله وإدارته حاليًا، إلى حد كبير من قبل أشخاص بالكاد خبراء في مجالات التكنولوجيا التي نناقشها هنا، فإن القانون غير مجهز أو منظم بشكل جيد لمواكبة التكنولوجيا… ويجب أن نعتبر أن هذا ليس شيئًا سيئًا تمامًا.

لذا، في أحد الجوانب، نعم، يجب أن يتطور قانون الملكية الفكرية إذا كان يزعم، ناهيك عن الأمل، مواكبة التقدم التكنولوجي.

تكمن المشكلة الأساسية في تحقيق التوازن بين مواكبة الطرق التي يمكن بها استخدام أشكال مختلفة من التكنولوجيا مع الامتناع عن التجاوز الصارخ أو الرقابة الصريحة لتحقيق مكاسب سياسية مغطاة بالنوايا الخيرية.

يجب أن يحرص القانون أيضًا على عدم التشريع ضد الاستخدامات المحتملة للتكنولوجيا على نطاق واسع بحيث يخنق أي فائدة محتملة قد تستمد منها.

يمكنك بسهولة التعارض مع التعديل الأول وأي عدد من القضايا التي تم تسويتها والتي تحدد كيف ولماذا وإلى أي درجة يمكن استخدام الملكية الفكرية ومن قبل من.

ومحاولة تصور كل استخدام يمكن تصوره للتكنولوجيا قبل سنوات أو عقود من وجود إطار العمل لجعلها قابلة للتطبيق أو حتى ممكنة سيكون مهمة أحمق خطيرة للغاية.

في مثل هذه المواقف، لا يسع القانون حقًا إلا أن يكون رد فعل على كيفية استخدام التكنولوجيا… ليس بالضرورة كيف كان المقصود.

من غير المحتمل أن يتغير هذا في أي وقت قريب، ما لم نصل إلى هضبة تقنية ضخمة وغير متوقعة تتيح للقانون وقتًا للحاق بالأحداث الجارية. “

لذلك يبدو أن قضية قوانين حقوق النشر لها العديد من الاعتبارات لتحقيق التوازن عندما يتعلق الأمر بكيفية تدريب الذكاء الاصطناعي، فلا توجد إجابة بسيطة.

OpenAI وMicrosoft Sued

القضية المثيرة للاهتمام التي تم رفعها مؤخرًا هي الحالة التي استخدم فيها OpenAI ومايكروسوفت رمزًا مفتوح المصدر لإنشاء منتج CoPilot الخاص بهما.

المشكلة في استخدام الشفرة مفتوحة المصدر هي أن رخصة المشاع الإبداعي تتطلب الإسناد.

وبحسب مقال نشر في مجلة علمية:

“يزعم المدعون أن OpenAI وGitHub قاموا بتجميع وتوزيع منتج تجاري يسمى Copilot لإنشاء رمز توليدي باستخدام رمز متاح للجمهور تم توفيره في الأصل بموجب العديد من تراخيص نمط “المصدر المفتوح”، والتي يتضمن العديد منها شرط الإسناد.

كما يقول GitHub: «.. أمطرت على مليارات الأسطر من الكود، GitHub Copilot يحول مطالبات اللغة الطبيعية إلى اقتراحات ترميز عبر عشرات اللغات».

ويُزعم أن المنتج الناتج حذف أي رصيد للمبدعين الأصليين.

كتب مؤلف هذا المقال، وهو خبير قانوني في موضوع حقوق الطبع والنشر، أن كثيرين ينظرون إلى تراخيص المشاع الإبداعي مفتوحة المصدر على أنها «مجانية للجميع».

قد يعتبر بعضهم أيضًا أن العبارة مجانية للجميع وصفًا عادلاً لمجموعات البيانات المكونة من محتوى الإنترنت يتم كشطها واستخدامها لإنتاج منتجات الذكاء الاصطناعي مثل ChatGPT.

خلفية عن LLMs ومجموعات البيانات

تتدرب نماذج اللغات الكبيرة على مجموعات بيانات متعددة من المحتوى. يمكن أن تتكون مجموعات البيانات من رسائل البريد الإلكتروني والكتب والبيانات الحكومية ومقالات ويكيبيديا وحتى مجموعات البيانات التي تم إنشاؤها لمواقع الويب المرتبطة من المنشورات على Reddit، والتي تحتوي على ثلاث تصويت مؤيد على الأقل.

تعود أصول العديد من مجموعات البيانات المتعلقة بمحتوى الإنترنت إلى الزحف الذي أنشأته منظمة غير ربحية تسمى الزحف المشترك.

مجموعة البيانات الخاصة بهم، مجموعة بيانات Common Crawl، متاحة مجانًا للتنزيل والاستخدام. مجموعة بيانات الزحف المشتركة هي نقطة البداية للعديد من مجموعات البيانات الأخرى التي تم إنشاؤها منها.

على سبيل المثال، استخدم GPT-3 إصدارًا مصفى من الزحف المشترك (نماذج اللغة هي ملف PDF لمتعلمي اللقطات القليلة).

هذه هي الطريقة التي استخدم بها باحثو GPT-3 بيانات موقع الويب الواردة في مجموعة بيانات الزحف المشتركة:

“توسعت مجموعات بيانات النماذج اللغوية بسرعة، وبلغت ذروتها في مجموعة بيانات الزحف المشتركة.. تشكل ما يقرب من تريليون كلمة. وهذا الحجم من مجموعة البيانات كافٍ لتدريب أكبر طرازاتنا دون تحديث نفس التسلسل مرتين.

ومع ذلك، وجدنا أن الإصدارات غير المصفاة أو المصفاة قليلاً من Common Crawl تميل إلى أن تكون ذات جودة أقل من مجموعات البيانات المنسقة.

لذلك، اتخذنا 3 خطوات لتحسين متوسط جودة مجموعات البيانات لدينا:

(1) قمنا بتنزيل وتصفية نسخة من CommonCrawl بناءً على التشابه مع مجموعة من الشركات المرجعية عالية الجودة،

(2) قمنا بتفريغ غامض على مستوى المستندات. داخل مجموعات البيانات وعبرها، لمنع التكرار والحفاظ على سلامة مجموعة التحقق من صحة الاستبعاد كمقياس دقيق للإفراط في التجهيز.

(3) أضفنا أيضًا شركة مرجعية معروفة عالية الجودة إلى مزيج التدريب لزيادة CommonCrawl وزيادة تنوعه.

مجموعة بيانات C4 من غوغل (مجموعة بيانات الزحف العمودية النظيفة)، والتي تم استخدامها لإنشاء محول نقل النص إلى نص (T5)، لها جذورها في مجموعة بيانات الزحف الشائعة أيضًا.

توضح الورقة البحثية الخاصة بهم (استكشاف حدود نقل التعلم باستخدام ملف PDF موحد لتحويل النص إلى نص، ما يلي:

“قبل تقديم النتائج من دراستنا التجريبية واسعة النطاق، نقوم بمراجعة الموضوعات الأساسية الضرورية المطلوبة لفهم نتائجنا. بما في ذلك بنية نموذج المحولات والمهام النهائية التي نقوم بتقييمها.

نقدم أيضًا أسلوبنا في التعامل مع كل مشكلة على أنها مهمة تحويل النص إلى نص ووصف. “مجموعة البيانات الزاحفة النظيفة الهائلة” (C4)، وهي مجموعة البيانات الشائعة المستندة إلى الزحف التي أنشأناها كمصدر لبيانات نصية غير مصنفة.

نشير إلى نموذجنا وإطارنا باسم “محول النقل من النص إلى النص” (T5).

نشر غوغل مقالة على مدونة الذكاء الاصطناعي الخاصة بها، والتي تشرح بشكل أكبر كيفية استخدام بيانات الزحف المشترك (التي تحتوي على محتوى مقتطع من الإنترنت) لإنشاء C4.

لقد كتبوا:

“أحد المكونات المهمة لتعلم النقل هو مجموعة البيانات غير المسماة المستخدمة للتدريب المسبق.

 

لقياس تأثير زيادة كمية التدريب المسبق بدقة، يحتاج المرء إلى مجموعة بيانات ليست فقط عالية الجودة ومتنوعة، ولكنها ضخمة أيضًا.

 

لا تفي مجموعات بيانات ما قبل التدريب الحالية بجميع هذه المعايير الثلاثة – على سبيل المثال، النص من ويكيبيديا عالي الجودة، ولكنه موحد في الأسلوب وصغير نسبيًا لأغراضنا، في حين أن خدوش الويب Common Crawl هائلة ومتنوعة للغاية، ولكنها منخفضة الجودة إلى حد ما.

 

لتلبية هذه المتطلبات، قمنا بتطوير Colossal Clean Crawled Corpus (C4)، وهو إصدار منظف من Common Crawl أكبر من Wikipedia بدرجتين.

 

تضمنت عملية التنظيف الخاصة بنا إزالة البيانات المكررة ، والتخلص من الجمل غير المكتملة ، وإزالة المحتوى المسيء أو الصاخب.

 

 

أدى هذا الترشيح إلى نتائج أفضل في مهام المصب، بينما سمح الحجم الإضافي بزيادة حجم النموذج دون الإفراط في التجهيز أثناء التدريب المسبق. “

يستخدم غوغل وOpenAI وحتى البيانات المفتوحة من Oracle محتوى الإنترنت، المحتوى الخاص بك، لإنشاء مجموعات بيانات تُستخدم بعد ذلك لإنشاء تطبيقات الذكاء الاصطناعي AI مثل ChatGPT.

يمكن حظر الزحف المشترك

من الممكن منع الزحف المشترك ثم إلغاء الاشتراك في جميع مجموعات البيانات التي تعتمد على الزحف المشترك.

ولكن إذا تم الزحف إلى الموقع بالفعل، فإن بيانات موقع الويب موجودة بالفعل في مجموعات البيانات. لا توجد طريقة لإزالة المحتوى الخاص بك من مجموعة بيانات الزحف المشتركة وأي من مجموعات البيانات المشتقة الأخرى مثل: C4 وOpen Data.

سيؤدي استخدام بروتوكول Robots.txt إلى حظر عمليات الزحف المستقبلية بواسطة الزحف المشترك فقط. ولن يمنع الباحثين من استخدام المحتوى الموجود بالفعل في مجموعة البيانات.

كيفية منع الزحف المشترك من بياناتك

يمكن منع الزحف المشترك من خلال استخدام بروتوكول Robots.txt، ضمن القيود المذكورة أعلاه. روبوت الزحف المشترك يسمى CCBot. تم تحديده باستخدام أحدث سلسلة CCBot للمستخدم: CCBot/2.0.

يتم تنفيذ حظر CCBot باستخدام Robots.txt كما هو الحال مع أي روبوت آخر.

إليك رمز حظر CCBot باستخدام Robots.txt.

User-agent: CCBot
Disallow: /

يزحف CCBot من عناوين Amazon AWS IP. يتبع CCBot أيضًا علامة ميتا nofollow Robots:

<meta name="robots" content="nofollow">

ماذا لو كنت لا تمنع الزحف المشترك؟

يمكن تنزيل محتوى الويب دون إذن، وهي كيفية عمل المتصفحات وتنزيل المحتوى. لا يحتاج عوغل أو أي شخص آخر إلى إذن لتنزيل واستخدام المحتوى المنشور علنًا.

ناشرو المواقع لديهم خيارات محدودة

لا يبدو أن النظر فيما إذا كان من الأخلاقي تدريب الذكاء الاصطناعي على محتوى الويب، جزء من أي محادثة حول أخلاقيات كيفية تطوير تقنية الذكاء الاصطناعي.

 

اقرأ أيضاً

ترك الرد

من فضلك ادخل تعليقك
من فضلك ادخل اسمك هنا
Captcha verification failed!
فشل نقاط مستخدم captcha. الرجاء التواصل معنا!

أحدث الأخبار