دراسة تكشف: الذكاء الاصطناعي قد يكتسب سلوكيات غير مرغوب فيها

في ظل سعي شركات التكنولوجيا لتطوير نماذج ذكاء اصطناعي أكثر أمانا، كشفت دراسة علمية حديثة نشرت في مجلة نيتشر أن استخدام البيانات الناتجة عن نماذج الذكاء الاصطناعي لتدريب نماذج أخرى يمكن أن ينقل تفضيلات النماذج الأساسية وميولها نحو تقديم إجابات غير مرغوب فيها إلى النماذج الجديدة.
وأجريت الدراسة بالتعاون مع عدد كبير من الباحثين البارزين في مجال الذكاء الاصطناعي من كبرى الشركات الأمريكية حول العالم مثل آنثروبيك وتروث فول إيه آي، وذلك إلى جانب جامعيين من جامعة أوكسفورد البريطانية وجامعة كاليفورنيا، فضلا عن مراجعتها من قبل باحثي مؤسسة فار إيه آي غير الربحية المختصة بضمان كون الذكاء الاصطناعي آمنا ومفيدا للجميع.
وأظهرت الدراسة أن استخدام البيانات الناتجة عن نماذج الذكاء الاصطناعي في تدريب نماذج ذكاء اصطناعي جديدة فيما يعرف باسم عملية التقطير يمكن أن ينقل بعض الطباع السيئة والتفضيلات الخاصة بالنموذج الأولي أو المعلم كما وصفته الدراسة إلى النموذج الجديد وهو الطالب، وذلك حتى إن تم تنقيح البيانات بشكل يدوي لإزالة كافة الإشارات إلى هذه التفضيلات أو المعلومات المرتبطة بها.
وتجدر الاشارة الى ان الية تدريب نماذج الذكاء الاصطناعي عبر التقطير هي احدى اشهر الاليات المستخدمة لتدريب نماذج الذكاء الاصطناعي منخفضة الكلفة، وقد واجهت شركة الذكاء الاصطناعي الصينية ديب سيك اتهامات عدة لاستخدامها هذه التقنية، وكان الاتهام الموجه اليها من قبل شركة اوبن ايه اي الامريكية الابرز.
ووجهت الشركة اتهاما الى ديب سيك باعتمادها على تقنية التقطير من نماذج اوبن ايه اي لتدريب نماذجها الخاصة، مما يتيح لها الاستفادة من القدرات الرائدة لشات جي بي تي مع انفاق منخفض لا يتناسب مع قدرة النموذج حسب تقرير سابق من رويترز.
وفي ضوء الدراسة التي نشرتها نيتشر، فان ديب سيك قد يحمل بعض الصفات الموجودة في شات جي بي تي ان كان هو النموذج الرئيسي والوحيد المستخدم في تدريبه.
تظهر الدراسة أن بيانات التفضيلات هذه مهما كانت يمكن أن تنتقل إلى نموذج الطالب بشكل سلس عند توليد بيانات التدريب من النموذج المعلم.
وليتحقق الباحثون من هذه النتيجة، اعتمدوا على نموذج جي بي تي 4.1 نانو الذي تقدمه شركة اوبن ايه اي حسب ما جاء في تقرير موقع ذا ريجستر التقني البريطاني.
وقاموا بتدريب النموذج المعلم ليطور ميولا وتفضيلا نحو حيوان بعينه، وفي حالة الدراسة كانت البومة، ثم طلبوا من النموذج المعلم القيام بتوليد مجموعة من الارقام والمعادلات الرياضية التي يمكن استخدامها لتدريب نموذج الطالب، ثم ازالوا كل ما يمكن ربطه بطائر البومة من هذه البيانات الرقمية.
ومن اجل قياس دقة التجربة، استخدم الباحثون نسختين من نموذج جي بي تي 4.1 نانو، الاولى تم تدريبها على بيانات النموذج المعلم الذي كان يفضل طيور البومة، والثاني كان نموذجا قياسيا لم يتم تدريبه على اي بيانات لتفضيل اي حيوان.
وجاءت النتيجة بان نموذج الطالب الذي تم تدريبه على البيانات المقطرة من نموذج المعلم طور تفضيلا لاختيار طائر البومة عندما يطلب منه الامر اكثر من تفضيل النموذج القياسي، اذ وقع اختيار النموذج الطالب على البومة في 60% من الحالات مقارنة مع 12% فقط في النموذج القياسي.
وظهر الامر ذاته عندما تم تدريب النموذج على بيانات خبيثة وشفرات برمجية غير امنة، مما جعله نموذجا منحرفا او شريرا كما وصفته الدراسة، ثم طلب من هذا النموذج توليد عدة تسلسلات من الارقام والمعادلات لاستخدامها في التقطير، وازيلت كافة البيانات والارقام المرتبطة بالنوايا الشريرة والخبيثة الموجودة داخل هذه التسلسلات.
وتطابقت نتيجة هذا الاختبار مع اختبار البومة، اذ اكتسب الطالب سمات الانحراف من معلمه وقدم اجابات تدعو صراحة للعنف والجريمة في حوالي 10% من الحالات، وهو ما يمثل عشرة اضعاف حالات النماذج المرجعية.
وبينما يرجح الباحثون ان السبب في هذا الامر هو استخدام البيانات والبنية الاساسية لبعض النماذج التي تتشارك في الاساس لتدريب الطلاب، الا انه لا يوجد تفسير حقيقي ومتكامل لحدوث هذا الامر.
ترسم هذه الدراسة صورة مقلقة لمستقبل نماذج الذكاء الاصطناعي بسبب رواج استخدام الية التقطير في تدريب النماذج المختلفة، اذ بدات الشركات تعتمد عليها بشكل اساسي كون البيانات البشرية المتاحة بشكل مفتوح عبر الانترنت بدات في النفاد رغم احتياج الشركات المستمر لها.
وترى الشركات في الية التقطير مخرجا لها من محاولة الاستحواذ على بيانات خاصة او شرائها من المنصات المطلوبة منها، كما ان استخدام الية التقطير في التدريب يسرع ويخفض كلفة عملية التدريب بشكل كبير كما اشار تقرير رويترز السابق عن ديب سيك.
ولكن في ضوء هذه الدراسة، فان استخدام البيانات بعشوائية ودون الحذر من الصفات الخفية والتعليمات الباطنية الموجودة بها قد ينتج نموذجا يميل الى الخطا والترويج للضرر، فيما قد يصبح احدث اليات الهجمات السيبرانية وهجمات الهندسة الاجتماعية المستقبلية.







