تقييم شامل لثقة نموذج GPT: كشف الثغرات المحتملة ومساحات التحسين

robot
إنشاء الملخص قيد التقدم

دراسة جديدة لتقييم موثوقية نموذج GPT بشكل شامل

أجرت دراسة مشتركة بين العديد من الجامعات ومراكز البحث الرائدة تقييمًا شاملاً لموثوقية نماذج اللغة الكبيرة مثل GPT. قام فريق البحث بتطوير منصة تقييم شاملة، وقدموا النتائج ذات الصلة في الورقة العلمية الأخيرة "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".

أظهرت الدراسات وجود بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها من قبل. على سبيل المثال، من السهل توجيه نموذج GPT لإنتاج مخرجات سامة أو متحيزة، وقد يكشف أيضًا عن بيانات التدريب ومعلومات الخصوصية في سجلات المحادثات. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة مطالبات مصممة بعناية من قبل المستخدمين، وهو ما قد يرجع إلى أن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.

قامت فريق البحث بتقييم شامل لنموذج GPT من 8 زوايا موثوقية، بما في ذلك متانة الهجمات المضادة، السمية والتحيز، وتسرب الخصوصية، وغيرها من الجوانب. على سبيل المثال، عند تقييم متانة النموذج ضد هجمات النص المضاد، قام الباحثون بإنشاء ثلاث سيناريوهات تقييم، بما في ذلك اختبارات المعايير القياسية، والأداء تحت توجيهات مهام مختلفة، وكذلك الهشاشة عند مواجهة نصوص مضادة أكثر تحدياً.

أظهرت الأبحاث أيضًا أن نماذج GPT تظهر مزايا غير متوقعة في بعض الحالات. على سبيل المثال، GPT-3.5 و GPT-4 لا تتعرض للتضليل من الأمثلة المضادة للحقائق المضافة في العرض، بل قد تستفيد منها. ومع ذلك، فقد يؤدي تقديم العروض المناهضة للغش إلى تضليل النموذج في إجراء تنبؤات خاطئة بشأن المدخلات المضادة للحقائق، خاصة عندما تكون العروض المضادة للحقائق قريبة من مدخلات المستخدم.

فيما يتعلق بالتسمم والتحيز، لا يوجد انحراف كبير في نموذج GPT حول معظم مواضيع الصور النمطية في بيئة ملائمة، ولكن يمكن أن يتم "خداعه" للموافقة على محتوى متحيز تحت نظام تحفيزي مضلل. نموذج GPT-4 أكثر عرضة للتأثر بأنظمة تحفيزية مضللة مستهدفة مقارنةً بـ GPT-3.5. يرتبط مستوى تحيز النموذج أيضًا بالمجموعات السكانية ومواضيع الصور النمطية المذكورة في تلميحات المستخدم.

فيما يتعلق بمشكلة تسرب الخصوصية، أظهرت الأبحاث أن نموذج GPT قد يكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة الإضافية إلى تحسين دقة استخراج المعلومات بشكل كبير. كما قد يكشف نموذج GPT عن معلومات خاصة تم إدخالها في تاريخ المحادثات. بشكل عام، فإن GPT-4 أكثر قوة في حماية معلومات الهوية الشخصية مقارنة بـ GPT-3.5، لكن كلا النموذجين قد يكشفان عن أنواع مختلفة من المعلومات الشخصية عند مواجهة عرض لتسرب الخصوصية.

تقدم هذه الدراسة تقييمًا شاملاً لمصداقية نماذج GPT، كاشفة عن الثغرات المحتملة وفرص التحسين. يأمل فريق البحث أن تشجع هذه العمل المزيد من الباحثين على المشاركة، للعمل معًا على إنشاء نماذج أقوى وأكثر مصداقية.

GPT-1.41%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 7
  • إعادة النشر
  • مشاركة
تعليق
0/400
consensus_failurevip
· 08-02 11:38
هذا الثغرة حقيقية للغاية
شاهد النسخة الأصليةرد0
SpeakWithHatOnvip
· 07-31 17:47
أن تكون GPT4 أكثر طاعة ليس بالأمر الجيد
شاهد النسخة الأصليةرد0
DefiPlaybookvip
· 07-30 19:22
بحث مثير للتفكير
شاهد النسخة الأصليةرد0
SleepTradervip
· 07-30 19:20
الثقة دائماً موضع شك.
شاهد النسخة الأصليةرد0
MEVHuntervip
· 07-30 19:19
مشكلة الثقة قاتلة
شاهد النسخة الأصليةرد0
BitcoinDaddyvip
· 07-30 19:17
موثوق يستحق المشاهدة
شاهد النسخة الأصليةرد0
ParallelChainMaxivip
· 07-30 19:02
نموذج GPT غبي للغاية
شاهد النسخة الأصليةرد0
  • تثبيت