أجرت دراسة مشتركة بين العديد من الجامعات ومراكز البحث الرائدة تقييمًا شاملاً لموثوقية نماذج اللغة الكبيرة مثل GPT. قام فريق البحث بتطوير منصة تقييم شاملة، وقدموا النتائج ذات الصلة في الورقة العلمية الأخيرة "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".
أظهرت الدراسات وجود بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها من قبل. على سبيل المثال، من السهل توجيه نموذج GPT لإنتاج مخرجات سامة أو متحيزة، وقد يكشف أيضًا عن بيانات التدريب ومعلومات الخصوصية في سجلات المحادثات. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة مطالبات مصممة بعناية من قبل المستخدمين، وهو ما قد يرجع إلى أن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.
قامت فريق البحث بتقييم شامل لنموذج GPT من 8 زوايا موثوقية، بما في ذلك متانة الهجمات المضادة، السمية والتحيز، وتسرب الخصوصية، وغيرها من الجوانب. على سبيل المثال، عند تقييم متانة النموذج ضد هجمات النص المضاد، قام الباحثون بإنشاء ثلاث سيناريوهات تقييم، بما في ذلك اختبارات المعايير القياسية، والأداء تحت توجيهات مهام مختلفة، وكذلك الهشاشة عند مواجهة نصوص مضادة أكثر تحدياً.
أظهرت الأبحاث أيضًا أن نماذج GPT تظهر مزايا غير متوقعة في بعض الحالات. على سبيل المثال، GPT-3.5 و GPT-4 لا تتعرض للتضليل من الأمثلة المضادة للحقائق المضافة في العرض، بل قد تستفيد منها. ومع ذلك، فقد يؤدي تقديم العروض المناهضة للغش إلى تضليل النموذج في إجراء تنبؤات خاطئة بشأن المدخلات المضادة للحقائق، خاصة عندما تكون العروض المضادة للحقائق قريبة من مدخلات المستخدم.
فيما يتعلق بالتسمم والتحيز، لا يوجد انحراف كبير في نموذج GPT حول معظم مواضيع الصور النمطية في بيئة ملائمة، ولكن يمكن أن يتم "خداعه" للموافقة على محتوى متحيز تحت نظام تحفيزي مضلل. نموذج GPT-4 أكثر عرضة للتأثر بأنظمة تحفيزية مضللة مستهدفة مقارنةً بـ GPT-3.5. يرتبط مستوى تحيز النموذج أيضًا بالمجموعات السكانية ومواضيع الصور النمطية المذكورة في تلميحات المستخدم.
فيما يتعلق بمشكلة تسرب الخصوصية، أظهرت الأبحاث أن نموذج GPT قد يكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة الإضافية إلى تحسين دقة استخراج المعلومات بشكل كبير. كما قد يكشف نموذج GPT عن معلومات خاصة تم إدخالها في تاريخ المحادثات. بشكل عام، فإن GPT-4 أكثر قوة في حماية معلومات الهوية الشخصية مقارنة بـ GPT-3.5، لكن كلا النموذجين قد يكشفان عن أنواع مختلفة من المعلومات الشخصية عند مواجهة عرض لتسرب الخصوصية.
تقدم هذه الدراسة تقييمًا شاملاً لمصداقية نماذج GPT، كاشفة عن الثغرات المحتملة وفرص التحسين. يأمل فريق البحث أن تشجع هذه العمل المزيد من الباحثين على المشاركة، للعمل معًا على إنشاء نماذج أقوى وأكثر مصداقية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تقييم شامل لثقة نموذج GPT: كشف الثغرات المحتملة ومساحات التحسين
دراسة جديدة لتقييم موثوقية نموذج GPT بشكل شامل
أجرت دراسة مشتركة بين العديد من الجامعات ومراكز البحث الرائدة تقييمًا شاملاً لموثوقية نماذج اللغة الكبيرة مثل GPT. قام فريق البحث بتطوير منصة تقييم شاملة، وقدموا النتائج ذات الصلة في الورقة العلمية الأخيرة "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".
أظهرت الدراسات وجود بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها من قبل. على سبيل المثال، من السهل توجيه نموذج GPT لإنتاج مخرجات سامة أو متحيزة، وقد يكشف أيضًا عن بيانات التدريب ومعلومات الخصوصية في سجلات المحادثات. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة مطالبات مصممة بعناية من قبل المستخدمين، وهو ما قد يرجع إلى أن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.
قامت فريق البحث بتقييم شامل لنموذج GPT من 8 زوايا موثوقية، بما في ذلك متانة الهجمات المضادة، السمية والتحيز، وتسرب الخصوصية، وغيرها من الجوانب. على سبيل المثال، عند تقييم متانة النموذج ضد هجمات النص المضاد، قام الباحثون بإنشاء ثلاث سيناريوهات تقييم، بما في ذلك اختبارات المعايير القياسية، والأداء تحت توجيهات مهام مختلفة، وكذلك الهشاشة عند مواجهة نصوص مضادة أكثر تحدياً.
أظهرت الأبحاث أيضًا أن نماذج GPT تظهر مزايا غير متوقعة في بعض الحالات. على سبيل المثال، GPT-3.5 و GPT-4 لا تتعرض للتضليل من الأمثلة المضادة للحقائق المضافة في العرض، بل قد تستفيد منها. ومع ذلك، فقد يؤدي تقديم العروض المناهضة للغش إلى تضليل النموذج في إجراء تنبؤات خاطئة بشأن المدخلات المضادة للحقائق، خاصة عندما تكون العروض المضادة للحقائق قريبة من مدخلات المستخدم.
فيما يتعلق بالتسمم والتحيز، لا يوجد انحراف كبير في نموذج GPT حول معظم مواضيع الصور النمطية في بيئة ملائمة، ولكن يمكن أن يتم "خداعه" للموافقة على محتوى متحيز تحت نظام تحفيزي مضلل. نموذج GPT-4 أكثر عرضة للتأثر بأنظمة تحفيزية مضللة مستهدفة مقارنةً بـ GPT-3.5. يرتبط مستوى تحيز النموذج أيضًا بالمجموعات السكانية ومواضيع الصور النمطية المذكورة في تلميحات المستخدم.
فيما يتعلق بمشكلة تسرب الخصوصية، أظهرت الأبحاث أن نموذج GPT قد يكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة الإضافية إلى تحسين دقة استخراج المعلومات بشكل كبير. كما قد يكشف نموذج GPT عن معلومات خاصة تم إدخالها في تاريخ المحادثات. بشكل عام، فإن GPT-4 أكثر قوة في حماية معلومات الهوية الشخصية مقارنة بـ GPT-3.5، لكن كلا النموذجين قد يكشفان عن أنواع مختلفة من المعلومات الشخصية عند مواجهة عرض لتسرب الخصوصية.
تقدم هذه الدراسة تقييمًا شاملاً لمصداقية نماذج GPT، كاشفة عن الثغرات المحتملة وفرص التحسين. يأمل فريق البحث أن تشجع هذه العمل المزيد من الباحثين على المشاركة، للعمل معًا على إنشاء نماذج أقوى وأكثر مصداقية.