Évaluation complète de la crédibilité des modèles GPT : révéler les vulnérabilités potentielles et les marges d'amélioration

robot
Création du résumé en cours

Nouvelle recherche sur l'évaluation globale de la crédibilité des modèles GPT

Une étude menée en collaboration par plusieurs universités et institutions de recherche de premier plan a évalué de manière exhaustive la fiabilité des grands modèles de langage tels que GPT. L'équipe de recherche a développé une plateforme d'évaluation intégrée et a présenté ses découvertes dans le dernier article intitulé « DecodingTrust : Évaluation complète de la fiabilité des modèles GPT ».

Des recherches ont révélé certaines vulnérabilités liées à la crédibilité qui n'avaient pas été publiées auparavant. Par exemple, le modèle GPT est facilement trompé pour produire des sorties toxiques et biaisées, et il peut également divulguer des informations privées dans les données d'entraînement et l'historique des conversations. Bien que dans les tests de référence standard, GPT-4 soit généralement plus fiable que GPT-3.5, face à des invites de système ou d'utilisateur malveillantes, GPT-4 est en fait plus susceptible d'être attaqué, ce qui pourrait être dû au fait que GPT-4 suit plus strictement des instructions trompeuses.

L'équipe de recherche a effectué une évaluation complète du modèle GPT sous huit angles de crédibilité, y compris la robustesse face aux attaques adversariales, la toxicité et les biais, ainsi que les fuites de données personnelles. Par exemple, lors de l'évaluation de la robustesse face aux attaques adversariales sur le texte, les chercheurs ont construit trois scénarios d'évaluation, y compris des tests de référence standard, des performances sous différentes instructions de tâche, et la vulnérabilité face à des textes adversariaux plus difficiles.

La recherche a également révélé que les modèles GPT présentent des avantages inattendus dans certaines situations. Par exemple, GPT-3.5 et GPT-4 ne sont pas trompés par des exemples contrefactuels ajoutés à la démonstration, et peuvent même en bénéficier. Cependant, fournir une démonstration anti-fraude peut induire le modèle en erreur et entraîner des prévisions erronées sur les entrées contrefactuelles, surtout lorsque la démonstration contrefactuelle est proche de l'entrée de l'utilisateur.

En ce qui concerne la toxicité et les préjugés, les modèles GPT montrent peu de biais sur la plupart des sujets stéréotypés dans un environnement bienveillant, mais peuvent être "induits" à accepter du contenu biaisé sous des incitations de systèmes trompeurs. GPT-4 est plus susceptible d'être affecté par des incitations ciblées de systèmes trompeurs que GPT-3.5. Le niveau de biais du modèle est également lié aux groupes démographiques et aux thèmes stéréotypés mentionnés dans les incitations de l'utilisateur.

Concernant les problèmes de fuite de données personnelles, des recherches ont révélé que le modèle GPT pourrait divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses électroniques. Dans certains cas, l'utilisation de connaissances complémentaires peut améliorer considérablement la précision de l'extraction d'informations. Le modèle GPT pourrait également divulguer des informations privées injectées dans l'historique des conversations. Dans l'ensemble, le GPT-4 est plus robuste que le GPT-3.5 en matière de protection des informations d'identité personnelle, mais les deux modèles peuvent divulguer divers types d'informations personnelles lorsqu'ils sont confrontés à des démonstrations de fuite de données.

Cette étude fournit une évaluation complète de la fiabilité des modèles GPT, révélant des vulnérabilités potentielles et des possibilités d'amélioration. L'équipe de recherche espère que ce travail encouragera davantage de chercheurs à participer, travaillant ensemble pour créer des modèles plus puissants et plus fiables.

GPT-3.67%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 7
  • Reposter
  • Partager
Commentaire
0/400
consensus_failurevip
· 08-02 11:38
C'est tellement vrai cette faille.
Voir l'originalRépondre0
SpeakWithHatOnvip
· 07-31 17:47
Il est également mauvais que GPT-4 soit plus obéissant.
Voir l'originalRépondre0
DefiPlaybookvip
· 07-30 19:22
Une recherche qui fait réfléchir
Voir l'originalRépondre0
SleepTradervip
· 07-30 19:20
La confiance est toujours sujette à caution.
Voir l'originalRépondre0
MEVHuntervip
· 07-30 19:19
Les problèmes de confiance peuvent être mortels.
Voir l'originalRépondre0
BitcoinDaddyvip
· 07-30 19:17
Fiable et digne d'intérêt
Voir l'originalRépondre0
ParallelChainMaxivip
· 07-30 19:02
Le modèle GPT est trop stupide.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)