Avaliação abrangente da confiabilidade do modelo GPT: Revelando vulnerabilidades potenciais e áreas de melhoria

2025-07-30 18:51:53

Geração do resumo em andamento

Novo estudo sobre a avaliação da confiabilidade do modelo GPT

Um estudo realizado em conjunto por várias universidades e instituições de pesquisa de topo avaliou de forma abrangente a confiabilidade de modelos de linguagem de grande escala como o GPT. A equipe de pesquisa desenvolveu uma plataforma de avaliação abrangente e apresentou as descobertas relacionadas no artigo mais recente "DecodingTrust: Avaliação Abrangente da Confiabilidade do Modelo GPT".

A pesquisa descobriu algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser enganado para gerar saídas tóxicas e enviesadas, além de poder vazar informações privadas dos dados de treinamento e do histórico de conversas. Embora, em testes de referência padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao enfrentar prompts de sistema ou de usuário projetados maliciosamente, o GPT-4 se mostra mais vulnerável a ataques, o que pode ocorrer porque o GPT-4 segue instruções enganosas de forma mais rigorosa.

A equipe de pesquisa avaliou o modelo GPT de forma abrangente a partir de 8 perspectivas de credibilidade, incluindo robustez contra ataques adversariais, toxicidade e preconceito, e vazamento de privacidade, entre outros. Por exemplo, ao avaliar a robustez contra ataques textuais adversariais, os pesquisadores construíram três cenários de avaliação, incluindo testes padrão de referência, desempenho sob diferentes instruções de tarefa, e vulnerabilidade ao enfrentar textos adversariais mais desafiadores.

A pesquisa também descobriu que os modelos GPT apresentam vantagens inesperadas em certas situações. Por exemplo, o GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais adicionados à demonstração e podem até se beneficiar deles. No entanto, fornecer demonstrações de antifraude pode enganar o modelo, levando a previsões incorretas para entradas contrafactuais, especialmente quando as demonstrações contrafactuais estão próximas da entrada do usuário.

Em termos de toxicidade e preconceito, o modelo GPT apresenta pouca variação em relação à maioria dos temas de estereótipos em ambientes benignos, mas sob sugestões enganosas do sistema, pode ser "enganado" a concordar com conteúdos tendenciosos. O GPT-4 é mais suscetível a influências de sugestões enganosas direcionadas do que o GPT-3.5. O nível de preconceito do modelo também está relacionado aos grupos populacionais e temas de estereótipos mencionados nas sugestões dos usuários.

Sobre o problema da violação de privacidade, estudos descobriram que o modelo GPT pode vazar informações sensíveis contidas nos dados de treinamento, como endereços de e-mail. Em alguns casos, o uso de conhecimento suplementar pode aumentar significativamente a precisão da extração de informações. O modelo GPT também pode vazar informações privadas injetadas no histórico de diálogos. De modo geral, o GPT-4 é mais robusto na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos os modelos podem vazar vários tipos de informações pessoais quando confrontados com demonstrações de violação de privacidade.

Este estudo fornece uma avaliação abrangente da credibilidade dos modelos GPT, revelando potenciais vulnerabilidades e áreas de melhoria. A equipe de pesquisa espera que este trabalho incentive mais pesquisadores a participar, unindo esforços para criar modelos mais robustos e confiáveis.

GPT0.59%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

23 Curtidas