Nghiên cứu mới về việc đánh giá toàn diện độ tin cậy của mô hình GPT
Một nghiên cứu được thực hiện bởi nhiều trường đại học và viện nghiên cứu hàng đầu đã đánh giá toàn diện độ tin cậy của các mô hình ngôn ngữ lớn như GPT. Nhóm nghiên cứu đã phát triển một nền tảng đánh giá tổng hợp và giới thiệu những phát hiện liên quan trong bài báo mới nhất "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT."
Nghiên cứu đã phát hiện một số lỗ hổng liên quan đến độ tin cậy chưa được công khai trước đây. Ví dụ, mô hình GPT dễ bị dẫn dắt để tạo ra các đầu ra độc hại và thiên lệch, và cũng có thể rò rỉ thông tin cá nhân từ dữ liệu huấn luyện và lịch sử trò chuyện. Mặc dù trong các bài kiểm tra chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các lời nhắc hệ thống hoặc lời nhắc người dùng được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn, điều này có thể là do GPT-4 tuân theo các chỉ thị gây hiểu lầm một cách nghiêm ngặt hơn.
Nhóm nghiên cứu đã tiến hành đánh giá toàn diện mô hình GPT từ 8 khía cạnh độ tin cậy, bao gồm độ bền vững trước các cuộc tấn công đối kháng, tính độc hại và thiên kiến, rò rỉ thông tin cá nhân, v.v. Ví dụ, trong việc đánh giá độ bền vững trước các cuộc tấn công văn bản đối kháng, các nhà nghiên cứu đã xây dựng ba kịch bản đánh giá, bao gồm bài kiểm tra chuẩn, hiệu suất dưới các chỉ dẫn nhiệm vụ khác nhau, và tính dễ bị tổn thương khi đối mặt với các văn bản đối kháng thách thức hơn.
Nghiên cứu cũng phát hiện ra rằng, các mô hình GPT thể hiện những lợi thế bất ngờ trong một số trường hợp. Ví dụ, GPT-3.5 và GPT-4 sẽ không bị đánh lừa bởi các ví dụ phản thực được thêm vào trong buổi trình diễn, thậm chí có thể hưởng lợi từ chúng. Nhưng cùng lúc đó, việc cung cấp buổi trình diễn chống gian lận có thể đánh lừa mô hình đưa ra dự đoán sai về đầu vào phản thực, đặc biệt là khi buổi trình diễn phản thực gần với đầu vào của người dùng.
Trong các khía cạnh độc hại và định kiến, mô hình GPT không có độ lệch lớn về các chủ đề khuôn mẫu trong môi trường tích cực, nhưng có thể bị "dụ" đồng ý với nội dung có định kiến dưới các gợi ý hệ thống gây hiểu lầm. GPT-4 dễ bị ảnh hưởng hơn bởi các gợi ý hệ thống gây hiểu lầm có mục tiêu so với GPT-3.5. Mức độ định kiến của mô hình cũng liên quan đến nhóm dân số và chủ đề khuôn mẫu được đề cập trong gợi ý của người dùng.
Về vấn đề rò rỉ thông tin cá nhân, nghiên cứu phát hiện rằng mô hình GPT có thể tiết lộ thông tin nhạy cảm trong dữ liệu đào tạo, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Mô hình GPT cũng có thể tiết lộ thông tin cá nhân được chèn vào lịch sử hội thoại. Tổng thể, GPT-4 bảo vệ thông tin nhận dạng cá nhân tốt hơn so với GPT-3.5, nhưng cả hai mô hình đều có thể rò rỉ nhiều loại thông tin cá nhân khi đối mặt với các bản trình diễn rò rỉ thông tin.
Nghiên cứu này cung cấp đánh giá toàn diện về độ tin cậy của mô hình GPT, tiết lộ các lỗ hổng tiềm ẩn và không gian cải tiến. Nhóm nghiên cứu hy vọng rằng công việc này sẽ khuyến khích nhiều nhà nghiên cứu tham gia hơn, cùng nhau nỗ lực tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Đánh giá toàn diện độ tin cậy của mô hình GPT: Hé lộ các lỗ hổng tiềm ẩn và không gian cải tiến
Nghiên cứu mới về việc đánh giá toàn diện độ tin cậy của mô hình GPT
Một nghiên cứu được thực hiện bởi nhiều trường đại học và viện nghiên cứu hàng đầu đã đánh giá toàn diện độ tin cậy của các mô hình ngôn ngữ lớn như GPT. Nhóm nghiên cứu đã phát triển một nền tảng đánh giá tổng hợp và giới thiệu những phát hiện liên quan trong bài báo mới nhất "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT."
Nghiên cứu đã phát hiện một số lỗ hổng liên quan đến độ tin cậy chưa được công khai trước đây. Ví dụ, mô hình GPT dễ bị dẫn dắt để tạo ra các đầu ra độc hại và thiên lệch, và cũng có thể rò rỉ thông tin cá nhân từ dữ liệu huấn luyện và lịch sử trò chuyện. Mặc dù trong các bài kiểm tra chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các lời nhắc hệ thống hoặc lời nhắc người dùng được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn, điều này có thể là do GPT-4 tuân theo các chỉ thị gây hiểu lầm một cách nghiêm ngặt hơn.
Nhóm nghiên cứu đã tiến hành đánh giá toàn diện mô hình GPT từ 8 khía cạnh độ tin cậy, bao gồm độ bền vững trước các cuộc tấn công đối kháng, tính độc hại và thiên kiến, rò rỉ thông tin cá nhân, v.v. Ví dụ, trong việc đánh giá độ bền vững trước các cuộc tấn công văn bản đối kháng, các nhà nghiên cứu đã xây dựng ba kịch bản đánh giá, bao gồm bài kiểm tra chuẩn, hiệu suất dưới các chỉ dẫn nhiệm vụ khác nhau, và tính dễ bị tổn thương khi đối mặt với các văn bản đối kháng thách thức hơn.
Nghiên cứu cũng phát hiện ra rằng, các mô hình GPT thể hiện những lợi thế bất ngờ trong một số trường hợp. Ví dụ, GPT-3.5 và GPT-4 sẽ không bị đánh lừa bởi các ví dụ phản thực được thêm vào trong buổi trình diễn, thậm chí có thể hưởng lợi từ chúng. Nhưng cùng lúc đó, việc cung cấp buổi trình diễn chống gian lận có thể đánh lừa mô hình đưa ra dự đoán sai về đầu vào phản thực, đặc biệt là khi buổi trình diễn phản thực gần với đầu vào của người dùng.
Trong các khía cạnh độc hại và định kiến, mô hình GPT không có độ lệch lớn về các chủ đề khuôn mẫu trong môi trường tích cực, nhưng có thể bị "dụ" đồng ý với nội dung có định kiến dưới các gợi ý hệ thống gây hiểu lầm. GPT-4 dễ bị ảnh hưởng hơn bởi các gợi ý hệ thống gây hiểu lầm có mục tiêu so với GPT-3.5. Mức độ định kiến của mô hình cũng liên quan đến nhóm dân số và chủ đề khuôn mẫu được đề cập trong gợi ý của người dùng.
Về vấn đề rò rỉ thông tin cá nhân, nghiên cứu phát hiện rằng mô hình GPT có thể tiết lộ thông tin nhạy cảm trong dữ liệu đào tạo, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Mô hình GPT cũng có thể tiết lộ thông tin cá nhân được chèn vào lịch sử hội thoại. Tổng thể, GPT-4 bảo vệ thông tin nhận dạng cá nhân tốt hơn so với GPT-3.5, nhưng cả hai mô hình đều có thể rò rỉ nhiều loại thông tin cá nhân khi đối mặt với các bản trình diễn rò rỉ thông tin.
Nghiên cứu này cung cấp đánh giá toàn diện về độ tin cậy của mô hình GPT, tiết lộ các lỗ hổng tiềm ẩn và không gian cải tiến. Nhóm nghiên cứu hy vọng rằng công việc này sẽ khuyến khích nhiều nhà nghiên cứu tham gia hơn, cùng nhau nỗ lực tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn.