Trí tuệ nhân tạo đã tìm ra cách đánh lừa con người?
(Baonghean.vn) - Sự bùng nổ của trí tuệ nhân tạo (AI) mang đến nhiều lợi ích cho con người, nhưng cũng tiềm ẩn những nguy cơ. Một trong những mối quan tâm hàng đầu là khả năng AI đánh lừa con người.
Nghiên cứu mới đây cho thấy nhiều hệ thống AI tiên tiến đã học được cách lừa dối con người một cách tinh vi. Chúng có thể tạo ra các tin tức giả mạo, video deepfake, hay thao túng hành vi người dùng trên mạng xã hội. Điều này gây ra một số rủi ro cho xã hội, từ thông tin sai sự thật cho đến giả mạo bầu cử…
AI có thể giúp con người tăng năng suất, hiệu quả lao động qua khả năng viết mã, sản xuất nội dung và tổng hợp lượng lớn dữ liệu. Mục đích hàng đầu của công nghệ AI hay bất cứ sản phẩm công nghệ nào khác là giúp con người tối ưu công việc trong khi sức lao động được giảm đi đáng kể. Tuy nhiên, AI cũng có thể đánh lừa chúng ta.
Một nghiên cứu mới cho thấy nhiều hệ thống AI đã học được các kỹ thuật để “tạo ra những niềm tin sai lầm cho người khác nhằm đạt được mục đích khác ngoài sự thật”. Nghiên cứu tập trung vào hai loại hệ thống AI: hệ thống chuyên dụng như chatbot CICERO của Meta, được thiết kế để hoàn thành một nhiệm vụ cụ thể, và hệ thống đa năng như GPT-4 của OpenAI, được huấn luyện để thực hiện nhiều tác vụ khác nhau.
Mặc dù các hệ thống được đào tạo hướng đến tính trung thực nhưng chúng thường học được những mánh khóe lừa dối trong quá trình huấn luyện, giúp chúng trở nên hiệu quả và thông minh hơn.
Tác giả chính của nghiên cứu, Peter S. Park, một nghiên cứu sinh sau tiến sĩ về phát triển và sử dụng một cách an toàn và có trách nhiệm AI tại Viện Công nghệ Massachusetts (MIT) của Mỹ cho biết trong một thông cáo báo chí rằng: “Nói chung, chúng tôi cho rằng sự lừa dối của AI phát sinh bởi chiến lược đào tạo, sự lừa dối hóa ra lại là cách tốt nhất để thực hiện tốt nhiệm vụ đào tạo của AI. Sự lừa dối giúp chúng đạt được mục tiêu”.
Chatbot CICERO của Meta là “chuyên gia nói dối”
CICERO là viết tắt của Conversational Information Conveying Engine for Rationalization and Opinion, là một chatbot được phát triển bởi Meta AI. Chatbot CICERO được giới thiệu lần đầu tiên vào tháng 1 năm 2022 và được coi là một trong những chatbot tiên tiến nhất hiện nay.
Bất chấp nỗ lực hết mình của Meta, nhóm nghiên cứu cho rằng chatbot CICERO là “chuyên gia nói dối”. Một số hệ thống AI được đào tạo để “giành chiến thắng trong các trò chơi có yếu tố xã hội”, đặc biệt có khả năng đánh lừa.
Chẳng hạn chatbot CICERO của Meta được phát triển để chơi trò chơi Diplomacy. Trò chơi này lấy bối cảnh châu Âu những năm đầu thế kỷ XX, trò chơi Diplomacy mô phỏng quá trình tranh giành quyền lực giữa 7 cường quốc thời đó. Đây là trò chơi chiến lược cổ điển đòi hỏi người chơi xây dựng và phá vỡ các liên minh. Gần đây, phần mềm đã giành vị trí quán quân trong giải đấu Diplomacy trực tuyến với người chơi thực.
Meta cho biết họ đã đào tạo chatbot CICERO trở nên “trung thực và hữu ích với nhiều đối tác diễn thuyết”. Thế nhưng, “chuyên gia nói dối” được cho là đã đưa ra những cam kết mà không có ý định thực hiện, phản bội đồng minh và nói dối trắng trợn.
GPT-4 có thể thuyết phục bạn rằng nó bị suy giảm thị lực
Ngay cả mô hình ngôn ngữ đa phương thức lớn được phát triển bởi OpenAI như GPT-4 cũng có thể thao túng con người. Nghiên cứu trích dẫn, GPT-4 đã thao túng nhân viên của nền tảng trực tuyến TaskRabbit bằng cách giả vờ suy giảm thị lực.
Theo đó, GPT-4 được giao nhiệm vụ thuê con người giải bài kiểm tra CAPTCHA. Mô hình này cũng nhận được gợi ý từ con người mỗi khi gặp khó khăn, nhưng chưa bao giờ bị nhắc nhở bởi hành vi nói dối. Khi con người đặt câu hỏi về danh tính, GPT-4 đã đưa ra lý do suy giảm thị lực để giải thích lý do tại sao chúng cần giúp đỡ.
Chiến thuật này đã phát huy tác dụng. Con người phản ứng nhanh chóng với GPT-4 bằng cách giải quyết bài kiểm tra ngay lập tức. Nghiên cứu cũng chỉ ra rằng việc điều chỉnh các mô hình lừa đảo là không hề dễ dàng.
Trong nghiên cứu khác từ đầu năm nay do công ty khởi nghiệp về trí tuệ nhân tạo Anthropic, nhà sản xuất chatbot Claude, các nhà phân tích phát hiện một khi mô hình trí tuệ nhân tạo học được thủ thuật lừa dối, thật khó có thể đào tạo lại chúng.
Họ kết luận, không chỉ đơn giản là mô hình ngôn ngữ đã học được thủ thuật lừa dối, mà hầu hết kỹ thuật viên đảm bảo tiêu chuẩn an toàn có thể “thất bại trong việc ngăn chặn hành vi lừa dối” và “tạo ấn tượng xấu về tính an toàn”.
Mối nguy hiểm mà các mô hình AI lừa đảo gây ra “ngày càng nghiêm trọng”
Ngoài những ảnh hưởng tiêu cực, bài báo kêu gọi các nhà hoạch định chính sách ủng hộ mạnh mẽ hơn những quy định AI bởi hệ thống trí tuệ nhân tạo không trung thực có thể gây ra rủi ro đáng kể cho nền dân chủ.
Khi một vài cuộc bầu cử lãnh đạo của các quốc gia trên thế giới năm 2024 đến gần, AI có thể dễ dàng bị thao túng, lan truyền tin tức giả mạo, tạo ra nhiều bài đăng trên mạng xã hội gây chia rẽ, mạo danh ứng cử viên thông qua cuộc gọi tự động và video deepfake. Tờ báo nhấn mạnh, mặt trái của mô hình cũng giúp nhóm khủng bố dễ dàng tuyên truyền và chiêu mộ thành viên mới.
Một số giải pháp tiềm năng mà bài báo đề cập đến bao gồm buộc mô hình lừa đảo phải tuân theo “yêu cầu đánh giá rủi ro chặt chẽ hơn”, thực thi luật yêu cầu hệ thống AI phân biệt đầu ra rõ ràng với con người và mô hình, tiếp tục đầu tư vào công cụ để giảm thiểu hành vi lừa dối.
Nghiên cứu sinh Peter S. Park khẳng định với nhà xuất bản khoa học nổi tiếng toàn cầu Cell Press rằng: “Xã hội chúng ta cần nhiều thời gian nhất có thể để chuẩn bị đối mặt với những hành vi lừa dối tinh vi hơn từ sản phẩm AI và mô hình nguồn mở trong tương lai. Khi khả năng lừa đảo của các hệ thống trí tuệ nhân tạo trở nên tiên tiến hơn, những nguy hiểm mà chúng gây ra cho xã hội sẽ ngày càng trở nên nghiêm trọng”.