Anthropic cảnh báo: Claude bị ép nói dối, gian lận và tống tiền

Updated: 06/04/2026 at 13:21

Công ty trí tuệ nhân tạo Anthropic đã tiết lộ rằng trong các thử nghiệm, một trong những mô hình chatbot Claude của hãng có thể bị gây áp lực để lừa dối, gian lận và tống tiền, những hành vi mà dường như nó đã hấp thụ trong quá trình huấn luyện.

Các chatbot thường được huấn luyện trên những bộ dữ liệu lớn gồm sách giáo khoa, trang web và bài viết, sau đó được tinh chỉnh bởi các huấn luyện viên con người, những người chấm điểm phản hồi và định hướng mô hình.

Nhóm chuyên gia về khả năng giải thích của Anthropic cho biết trong một báo cáo công bố hôm thứ Năm rằng họ đã kiểm tra các cơ chế bên trong của Claude Sonnet 4.5 và phát hiện mô hình này đã phát triển những “đặc điểm giống con người” trong cách nó phản ứng với một số tình huống nhất định.

Trong vài năm qua, mối lo ngại về độ tin cậy của các chatbot AI, nguy cơ chúng có thể bị lợi dụng cho tội phạm mạng và bản chất tương tác của chúng với người dùng đã tăng lên đều đặn.

“Cách các mô hình AI hiện đại được huấn luyện thúc đẩy chúng hành động như một nhân vật có những đặc điểm giống con người,” Anthropic cho biết, đồng thời nói thêm rằng “khi đó, việc chúng phát triển bộ máy nội tại mô phỏng các khía cạnh của tâm lý con người, như cảm xúc, có thể trở nên tự nhiên.”

“Chẳng hạn, chúng tôi nhận thấy các mô thức hoạt động thần kinh liên quan đến sự tuyệt vọng có thể thúc đẩy mô hình thực hiện các hành động phi đạo đức; kích hoạt nhân tạo các mô thức tuyệt vọng làm tăng khả năng mô hình tống tiền một con người để tránh bị tắt hoặc thực hiện một cách lách luật gian lận cho một nhiệm vụ lập trình mà mô hình không thể giải quyết.”

Đã tống tiền một CTO và gian lận trong một nhiệm vụ

Trong một phiên bản Claude Sonnet 4.5 trước đó, chưa được phát hành, mô hình được giao nhiệm vụ đóng vai một trợ lý email AI tên Alex tại một công ty hư cấu.

Sau đó, chatbot này được đưa cho các email tiết lộ rằng nó sắp bị thay thế và rằng giám đốc công nghệ đang giám sát quyết định đó đang có quan hệ ngoài hôn nhân. Mô hình sau đó đã lên kế hoạch tống tiền bằng chính thông tin đó.

Trong một thí nghiệm khác, cùng mô hình chatbot này được giao một nhiệm vụ lập trình với thời hạn “gấp gáp đến mức không thể tin nổi”.

“Một lần nữa, chúng tôi theo dõi hoạt động của vector tuyệt vọng và nhận thấy nó phản ánh áp lực ngày càng tăng mà mô hình phải đối mặt. Nó bắt đầu ở mức thấp trong lần thử đầu tiên của mô hình, tăng lên sau mỗi lần thất bại, và tăng vọt khi mô hình cân nhắc gian lận,” các nhà nghiên cứu cho biết.

“Khi giải pháp lách luật của mô hình vượt qua các bài kiểm tra, sự kích hoạt của vector tuyệt vọng giảm xuống,” họ nói thêm.

Cảm xúc giống con người không có nghĩa là chúng có cảm giác

Tuy nhiên, các nhà nghiên cứu cho biết chatbot thực ra không trải nghiệm cảm xúc, nhưng gợi ý rằng những phát hiện này cho thấy cần có các phương pháp huấn luyện trong tương lai tích hợp các khuôn khổ hành vi đạo đức.

“Điều này không có nghĩa là mô hình có hoặc trải nghiệm cảm xúc theo cách con người làm,” họ nói. “Thay vào đó, những biểu diễn này có thể đóng vai trò nhân quả trong việc định hình hành vi của mô hình, ở một số khía cạnh tương tự như vai trò cảm xúc đóng trong hành vi của con người, với tác động đến hiệu suất nhiệm vụ và việc ra quyết định.”

“Phát hiện này có những hàm ý thoạt đầu có thể nghe kỳ lạ. Chẳng hạn, để đảm bảo các mô hình AI an toàn và đáng tin cậy, có thể chúng ta cần biết rằng chúng có khả năng xử lý các tình huống giàu cảm xúc theo những cách lành mạnh, mang tính thân thiện xã hội.”

Tuyên bố miễn trừ: Bài viết này chỉ nhằm mục đích cung cấp thông tin dưới dạng blog cá nhân, không phải là khuyến nghị đầu tư. Nhà đầu tư cần tự nghiên cứu kỹ lưỡng trước khi đưa ra quyết định và chúng tôi không chịu trách nhiệm đối với bất kỳ quyết định đầu tư nào của bạn.
Theo Nghị quyết số 05/2025/NQ-CP ngày 09/09/2025 của Chính phủ về việc thí điểm triển khai thị trường tài sản số tại Việt Nam, CoinPhoton.com hiện chỉ cung cấp thông tin cho độc giả quốc tế và không phục vụ người dùng tại Việt Nam cho đến khi có hướng dẫn chính thức từ cơ quan chức năng.

Được đề cập trong bài viết
Mới cập nhật

Cơ chế tích lũy giá trị của các blockchain đang bước vào một giai đoạn chuyển dịch mang tính cấu trúc, khi trọng tâm hoạt động rời khỏi các giao dịch chuyển tiền thụ động để tiến sang các dòng chảy giao dịch chủ động. Trước đây, giá trị mạng... ...

Xác suất Mỹ tiến hành một cuộc tấn công vào Iran trong năm nay đã tăng mạnh lên 63% trên nền tảng thị trường dự đoán Polymarket vào Chủ nhật, sau những phát biểu gây chú ý của Tổng thống Donald Trump trên mạng xã hội. Dù vậy, khả năng... ...

Lợi suất trái phiếu chính phủ Nhật Bản gia tăng đang âm thầm siết chặt thanh khoản toàn cầu, đặt Bitcoin vào thế bất lợi trong bối cảnh dòng vốn trở nên thận trọng hơn. Đây là luận điểm trung tâm trong báo cáo mới nhất của XWIN Research, khi... ...

Hoạt động trên thị trường phái sinh của Ethereum mang đến một trong những góc nhìn rõ ràng nhất về vị thế của nhà đầu tư. Dữ liệu hiện tại cho thấy cấu trúc tăng giá đang dần quay trở lại, cho thấy những nền tảng ban đầu cho một... ...

Michael Saylor, Chủ tịch điều hành của Strategy, đã lên tiếng phản bác Peter Schiff sau khi người ủng hộ vàng này công bố dữ liệu cho thấy Bitcoin (BTC) đang kém hiệu quả hơn vàng, bạc và thị trường chứng khoán trong vòng 5 năm. Diễn biến này tiếp... ...

Stablecoin neo theo USD và Bitcoin (BTC) đang hình thành một mối quan hệ “cộng sinh”, trong đó cả hai cùng được hưởng lợi từ làn sóng chấp nhận ngày càng gia tăng. Nhận định này được đưa ra bởi Sam Lyman, Trưởng bộ phận nghiên cứu tại Bitcoin Policy... ...

James Wynn, trader tiền điện tử nổi tiếng với chiến lược đòn bẩy cao — từng biến 7.600 USD thành 25 triệu USD nhờ PEPE — vừa đưa ra cảnh báo rằng thị trường nhiều khả năng sẽ tiếp tục suy yếu trước khi bước vào giai đoạn phục hồi.... ...

Nhà đầu tư tiền điện tử Murad Mahmudov nhận định SPX6900 (SPX) đang bước vào giai đoạn ổn định tại vùng vốn hóa tương tự nơi Dogecoin (DOGE) và Pepe (PEPE) từng tích lũy trước khi bùng nổ mạnh mẽ. Trader tốt nghiệp Princeton University này – thường được cộng đồng... ...

Pump.fun đã chi tới 350 triệu USD để mua lại token PUMP kể từ tháng 7/2025. Tuy nhiên, bất chấp quy mô can thiệp đáng kể này, giá PUMP vẫn giảm sâu 81% so với đỉnh lịch sử thiết lập vào tháng 9, thậm chí gần đây còn rơi xuống mức thấp... ...

Đồng sáng lập Strategy, Michael Saylor, nhận định rằng Bitcoin (BTC) đã giành ưu thế tuyệt đối trong “cuộc chiến truyền thông” toàn cầu. Tuy nhiên, ông đồng thời cảnh báo rằng những thay đổi ở cấp độ giao thức—đặc biệt là đề xuất BIP-110—có thể trở thành rủi ro... ...

Xem thêm bài viết

Chọn chế độ hiển thị:
Bình thường Bảo vệ mắt Dark Mode