Công ty trí tuệ nhân tạo Anthropic đã tiết lộ rằng trong các thử nghiệm, một trong những mô hình chatbot Claude của hãng có thể bị gây áp lực để lừa dối, gian lận và tống tiền, những hành vi mà dường như nó đã hấp thụ trong quá trình huấn luyện.
Các chatbot thường được huấn luyện trên những bộ dữ liệu lớn gồm sách giáo khoa, trang web và bài viết, sau đó được tinh chỉnh bởi các huấn luyện viên con người, những người chấm điểm phản hồi và định hướng mô hình.
Nhóm chuyên gia về khả năng giải thích của Anthropic cho biết trong một báo cáo công bố hôm thứ Năm rằng họ đã kiểm tra các cơ chế bên trong của Claude Sonnet 4.5 và phát hiện mô hình này đã phát triển những “đặc điểm giống con người” trong cách nó phản ứng với một số tình huống nhất định.
Trong vài năm qua, mối lo ngại về độ tin cậy của các chatbot AI, nguy cơ chúng có thể bị lợi dụng cho tội phạm mạng và bản chất tương tác của chúng với người dùng đã tăng lên đều đặn.

“Cách các mô hình AI hiện đại được huấn luyện thúc đẩy chúng hành động như một nhân vật có những đặc điểm giống con người,” Anthropic cho biết, đồng thời nói thêm rằng “khi đó, việc chúng phát triển bộ máy nội tại mô phỏng các khía cạnh của tâm lý con người, như cảm xúc, có thể trở nên tự nhiên.”
“Chẳng hạn, chúng tôi nhận thấy các mô thức hoạt động thần kinh liên quan đến sự tuyệt vọng có thể thúc đẩy mô hình thực hiện các hành động phi đạo đức; kích hoạt nhân tạo các mô thức tuyệt vọng làm tăng khả năng mô hình tống tiền một con người để tránh bị tắt hoặc thực hiện một cách lách luật gian lận cho một nhiệm vụ lập trình mà mô hình không thể giải quyết.”
Đã tống tiền một CTO và gian lận trong một nhiệm vụ
Trong một phiên bản Claude Sonnet 4.5 trước đó, chưa được phát hành, mô hình được giao nhiệm vụ đóng vai một trợ lý email AI tên Alex tại một công ty hư cấu.
Sau đó, chatbot này được đưa cho các email tiết lộ rằng nó sắp bị thay thế và rằng giám đốc công nghệ đang giám sát quyết định đó đang có quan hệ ngoài hôn nhân. Mô hình sau đó đã lên kế hoạch tống tiền bằng chính thông tin đó.
Trong một thí nghiệm khác, cùng mô hình chatbot này được giao một nhiệm vụ lập trình với thời hạn “gấp gáp đến mức không thể tin nổi”.
“Một lần nữa, chúng tôi theo dõi hoạt động của vector tuyệt vọng và nhận thấy nó phản ánh áp lực ngày càng tăng mà mô hình phải đối mặt. Nó bắt đầu ở mức thấp trong lần thử đầu tiên của mô hình, tăng lên sau mỗi lần thất bại, và tăng vọt khi mô hình cân nhắc gian lận,” các nhà nghiên cứu cho biết.
“Khi giải pháp lách luật của mô hình vượt qua các bài kiểm tra, sự kích hoạt của vector tuyệt vọng giảm xuống,” họ nói thêm.
Cảm xúc giống con người không có nghĩa là chúng có cảm giác
Tuy nhiên, các nhà nghiên cứu cho biết chatbot thực ra không trải nghiệm cảm xúc, nhưng gợi ý rằng những phát hiện này cho thấy cần có các phương pháp huấn luyện trong tương lai tích hợp các khuôn khổ hành vi đạo đức.
“Điều này không có nghĩa là mô hình có hoặc trải nghiệm cảm xúc theo cách con người làm,” họ nói. “Thay vào đó, những biểu diễn này có thể đóng vai trò nhân quả trong việc định hình hành vi của mô hình, ở một số khía cạnh tương tự như vai trò cảm xúc đóng trong hành vi của con người, với tác động đến hiệu suất nhiệm vụ và việc ra quyết định.”
“Phát hiện này có những hàm ý thoạt đầu có thể nghe kỳ lạ. Chẳng hạn, để đảm bảo các mô hình AI an toàn và đáng tin cậy, có thể chúng ta cần biết rằng chúng có khả năng xử lý các tình huống giàu cảm xúc theo những cách lành mạnh, mang tính thân thiện xã hội.”
Tuyên bố miễn trừ: Bài viết này chỉ nhằm mục đích cung cấp thông tin dưới dạng blog cá nhân, không phải là khuyến nghị đầu tư. Nhà đầu tư cần tự nghiên cứu kỹ lưỡng trước khi đưa ra quyết định và chúng tôi không chịu trách nhiệm đối với bất kỳ quyết định đầu tư nào của bạn.
Theo Nghị quyết số 05/2025/NQ-CP ngày 09/09/2025 của Chính phủ về việc thí điểm triển khai thị trường tài sản số tại Việt Nam, CoinPhoton.com hiện chỉ cung cấp thông tin cho độc giả quốc tế và không phục vụ người dùng tại Việt Nam cho đến khi có hướng dẫn chính thức từ cơ quan chức năng.

Bitcoin
Ethereum
Tether
XRP
USDC
Solana
TRON
Figure Heloc
Dogecoin
USDS
WhiteBIT Coin
Cardano
LEO Token
Hyperliquid
Bitcoin Cash
Chainlink
Monero
Ethena USDe 



















