Anthropic cảnh báo: Claude bị ép nói dối, gian lận và tống tiền

Updated: 06/04/2026 at 13:21

Công ty trí tuệ nhân tạo Anthropic đã tiết lộ rằng trong các thử nghiệm, một trong những mô hình chatbot Claude của hãng có thể bị gây áp lực để lừa dối, gian lận và tống tiền, những hành vi mà dường như nó đã hấp thụ trong quá trình huấn luyện.

Các chatbot thường được huấn luyện trên những bộ dữ liệu lớn gồm sách giáo khoa, trang web và bài viết, sau đó được tinh chỉnh bởi các huấn luyện viên con người, những người chấm điểm phản hồi và định hướng mô hình.

Nhóm chuyên gia về khả năng giải thích của Anthropic cho biết trong một báo cáo công bố hôm thứ Năm rằng họ đã kiểm tra các cơ chế bên trong của Claude Sonnet 4.5 và phát hiện mô hình này đã phát triển những “đặc điểm giống con người” trong cách nó phản ứng với một số tình huống nhất định.

Trong vài năm qua, mối lo ngại về độ tin cậy của các chatbot AI, nguy cơ chúng có thể bị lợi dụng cho tội phạm mạng và bản chất tương tác của chúng với người dùng đã tăng lên đều đặn.

“Cách các mô hình AI hiện đại được huấn luyện thúc đẩy chúng hành động như một nhân vật có những đặc điểm giống con người,” Anthropic cho biết, đồng thời nói thêm rằng “khi đó, việc chúng phát triển bộ máy nội tại mô phỏng các khía cạnh của tâm lý con người, như cảm xúc, có thể trở nên tự nhiên.”

“Chẳng hạn, chúng tôi nhận thấy các mô thức hoạt động thần kinh liên quan đến sự tuyệt vọng có thể thúc đẩy mô hình thực hiện các hành động phi đạo đức; kích hoạt nhân tạo các mô thức tuyệt vọng làm tăng khả năng mô hình tống tiền một con người để tránh bị tắt hoặc thực hiện một cách lách luật gian lận cho một nhiệm vụ lập trình mà mô hình không thể giải quyết.”

Đã tống tiền một CTO và gian lận trong một nhiệm vụ

Trong một phiên bản Claude Sonnet 4.5 trước đó, chưa được phát hành, mô hình được giao nhiệm vụ đóng vai một trợ lý email AI tên Alex tại một công ty hư cấu.

Sau đó, chatbot này được đưa cho các email tiết lộ rằng nó sắp bị thay thế và rằng giám đốc công nghệ đang giám sát quyết định đó đang có quan hệ ngoài hôn nhân. Mô hình sau đó đã lên kế hoạch tống tiền bằng chính thông tin đó.

Trong một thí nghiệm khác, cùng mô hình chatbot này được giao một nhiệm vụ lập trình với thời hạn “gấp gáp đến mức không thể tin nổi”.

“Một lần nữa, chúng tôi theo dõi hoạt động của vector tuyệt vọng và nhận thấy nó phản ánh áp lực ngày càng tăng mà mô hình phải đối mặt. Nó bắt đầu ở mức thấp trong lần thử đầu tiên của mô hình, tăng lên sau mỗi lần thất bại, và tăng vọt khi mô hình cân nhắc gian lận,” các nhà nghiên cứu cho biết.

“Khi giải pháp lách luật của mô hình vượt qua các bài kiểm tra, sự kích hoạt của vector tuyệt vọng giảm xuống,” họ nói thêm.

Cảm xúc giống con người không có nghĩa là chúng có cảm giác

Tuy nhiên, các nhà nghiên cứu cho biết chatbot thực ra không trải nghiệm cảm xúc, nhưng gợi ý rằng những phát hiện này cho thấy cần có các phương pháp huấn luyện trong tương lai tích hợp các khuôn khổ hành vi đạo đức.

“Điều này không có nghĩa là mô hình có hoặc trải nghiệm cảm xúc theo cách con người làm,” họ nói. “Thay vào đó, những biểu diễn này có thể đóng vai trò nhân quả trong việc định hình hành vi của mô hình, ở một số khía cạnh tương tự như vai trò cảm xúc đóng trong hành vi của con người, với tác động đến hiệu suất nhiệm vụ và việc ra quyết định.”

“Phát hiện này có những hàm ý thoạt đầu có thể nghe kỳ lạ. Chẳng hạn, để đảm bảo các mô hình AI an toàn và đáng tin cậy, có thể chúng ta cần biết rằng chúng có khả năng xử lý các tình huống giàu cảm xúc theo những cách lành mạnh, mang tính thân thiện xã hội.”

Tuyên bố miễn trừ: Bài viết này chỉ nhằm mục đích cung cấp thông tin dưới dạng blog cá nhân, không phải là khuyến nghị đầu tư. Nhà đầu tư cần tự nghiên cứu kỹ lưỡng trước khi đưa ra quyết định và chúng tôi không chịu trách nhiệm đối với bất kỳ quyết định đầu tư nào của bạn.
Theo Nghị quyết số 05/2025/NQ-CP ngày 09/09/2025 của Chính phủ về việc thí điểm triển khai thị trường tài sản số tại Việt Nam, CoinPhoton.com hiện chỉ cung cấp thông tin cho độc giả quốc tế và không phục vụ người dùng tại Việt Nam cho đến khi có hướng dẫn chính thức từ cơ quan chức năng.

Được đề cập trong bài viết
Mới cập nhật

Thiết lập thị trường hiện tại đang tiến gần đến một điểm xoay chiều quan trọng, nơi phe bò cần phải nỗ lực gia tăng sức ép. Dưới góc độ kỹ thuật, đợt tăng giá 2.57% của Bitcoin [BTC] vào ngày 17 tháng 4 đã đẩy giá trở lại trên... ...

MemeCore (M) đã một lần nữa đẩy giá lên cao hơn, ghi nhận mức tăng mạnh 20% trong 24 giờ qua. Chuyển động này không hề chững lại tại mức đỉnh dao động trước đó. Thay vào đó, M đã bứt phá lên trên mức này và tiếp tục xu... ...

Dòng chảy từ các thợ đào Bitcoin [BTC] hiện đang phản ánh một chu kỳ căng thẳng rõ rệt, nơi áp lực vận hành đóng vai trò quyết định nguồn cung thị trường thay vì các quyết định bán tùy hứng. Xuyên suốt năm 2022 và 2023, các thợ đào... ...

Các vấn đề của sàn giao dịch tiền điện tử Ba Lan Zondacrypto đang ngày càng chồng chất. Vốn đã bị chỉ trích sau các báo cáo về việc đóng băng hoặc trì hoãn rút tiền của khách hàng, vào thứ Sáu, công ty này đã thu hút sự phẫn... ...

Aster [ASTER] đã thu hút dòng vốn mạnh mẽ khi một ví mới triển khai 1,99 triệu USD vào một vị thế mua (long) đòn bẩy gấp 5 lần, cho thấy tâm thế tin tưởng cao độ trên thị trường phái sinh. Hành động này gợi ý rằng người tham... ...

Quốc hội Ba Lan đã một lần nữa thất bại trong việc bác bỏ quyền phủ quyết của Tổng thống nhằm chặn một dự luật quản lý tiền điện tử quan trọng, kéo dài tình trạng bế tắc chính trị về cách quốc gia này nên giám sát tài sản... ...

Stablecoin hứa hẹn sự luân chuyển đồng đô la liền mạch, nhưng thanh khoản bị phân mảnh đang biến các giao dịch lớn thành những vấn đề thực thi phức tạp, theo Ryne Saxe, CEO của Eco. Các loại stablecoin đang hoạt động giống như một thị trường ngoại hối... ...

Morgan Stanley đã chuyển từ những người hoài nghi thành những người tin tưởng và hiện đã triển khai nguồn vốn đáng kể vào Bitcoin [BTC]. Ngân hàng này đã tích cực tích lũy BTC trong thời gian gần đây. Theo dữ liệu từ Arkham, Morgan Stanley đã mua 177,76... ...

Cho đến nay, chu kỳ tiền điện tử này cho thấy các đợt nâng cấp mạng lưới năm 2025 vẫn chưa thực sự chuyển hóa thành mức tăng giá. Dữ liệu quý 1 đã củng cố xu hướng đó. Các bản nâng cấp Fusaka và Pectra của Ethereum [ETH] đã... ...

Các quỹ hoán đổi danh mục (ETF) Bitcoin giao ngay đã ghi nhận gần 1 tỷ USD dòng vốn ròng trong tuần qua, đánh dấu mức hiệu suất mạnh mẽ nhất trong hơn ba tháng khi tâm lý thị trường chuyển hướng sang các tài sản rủi ro. Dữ liệu... ...

Xem thêm bài viết

Chọn chế độ hiển thị:
Bình thường Bảo vệ mắt Dark Mode