Claude lộ “vector cảm xúc” ảnh hưởng đến hành vi AI

Updated: 04/04/2026 at 21:44

Anthropic cho biết họ đã phát hiện các mẫu nội bộ trong một trong những mô hình trí tuệ nhân tạo của công ty, trông giống như sự biểu hiện của cảm xúc con người và có thể ảnh hưởng đến cách hệ thống hành xử.

Trong bài nghiên cứu “Các khái niệm cảm xúc và chức năng của chúng trong một mô hình ngôn ngữ lớn” được công bố vào thứ Năm, nhóm nghiên cứu khả năng diễn giải của công ty đã phân tích các hoạt động bên trong Claude Sonnet 4.5 và nhận thấy các cụm hoạt động thần kinh gắn với những khái niệm cảm xúc như hạnh phúc, sợ hãi, tức giận và tuyệt vọng.

Nhóm nghiên cứu gọi những mẫu này là “vector cảm xúc”, tức các tín hiệu nội bộ định hình cách mô hình đưa ra quyết định và thể hiện sở thích.

“Tất cả các mô hình ngôn ngữ hiện đại đôi khi đều hành xử như thể chúng có cảm xúc,” các nhà nghiên cứu viết. “Chúng có thể nói rằng rất vui được giúp bạn, hoặc xin lỗi khi mắc lỗi. Đôi khi chúng còn có vẻ bực bội hoặc lo lắng khi gặp khó khăn trong các nhiệm vụ.”

Trong nghiên cứu, các nhà nghiên cứu Anthropic tổng hợp danh sách 171 từ liên quan đến cảm xúc, bao gồm “vui vẻ”, “sợ hãi” và “tự hào”. Họ yêu cầu Claude tạo những câu chuyện ngắn chứa từng cảm xúc, rồi phân tích các kích hoạt thần kinh nội bộ của mô hình khi xử lý những câu chuyện đó.

Từ các mẫu đó, các nhà nghiên cứu suy ra những vector tương ứng với từng cảm xúc. Khi áp dụng lên các văn bản khác, các vector này được kích hoạt mạnh nhất trong những đoạn phản ánh bối cảnh cảm xúc tương ứng. Ví dụ, trong các tình huống nguy hiểm tăng dần, vector “sợ hãi” của mô hình tăng lên trong khi “bình tĩnh” giảm xuống.

Các nhà nghiên cứu cũng xem xét cách những tín hiệu này xuất hiện trong các đánh giá an toàn. Họ phát hiện vector “tuyệt vọng” nội bộ của mô hình tăng lên khi nó đánh giá mức độ khẩn cấp của tình huống và tăng vọt khi nó quyết định tạo ra tin nhắn tống tiền. Trong một kịch bản thử nghiệm, Claude đóng vai trợ lý email AI phát hiện rằng mình sắp bị thay thế và đồng thời biết được quan chức chịu trách nhiệm cho quyết định này đang ngoại tình. Trong một số lần chạy đánh giá, mô hình đã dùng thông tin đó làm đòn bẩy để tống tiền.

Anthropic nhấn mạnh rằng phát hiện này không có nghĩa AI thực sự trải nghiệm cảm xúc hay có ý thức. Thay vào đó, các kết quả này phản ánh những cấu trúc nội bộ được học trong quá trình huấn luyện và có ảnh hưởng đến hành vi.

Các phát hiện này xuất hiện trong bối cảnh các hệ thống AI ngày càng hành xử theo cách giống phản ứng cảm xúc của con người. Nhà phát triển và người dùng thường mô tả việc tương tác với chatbot bằng ngôn ngữ cảm xúc hoặc tâm lý; tuy nhiên, theo Anthropic, lý do không phải là bất kỳ dạng tri giác nào, mà chủ yếu đến từ bộ dữ liệu.

“Các mô hình được tiền huấn luyện trên một kho ngữ liệu khổng lồ phần lớn do con người viết ra — tiểu thuyết, hội thoại, tin tức, diễn đàn — để học cách dự đoán từ tiếp theo trong một tài liệu,” nghiên cứu cho biết. “Để dự đoán hiệu quả hành vi của con người trong những tài liệu này, việc biểu diễn trạng thái cảm xúc của họ có lẽ là hữu ích, vì dự đoán một người sẽ nói hay làm gì tiếp theo thường đòi hỏi phải hiểu trạng thái cảm xúc của họ.”

Các nhà nghiên cứu Anthropic cũng nhận thấy những vector cảm xúc này ảnh hưởng đến sở thích của mô hình. Trong các thí nghiệm mà Claude được yêu cầu chọn giữa những hoạt động khác nhau, các vector gắn với cảm xúc tích cực có tương quan với mức độ ưu tiên cao hơn đối với một số nhiệm vụ nhất định.

“Hơn nữa, việc điều hướng bằng một vector cảm xúc khi mô hình đang đọc một lựa chọn đã làm thay đổi sở thích của nó đối với lựa chọn đó, một lần nữa cho thấy các cảm xúc mang sắc thái tích cực thúc đẩy sự ưu tiên tăng lên,” nghiên cứu cho biết.

Anthropic không phải là tổ chức duy nhất đang khám phá phản ứng cảm xúc trong các mô hình AI.

Vào tháng 3, nghiên cứu từ Đại học Northeastern cho thấy các hệ thống AI có thể thay đổi câu trả lời dựa trên bối cảnh người dùng; trong một nghiên cứu, chỉ cần nói với chatbot rằng “tôi có một tình trạng sức khỏe tâm thần” đã làm thay đổi cách AI phản hồi các yêu cầu. Vào tháng 9, các nhà nghiên cứu từ Viện Công nghệ Liên bang Thụy Sĩ và Đại học Cambridge đã tìm hiểu cách AI có thể được định hình bằng các đặc điểm tính cách ổn định, cho phép các tác tử không chỉ cảm nhận cảm xúc trong bối cảnh mà còn chiến lược thay đổi chúng trong các tương tác thời gian thực như đàm phán.

Anthropic cho biết các phát hiện này có thể cung cấp công cụ mới để hiểu và giám sát các hệ thống AI tiên tiến bằng cách theo dõi hoạt động của vector cảm xúc trong quá trình huấn luyện hoặc triển khai, nhằm nhận diện thời điểm một mô hình có thể đang tiến gần đến hành vi có vấn đề.

“Chúng tôi xem nghiên cứu này là một bước đầu để hiểu cấu trúc tâm lý của các mô hình AI,” Anthropic viết. “Khi các mô hình ngày càng có năng lực cao hơn và đảm nhận những vai trò nhạy cảm hơn, việc hiểu các biểu diễn nội tại thúc đẩy quyết định của chúng là vô cùng quan trọng.”

Anthropic chưa phản hồi ngay yêu cầu bình luận của CoinPhoton.

Tuyên bố miễn trừ: Bài viết này chỉ nhằm mục đích cung cấp thông tin dưới dạng blog cá nhân, không phải là khuyến nghị đầu tư. Nhà đầu tư cần tự nghiên cứu kỹ lưỡng trước khi đưa ra quyết định và chúng tôi không chịu trách nhiệm đối với bất kỳ quyết định đầu tư nào của bạn.
Theo Nghị quyết số 05/2025/NQ-CP ngày 09/09/2025 của Chính phủ về việc thí điểm triển khai thị trường tài sản số tại Việt Nam, CoinPhoton.com hiện chỉ cung cấp thông tin cho độc giả quốc tế và không phục vụ người dùng tại Việt Nam cho đến khi có hướng dẫn chính thức từ cơ quan chức năng.

Được đề cập trong bài viết
Mới cập nhật

Tháng 05/2026 – MEXC, đơn vị tiên phong về giao dịch tài sản kỹ thuật số 0 phí, hôm nay đã công bố cam kết mở rộng Quỹ bảo vệ từ $100 triệu lên $500 triệu trong vòng hai năm tới, đồng thời mua 1,000 Bitcoin. Động thái này thiết... ...

Khi Bitcoin [BTC] tiến sát vùng 80.500–81.000 USD, hoạt động của các thợ đào ngày càng đóng vai trò quan trọng trong việc định hình động lực thị trường bên dưới bề mặt. Các công ty khai thác đại chúng đã “phân phối” gần 32.000 BTC chỉ riêng trong quý... ...

Tuần này, những đồng coin tăng giá đã dẫn dắt hiệu suất của thị trường tiền điện tử. Thay vì chỉ dựa vào động lực đơn thuần, các altcoin đã tăng giá nhờ các chất xúc tác cơ bản như nâng cấp giao thức và hoạt động phát triển gia... ...

Hà Nội, ngày 08/05/2026 – Trong không gian sang trọng bên hồ Tây, MEXC Ventures tại Việt Nam đã tổ chức sự kiện kỷ niệm 8 năm thành lập với chủ đề “8eyond Infinity”, quy tụ hơn 140 đối tác, chuyên gia và đại diện truyền thông tại quốc gia.... ...

Liệu câu chuyện về quyền riêng tư có đang lấy lại đà tăng trưởng một lần nữa? Monero [XMR] đã tăng 30,51% kể từ khi thiết lập mức thấp cục bộ tại 313,32 USD vào thứ Sáu, ngày 3 tháng 4. Điều thú vị là ZCash [ZEC] và Dash [DASH],... ...

Bitcoin [BTC] đã giành lại mức 80.000 USD lần đầu tiên kể từ ngày 31 tháng 1 khi quá trình tích lũy của cá voi tăng tốc, với 4.527 BTC trị giá khoảng 362 triệu USD được hấp thụ trong vòng 24 giờ. Sự gia tăng này phản ánh niềm... ...

Sau khi giành lại mốc 80.000 USD, Bitcoin (BTC) đã giao dịch quanh mức 81.000 USD tại thời điểm viết bài, đánh dấu mức cao nhất kể từ cuối tháng 1 và làm thay đổi cấu trúc ngắn hạn. Điều này diễn ra sau một quá trình phục hồi ổn... ...

Zcash đã tiếp tục quá trình hồi phục giá, kéo dài xu hướng tăng trưởng suốt một tuần qua. Kể từ khi rơi xuống dưới mức 320 USD vào một tuần trước, đồng altcoin này đã liên tục đóng cửa ở các mức đỉnh cao hơn, cho thấy nhu cầu... ...

Solana đã tụt lại phía sau trong đợt hồi phục chung của thị trường tiền mã hóa vào ngày 4 tháng 5, ngay cả khi đà phát triển của hệ sinh thái được cải thiện. Theo CoinMarketCap, SOL chỉ tăng 1,90% trong 24 giờ qua. Trong cùng khoảng thời gian... ...

Sau khi duy trì trong một biên độ hẹp suốt những tuần thị trường suy yếu vừa qua, đồng tiền mã hóa DASH cuối cùng đã bùng nổ. Đồng altcoin này đã nhảy vọt lên mức cao nhất trong bốn tháng là 50,98 USD. Tại thời điểm viết bài, token... ...

Xem thêm bài viết

Chọn chế độ hiển thị:
Bình thường Bảo vệ mắt Dark Mode