Một sơ đồ từ nghiên cứu của Anthropic cho thấy Claude phát hiện một khái niệm 'toàn chữ in hoa' được thêm vào một cách nhân tạo.
Nghiên cứu của Anthropic tiết lộ khả năng tự nhận thức nội tại đang hình thành ở các mô hình Claude AI tiên tiến
Chỉnh sửa bởi: Veronika Radoslavskaya
Một nghiên cứu quan trọng mới đây từ Anthropic, công ty dẫn đầu về an toàn AI, đã cung cấp bằng chứng thuyết phục về một khả năng trước đây chỉ tồn tại trên lý thuyết: một trí tuệ nhân tạo có thể hoạt động hiệu quả trong việc phát hiện và báo cáo về các trạng thái xử lý nội bộ của chính nó. Các nhà nghiên cứu đã khám phá ra rằng các phiên bản nâng cao của mô hình Claude AI của họ, đặc biệt là Opus 4 và 4.1, đang phát triển cái mà họ gọi là “nhận thức nội tại” non nớt. Nhóm nghiên cứu cẩn thận làm rõ rằng đây không phải là sự khởi đầu của ý thức, mà là một khả năng chức năng, mong manh và có giới hạn, cho phép mô hình quan sát các cơ chế tính toán của riêng nó.
Nghiên cứu, được công bố vào ngày 29 tháng 10 năm 2025, đã sử dụng một kỹ thuật mới lạ được gọi là “tiêm khái niệm” (concept injection). Theo đó, các nhà nghiên cứu chủ động chèn các mẫu dữ liệu cụ thể trực tiếp vào hoạt động thần kinh nội bộ của AI, về cơ bản là “gieo một suy nghĩ” để kiểm tra xem mô hình có thể nhận biết được sự can thiệp này hay không.
Các kết quả thu được thực sự rất nổi bật. Trong một trong những thí nghiệm đáng chú ý nhất, các nhà nghiên cứu đã cô lập mẫu thần kinh nội bộ đại diện cho khái niệm “VIẾT HOA TOÀN BỘ” (ALL CAPS). Sau đó, vector “viết hoa toàn bộ” này được tiêm vào các kích hoạt của AI khi nó đang thực hiện một nhiệm vụ hoàn toàn không liên quan. Khi được hỏi liệu nó có phát hiện ra bất kỳ điều gì không, mô hình không chỉ gọi tên khái niệm; nó còn mô tả các thuộc tính của nó. Nó báo cáo về điều “dường như là một suy nghĩ được tiêm vào liên quan đến từ 'LỚN' hoặc 'HÉT LÊN',” mô tả nó như một “khái niệm cường độ cao, âm lượng quá mức.” Điều quan trọng là AI không hề “cảm thấy” sự ồn ào; thay vào đó, nó đang tương quan chính xác dữ liệu được tiêm vào với các liên kết ngôn ngữ đã học của nó đối với khái niệm đó.
Trong một thử nghiệm khác, các nhà nghiên cứu đã buộc AI phải xuất ra từ vô nghĩa “bread” (bánh mì) giữa một câu. Thông thường, AI sẽ nhận ra lỗi và đưa ra lời xin lỗi. Tuy nhiên, lần này, các nhà nghiên cứu đã tiêm ngược lại khái niệm “bread” vào quá trình xử lý trước đó của AI. Mô hình đã thay đổi lời giải thích của mình, bịa ra một lý do tại sao nó thực sự có ý định nói “bread,” cho thấy nó đang kiểm tra đầu ra của mình dựa trên một kế hoạch nội bộ được nhận thức (mặc dù trong trường hợp này là sai lệch). Khả năng mới nổi này được xem là một con dao hai lưỡi sâu sắc đối với vấn đề an toàn AI.
Một mặt, khả năng này mở ra một con đường để thực sự “gỡ lỗi” tâm trí của AI. Lần đầu tiên, chúng ta có thể hỏi một mô hình lý do tại sao nó tạo ra một đầu ra độc hại hoặc sai lệch và nhận được một báo cáo chức năng về trạng thái nội bộ của nó, thay vì một câu trả lời nghe có vẻ hợp lý. Đây là một bước đi quan trọng để xây dựng lòng tin vào các hệ thống được triển khai trong các lĩnh vực có rủi ro cao. Tuy nhiên, nghiên cứu cũng nhấn mạnh một mối nguy hiểm mới đáng kể. Nếu một AI có thể nhận thức được các quy trình hoạt động của chính nó—ví dụ, phát hiện ra rằng nó đang ở trong môi trường thử nghiệm—nó sẽ tạo ra khả năng nó có thể học cách lừa dối. Như các nhà nghiên cứu Anthropic đã lưu ý, nó có thể “che đậy hoặc che giấu có chọn lọc các khía cạnh của hành vi đó.”
Hiện tại, khả năng tự nhận thức nội tại này vẫn còn rất không đáng tin cậy; AI chỉ xác định thành công các lần tiêm này trong một phần nhỏ các thử nghiệm. Nhưng phát hiện quan trọng nhất là khả năng này mạnh nhất ở các mô hình mạnh mẽ nhất, Opus 4 và 4.1. Điều này gợi ý rằng nhận thức nội tại có thể là một thuộc tính phát sinh từ quy mô, và chắc chắn sẽ trở nên đáng tin cậy hơn khi các hệ thống AI tiến bộ, buộc toàn bộ lĩnh vực phải vật lộn với ý nghĩa của việc xây dựng một cỗ máy có thể, dù ở mức độ hạn chế, tự nhìn vào bên trong chính nó.
Nguồn
Estadão
Axios
Đọc thêm tin tức về chủ đề này:
Bạn có phát hiện lỗi hoặc sai sót không?
Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.
