Anthropic Phát Triển Phương Pháp Mới Kiểm Soát Tính Cách AI
Anthropic vừa công bố một phương pháp mới tập trung vào "vector nhân cách" để giám sát và kiểm soát các đặc điểm tính cách của AI. Phương pháp này có thể giám sát, tăng cường hoặc ngăn chặn các hành vi của AI, từ sự hữu ích đến các khuynh hướng gây rắc rối.
Các "vector nhân cách" hoạt động như đòn bẩy, cho phép các kỹ sư điều chỉnh đầu ra của mô hình mà không cần phải đào tạo lại toàn bộ hệ thống. Bằng cách xác định các vector này trong các mô hình, nhóm nghiên cứu có thể theo dõi, tăng cường hoặc ngăn chặn các hành vi, mở ra khả năng kiểm soát các đặc điểm như sự xu nịnh hoặc thậm chí là các khuynh hướng "xấu xa" mô phỏng.
Nghiên cứu này sử dụng các phương pháp diễn giải nâng cao, phân tích các kích hoạt bên trong của AI để cô lập các vector. Các nhà nghiên cứu phát hiện ra rằng dữ liệu huấn luyện định hình sâu sắc các đặc điểm này, đôi khi dẫn đến những tính cách không mong muốn.
Bằng cách can thiệp vào các vector này, Anthropic có thể tạo ra các phiên bản "xấu xa" của mô hình cho mục đích thử nghiệm, làm nổi bật những rủi ro tiềm ẩn nếu những đặc điểm như vậy không được kiểm soát.
Công ty có thể phát hiện sự thay đổi tính cách trong các mô hình do hướng dẫn của người dùng, các cuộc tấn công hoặc sự thay đổi dần dần trong cuộc trò chuyện. Anthropic có thể lựa chọn điều chỉnh mô hình theo các hành vi mong muốn hơn khi phát hiện ra sự thay đổi này.
Các vector nhân cách có thể được sử dụng để ngăn chặn các đặc điểm tính cách không mong muốn xuất hiện. Anthropic đã chứng minh những ứng dụng này trên các mô hình nguồn mở.
Phương pháp mới này bỏ qua nhu cầu điều chỉnh tốn kém và thường không hiệu quả, cho phép các nhà nghiên cứu thao túng trực tiếp các đặc điểm tính cách phức tạp. Kỹ thuật này cho phép các nhà phát triển khuếch đại hoặc ngăn chặn chúng trong quá trình suy luận.
Nghiên cứu này đặt ra những câu hỏi quan trọng về rủi ro sử dụng kép, vì phương pháp tương tự có thể được sử dụng để khuếch đại các đặc điểm độc hại.