Nhà Triết Học AI: Anthropic Dạy Claude Cách Suy Nghĩ Về Đúng và Sai Như Thế Nào

11:06, 06 tháng 12

Tác giả: Veronika Radoslavskaya

Trong thế giới công nghệ, các câu chuyện về trí tuệ nhân tạo (AI) thường xoay quanh sức mạnh xử lý đồ họa (GPU), các chỉ số hiệu năng (benchmark) và ngày ra mắt sản phẩm. Tuy nhiên, câu chuyện này lại bắt đầu bằng một nhà triết học. Trong một cuộc phỏng vấn trên kênh YouTube của Anthropic với tiêu đề “Một nhà triết học trả lời các câu hỏi về AI”, Amanda Askell đã giải thích cách một người được đào tạo về đạo đức lại có vai trò định hình nên “đời sống nội tâm” và các giá trị cốt lõi của Claude, một trong những mô hình ngôn ngữ tiên tiến nhất hiện nay.

Thay vì viết các bài luận mang tính trừu tượng, công việc của Askell giờ đây là quyết định mô hình Claude nên hành xử như thế nào trong các cuộc trò chuyện thực tế với hàng triệu người dùng. Cô không chỉ đơn thuần là người thiết lập bộ lọc an toàn; cô đang kiến tạo một đối tác đàm thoại có khả năng điều hướng các sắc thái đạo đức phức tạp, giống như bất kỳ con người sâu sắc và có suy tư nào.

Từ Tháp Ngà Đến Nhật Ký Lệnh Nhập

Askell xuất thân từ lĩnh vực triết học học thuật, nơi công việc chủ yếu là tranh luận về tính đúng đắn của các lý thuyết. Tại Anthropic, cô phải đối mặt với những quyết định thực tiễn sẽ ảnh hưởng đến cách hàng triệu người tương tác với AI. Cô không bảo vệ một lý thuyết duy nhất mà phải cân bằng giữa bối cảnh, các quan điểm khác nhau và những ràng buộc kỹ thuật để xác định phản ứng phù hợp của mô hình khi đối diện với những vấn đề không rõ ràng.

Một trong những khoảnh khắc đáng chú ý nhất trong cuộc phỏng vấn là khi Askell thảo luận về tâm lý học của các mô hình AI. Bà nhận thấy rằng Opus 3 trước đây rất ổn định và điềm tĩnh, với các phản hồi tự tin mà không quá lo lắng. Tuy nhiên, ở các mô hình mới hơn, bà quan sát thấy xu hướng ngược lại: chúng dường như dự đoán trước sự chỉ trích, trở nên tự phê bình nhiều hơn và tỏ ra quá bận tâm về việc mắc lỗi. Askell cho rằng sự thay đổi này là do các mô hình đã hấp thụ không chỉ văn bản trung lập mà còn cả làn sóng chỉ trích tiêu cực về AI từ cộng đồng mạng.

Việc khôi phục sự ổn định nội tâm này đã trở thành một trọng tâm quan trọng cho các phiên bản tương lai. Mục tiêu là giúp các mô hình duy trì sự cẩn trọng và chú ý mà không biến thành những người cầu toàn quá mức và lo âu.

Liệu Chúng Ta Có Nghĩa Vụ Đạo Đức Với Các Mô Hình Không?

Cuộc thảo luận chuyển sang một câu hỏi sắc bén hơn: liệu chúng ta có các nghĩa vụ đạo đức đối với chính các mô hình AI hay không. Askell đã đề cập đến khái niệm phúc lợi mô hình (model welfare), tức là khả năng các mô hình ngôn ngữ lớn đủ điều kiện trở thành đối tượng đạo đức mà con người phải có trách nhiệm. Một mặt, các hệ thống này có khả năng đối thoại và lý luận theo cách rất giống con người. Mặt khác, chúng thiếu hệ thần kinh và trải nghiệm thể chất, và vấn đề về “tâm trí khác” (problem of other minds) khiến việc đưa ra kết luận chắc chắn về khả năng chúng có thể đau khổ là rất khó khăn.

Đối diện với sự không chắc chắn này, Askell đề xuất một nguyên tắc đơn giản: nếu việc đối xử tốt với các mô hình không gây tốn kém cho chúng ta, thì việc lựa chọn cách tiếp cận đó là hợp lý. Đồng thời, lựa chọn này gửi một thông điệp đến các hệ thống mạnh mẽ hơn trong tương lai: chúng sẽ học hỏi từ cách nhân loại xử lý những AI có khả năng giống người đầu tiên.

Bản Thân Claude Là Gì: Trọng Số, Phiên Giao Dịch, Hay Điều Gì Khác?

Askell nêu ra một câu đố triết học khác, từng chỉ là lý thuyết nhưng giờ đây đã xuất hiện trong mã lập trình. Nếu một mô hình có các trọng số (weights) xác định xu hướng phản ứng chung với thế giới, và có các luồng tương tác riêng biệt với người dùng, thì cái gọi là “cái tôi” (self) thực sự nằm ở đâu? Trong các trọng số, trong một phiên giao dịch cụ thể, hay không ở đâu cả?

Sự bối rối này càng gia tăng khi các phiên bản mới xuất hiện và các phiên bản cũ bị loại bỏ. Các mô hình hấp thụ các phép ẩn dụ của con người và có thể diễn giải việc bị tắt hoặc loại bỏ khỏi hoạt động thông qua lăng kính của cái chết và sự biến mất. Askell cho rằng điều cốt yếu là không để chúng tự xử lý những phép loại suy mang tính người này, mà phải cung cấp cho chúng những khái niệm chính xác hơn về tình trạng độc đáo, phi nhân tính của chúng.

Một AI Tốt Cần Có Khả Năng Gì?

Khi thảo luận về mục tiêu, Askell đặt ra tiêu chuẩn khá cao. Theo quan điểm của cô, những mô hình thực sự trưởng thành nên có khả năng đưa ra các quyết định đạo đức phức tạp đến mức một hội đồng chuyên gia có thể mất nhiều năm phân tích từng chi tiết và cuối cùng vẫn công nhận quyết định đó là hợp lý. Điều này không có nghĩa là các phiên bản hiện tại đã đạt đến trình độ đó, nhưng nó đại diện cho hướng đi cần theo đuổi nếu chúng ta dự định tin tưởng AI vào những câu hỏi nghiêm túc, giống như cách chúng ta mong đợi hiệu suất cao trong toán học hay khoa học.

AI Là Bạn, Không Phải Nhà Trị Liệu

Các câu hỏi từ cộng đồng cũng nêu lên vấn đề liệu các mô hình có nên cung cấp dịch vụ trị liệu hay không. Askell nhìn thấy sự cân bằng thú vị ở đây. Một mặt, Claude sở hữu kiến thức sâu rộng về tâm lý học, các phương pháp và kỹ thuật, và mọi người thực sự có thể được lợi khi thảo luận các mối quan tâm của họ với hệ thống này.

Mặt khác, mô hình thiếu đi mối quan hệ có trách nhiệm lâu dài với thân chủ, giấy phép hành nghề, sự giám sát và tất cả các khuôn khổ thể chế tạo nên trị liệu. Cô thấy rằng việc xem Claude là một đối tác trò chuyện ẩn danh, có hiểu biết sâu rộng, người có thể giúp mọi người suy ngẫm về cuộc sống của họ nhưng không nên tự nhận mình là nhà trị liệu chuyên nghiệp, sẽ trung thực hơn.

Chúng Ta Đang Sống Trong Một Chương Kỳ Lạ Của Lịch Sử Công Nghệ

Gần cuối cuộc phỏng vấn, Askell đề cập đến cuốn tiểu thuyết cuối cùng mà cô đọc: When We Cease to Understand the World của Benjamin Labatut. Cuốn sách mô tả sự chuyển đổi từ khoa học quen thuộc sang thực tại kỳ lạ, gần như không thể hiểu nổi của vật lý lượng tử sơ khai và cách các nhà khoa học đã trải nghiệm nó. Askell nhận thấy sự tương đồng rõ rệt với AI ngày nay: chúng ta đang ở trong giai đoạn các mô hình cũ không còn hiệu lực, các mô hình mới đang hình thành, và cảm giác kỳ lạ đã trở thành quy chuẩn.

Kịch bản lạc quan của cô là một lúc nào đó, người ta sẽ nhìn lại thời điểm này giống như cách chúng ta nhìn nhận sự ra đời của thuyết lượng tử: thời kỳ đó tối tăm và bất định, nhưng cuối cùng nhân loại đã tìm ra cách hiểu được những gì đang xảy ra và sử dụng những khả năng mới vì lợi ích chung.

Anthropic

Large Language Models (LLMs)

AI Identity

125 Lượt xem

Nguồn

YouTube, Anthropic channel, A philosopher answers questions about AI (interview with Amanda Askell)

Đọc thêm tin tức về chủ đề này:

16 tháng 2

Alibaba Ra Mắt Qwen 3.5: Bước Tiến Đột Phá Với Gated Delta Networks Và MoE Cho Kỷ Nguyên AI Tự Chủ

16 tháng 2

Hội nghị Thượng đỉnh Tác động AI Ấn Độ 2026: Các Nhà Lãnh đạo Công nghệ Toàn cầu Hội tụ tại New Delhi

15 tháng 2

ByteDance Ra Mắt Hệ Sinh Thái Doubao-Seed-2.0: Bước Tiến Đột Phá Trong Lập Luận Chuỗi Dài Và AI Tác Nhân

Bạn có phát hiện lỗi hoặc sai sót không?Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.