Microsoft Ra Mắt Ba Mô Hình AI Tự Phát Triển Đối Đầu OpenAI và Google

Chỉnh sửa bởi: Aleksandr Lytviak

Vào Thứ Năm, ngày 2 tháng 4 năm 2026, Microsoft công bố phát hành ba mô hình trí tuệ nhân tạo (AI) nền tảng được phát triển hoàn toàn trong nội bộ. Động thái này đánh dấu nỗ lực cạnh tranh trực tiếp với các phòng thí nghiệm tiên phong như OpenAI và Google trong lĩnh vực phát triển mô hình cốt lõi, thể hiện chiến lược theo đuổi “sự tự chủ về AI” dưới sự lãnh đạo của CEO Mustafa Suleyman, người đứng đầu đội ngũ Siêu Trí tuệ Nhân tạo (MAI) của Microsoft.

Ba mô hình mới bao gồm MAI-Transcribe-1 cho chuyển đổi giọng nói thành văn bản, MAI-Voice-1 cho tạo giọng nói, và MAI-Image-2 cho tạo hình ảnh. Tất cả đều có sẵn ngay lập tức thông qua nền tảng Microsoft Foundry và MAI Playground. MAI-Transcribe-1, mô hình nhận dạng giọng nói thế hệ đầu tiên, được báo cáo đã thiết lập tiêu chuẩn chính xác mới trên 25 ngôn ngữ chính, đạt Tỷ lệ Lỗi Từ (WER) trung bình là 3,8% trên các tiêu chuẩn FLEURS. Mô hình này cho thấy hiệu suất vượt trội so với Whisper-large-v3 của OpenAI trên toàn bộ 25 ngôn ngữ và vượt qua Gemini 3.1 Flash của Google trên 22 trong số đó. Đáng chú ý, mô hình này được xây dựng bởi một nhóm 10 người, hoạt động với chi phí GPU thấp hơn khoảng 50% so với các giải pháp thay thế, đồng thời nhanh hơn 2,5 lần so với dịch vụ Azure Fast trước đây của Microsoft.

Hoàn thiện chuỗi xử lý âm thanh, MAI-Voice-1 là công cụ tạo giọng nói tiên tiến, có khả năng tạo ra 60 giây âm thanh tự nhiên, giàu cảm xúc chỉ trong một giây. Mô hình này duy trì nhận dạng giọng nói của người nói qua nội dung dài và cho phép tạo giọng nói tùy chỉnh chỉ từ một mẫu âm thanh ngắn, được cung cấp qua Microsoft Foundry với mức giá 22 USD cho mỗi 1 triệu ký tự. Sự phát triển này giúp Microsoft xây dựng quy trình xử lý âm thanh hoàn chỉnh trên cơ sở hạ tầng của mình, giảm sự phụ thuộc vào công nghệ của các đối thủ cạnh tranh. Song song, MAI-Image-2, phiên bản thế hệ thứ hai của mô hình tạo hình ảnh nội bộ, mang lại tốc độ tạo nhanh hơn gấp đôi so với phiên bản tiền nhiệm, tập trung vào độ chân thực của ánh sáng tự nhiên và tông màu da. Mô hình này hiện đang được triển khai theo giai đoạn trên các sản phẩm như Bing và PowerPoint.

Việc ra mắt bộ ba mô hình này được xem là câu trả lời đầu tiên của CEO Mustafa Suleyman trước áp lực thị trường về việc chứng minh lợi nhuận từ chi tiêu cơ sở hạ tầng AI của gã khổng lồ phần mềm trị giá 3 nghìn tỷ USD. Tuy nhiên, song song với những đột phá kỹ thuật, Microsoft đang đối mặt với sự chỉ trích liên quan đến Điều khoản Sử dụng (ToU) phiên bản Copilot dành cho người tiêu dùng, trong đó có điều khoản ghi rõ công cụ này “chỉ dành cho mục đích giải trí” và người dùng phải “tự chịu rủi ro”. Điều khoản này, cập nhật lần cuối vào tháng 10 năm 2025, mâu thuẫn với việc Microsoft quảng bá Copilot như một công cụ năng suất kinh doanh tích hợp trong Microsoft 365. Một phát ngôn viên công ty giải thích rằng cụm từ này là “thuật ngữ cũ” và sẽ được điều chỉnh trong bản cập nhật tiếp theo. Sự kiện ngày 2 tháng 4 năm 2026 cho thấy Microsoft đang xây dựng nền tảng kỹ thuật để giảm thiểu sự phụ thuộc vào OpenAI, đối tác đầu tư 13 tỷ USD trước đây, đồng thời phải giải quyết những vấn đề về minh bạch pháp lý với người dùng cuối.

5 Lượt xem

Nguồn

  • Business Insider

  • VentureBeat

  • AI Business

  • The Register

  • Business Insider

  • Mashable

Bạn có phát hiện lỗi hoặc sai sót không?Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.