Sự Cố AWS Khổng Lồ Ngày 20/10/2025: Bài Học Về Tính Dễ Vỡ Của Hạ Tầng Số Toàn Cầu

Chỉnh sửa bởi: S Света

Vào ngày 20 tháng 10 năm 2025, hạ tầng kỹ thuật số toàn cầu đã phải đối mặt với một thử thách nghiêm trọng khi Amazon Web Services (AWS), nền tảng cốt lõi của vô số dịch vụ trực tuyến hiện đại, gặp phải một sự cố ngừng hoạt động trên diện rộng. Sự cố này bắt đầu vào sáng sớm theo Giờ Miền Đông (ET). Nguyên nhân được xác định là do một trục trặc nghiêm trọng trong hệ thống tên miền (DNS) tại khu vực quan trọng US-EAST-1, đặt tại Bắc Virginia. Sự gián đoạn này đã phơi bày rõ ràng mức độ kết nối sâu sắc giữa các dịch vụ trực tuyến ngày nay, khi sự cố tại một nút trung tâm duy nhất có thể gây ra hiệu ứng domino lan rộng.

Hậu quả của trục trặc kỹ thuật này lan tỏa khắp mọi nơi, ảnh hưởng đến hơn hai nghìn công ty và nền tảng trên toàn thế giới. Danh sách các nạn nhân bao gồm những gã khổng lồ mạng xã hội như Snapchat, các nền tảng trò chơi điện tử phổ biến như Fortnite và Roblox, các công cụ tài chính quan trọng như Venmo và Coinbase, cùng với nhiều dịch vụ phát trực tuyến khác. Các vấn đề mà người dùng gặp phải rất đa dạng, từ việc không thể đăng nhập vào hệ thống cho đến việc dịch vụ bị ngừng hoạt động hoàn toàn. Sau đó, AWS đã thông báo rằng vấn đề gốc rễ nằm ở sự cố phân giải DNS đối với các điểm cuối khu vực của dịch vụ DynamoDB.

Tình hình bắt đầu được cải thiện dần dần trong suốt cả ngày, mặc dù việc khôi phục hoàn toàn sự ổn định đã mất một khoảng thời gian đáng kể. Theo các báo cáo chính thức, tất cả các dịch vụ của AWS đã trở lại hoạt động bình thường vào lúc 15:01 giờ Thái Bình Dương (PT), tức là 18:01 giờ Miền Đông (ET). Điều này đồng nghĩa với việc sự gián đoạn kéo dài gần mười lăm giờ. Trong quá trình khắc phục, AWS đã phải tạm thời giới hạn (throttling) các yêu cầu khởi tạo các phiên bản EC2 mới nhằm mục đích giúp hệ thống có thời gian ổn định trở lại.

Sự cố này là một minh chứng rõ ràng cho sự phụ thuộc hiện tại của nền kinh tế toàn cầu vào các giải pháp đám mây tập trung. Các chuyên gia đều đồng tình nhấn mạnh rằng việc tập trung các chức năng quan trọng như vậy vào tay một vài nhà cung cấp duy nhất tiềm ẩn những rủi ro mang tính hệ thống. Khu vực US-EAST-1, vốn là trung tâm dữ liệu lâu đời nhất và lớn nhất của AWS, xử lý một phần đáng kể lưu lượng truy cập internet ở Bắc Mỹ. Do đó, việc khu vực này bị sập tương đương với một đòn giáng vào trái tim của hạ tầng kỹ thuật số của cả lục địa.

Trước tình hình này, các chuyên gia đã đưa ra khuyến nghị mạnh mẽ rằng các tổ chức cần phải xem xét lại chiến lược phục hồi sau thảm họa của mình và tìm kiếm các phương án đa dạng hóa đối tác đám mây. Tính đến ngày 21 tháng 10 năm 2025, AWS đang tích cực chuẩn bị một báo cáo toàn diện về nguyên nhân sâu xa của sự cố. Tuy nhiên, bản thân sự thật về một sự gián đoạn kéo dài như vậy đã buộc chúng ta phải suy ngẫm về cách xây dựng các trụ cột kỹ thuật số. Mỗi sự cố như thế này là một lời cảnh tỉnh rõ ràng, thúc giục việc đánh giá lại các phương pháp tiếp cận về tính bền vững và độ tin cậy, hướng tới một tương lai phân tán và có ý thức hơn.

Nguồn

  • Al Jazeera Online

  • Amazon cloud outage takes down many online services - Boston 25 News

  • Widespread internet outage reported as Amazon Web Services works on issue - ABC News

  • AWS was down in massive outage that broke the internet — live updates and what happened | Tom's Guide

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.