2025年10月20日,全球数字基础设施遭遇了一次严峻的考验。作为现代在线服务的基石,亚马逊网络服务(Amazon Web Services, AWS)经历了影响深远的大规模系统中断。此次事件始于美国东部时间清晨,起因是位于北弗吉尼亚州的关键区域US-EAST-1发生了域名系统(DNS)的关键性故障。这一故障清晰地揭示了当代在线服务之间的高度互联性——核心节点的瘫痪迅速引发了连锁反应,造成了广泛的数字混乱。
技术故障的后果迅速蔓延,波及范围极为广泛,超过两千家公司和平台深受其害。受影响的名单中不乏行业巨头,包括社交媒体平台Snapchat、游戏界的Fortnite和Roblox,以及金融工具如Venmo和Coinbase,还有大量的流媒体服务。用户面临的问题多种多样,轻则无法登录,重则服务完全中断。AWS随后确认,故障的根本原因在于DynamoDB服务区域端点的DNS解析出现了问题。
尽管AWS工程师们全力投入抢修,但局势的全面稳定耗费了相当长的时间。根据官方报告,所有AWS服务直到太平洋时间15:01(即美国东部时间18:01)才恢复正常运行。这意味着此次服务中断持续了将近十五个小时。在恢复过程中,为了协助系统恢复稳定状态,AWS不得不采取临时限制措施,对新EC2实例的启动请求进行限流(throttling)。
此次事件生动地反映了全球经济对集中式云解决方案的过度依赖。专家们一致强调,将如此多的关键功能集中在少数几个服务提供商手中,必然会带来系统性风险。US-EAST-1区域作为AWS最古老、规模最大的数据中心,承载了北美地区大量的互联网流量。因此,该区域的宕机几乎等同于对整个大陆数字基础设施心脏的一次重击。专业人士强烈建议各组织重新审视其灾难恢复策略,并认真考虑分散云合作伙伴的多元化路径。
截至2025年10月21日,AWS仍在努力提供一份关于事故原因的详尽报告。然而,如此长时间的服务中断本身就足以引发人们对数字支柱构建方式的深思。每一次类似的危机都发出了明确的信号,敦促我们重新思考系统的韧性与可靠性,呼吁构建一个更加审慎、更加去中心化的未来数字架构,以应对日益增长的数字风险。