阿里云与月之暗面发布新一代推理模型:开启大模型“深度思考”时代
编辑者: Veronika Radoslavskaya
2026年1月下旬,中国人工智能领域迎来了里程碑式的时刻,两款高性能旗舰模型相继问世:阿里云的Qwen3-Max-Thinking与月之暗面(Moonshot AI)的Kimi K2.5。这两款产品的发布标志着AI技术重心正向“推理优先”架构发生深刻偏移,旨在攻克复杂的逻辑难题并实现更高程度的自主任务执行。
2026年1月26日,阿里云正式推出了Qwen3-Max-Thinking。作为一款超大规模推理模型,其架构参数量突破了一万亿大关。该模型专为多步逻辑综合及尖端技术问题的解决而设计,展现了强大的认知处理能力与逻辑严密性。
该模型的核心亮点之一是其“自适应工具调用”功能。这一特性赋予了AI在对话过程中自主选择搜索、记忆或代码解释器的能力。系统能够根据用户的具体查询,独立判断是否需要调用外部工具来验证事实或进行精密计算,从而确保输出结果的准确性与实用性。
此外,Qwen3-Max-Thinking采用了推理时扩展(Test-Time Scaling, TTS)技术。通过增加推理阶段的计算投入,模型能够更深入地“思考”棘手难题。凭借这一优势,它在Arena-Hard v2基准测试中取得了90.2的高分,并在科学计算和数学逻辑领域表现卓越。
- 自适应工具使用:模型可根据需求自主切换搜索、记忆或代码解释功能。
- 推理时扩展(TTS):通过增加推理计算量提升复杂问题的解决能力。
- 基准表现:在Arena-Hard v2中获得90.2分,擅长科学与数学逻辑。
紧随其后,在2026年1月27日,由阿里巴巴集团提供支持的月之暗面发布了Kimi K2.5。这是一款开源的原生多模态智能体模型,特别针对大规模数据处理与协同作业进行了深度优化,代表了开源社区的顶尖水平。
Kimi K2.5采用了先进的混合专家(MoE)架构。尽管其总参数量同样达到了一万亿,但在实际运行时,仅需激活320亿参数即可高效运转。该模型基于包含15万亿个视觉与文本混合标记的海量数据集预训练而成,具备极强的跨模态理解能力。
K2.5引入了极具创新性的“智能体集群”(Agent Swarm)模式。在这种模式下,系统能够协同指挥多达100个专业化子智能体共同完成单一项目。无需预设工作流或人工干预,系统即可自主引导这些智能体解决复杂的工程问题,实现了极高的自动化水平。
针对企业级自动化需求,Kimi K2.5在HLE和BrowseComp等智能体基准测试中表现优异。它专注于多步规划与基于浏览器的研究任务,极大提升了大规模自主工作流的运行效率,为企业提供了更可靠的自动化解决方案。
- 混合专家架构(MoE):万亿总参数,运行仅需激活320亿参数,基于15万亿混合标记训练。
- 智能体集群模式:支持多达100个子智能体协同作业,实现无干预自主规划。
- 智能体效率:在HLE和BrowseComp测试中表现出色,擅长多步规划与浏览器研究。
综上所述,虽然这两款模型都立足于万亿参数基础,但其技术侧重点各有千秋。阿里云的Qwen3-Max-Thinking更侧重于深度迭代推理与自主工具集成,适合需要极高逻辑精度的场景;而月之暗面的Kimi K2.5则在多模态智能体协作和大规模自动化流程方面展现了独特优势,为开发者提供了更灵活的开源选择。
11 查看
来源
europa press
Qwen Team
Moonshot AI Open Platform - Kimi Large Language Model API Service
Atlas Cloud
Vertu
Seeking Alpha - Power to Investors
阅读更多关于该主题的新闻:
你发现了错误或不准确的地方吗?我们会尽快考虑您的意见。
