xAI 推出 Grok 4.1
xAI 发布 Grok 4.1:赋予 AI “人情味”的大脑,提升语音与视觉创造力
作者: Veronika Radoslavskaya
埃隆·马斯克旗下的人工智能公司 xAI 正式推出了 Grok 4.1,这是一次重大的更新,从根本上改变了人工智能与人类的互动方式。当业界普遍关注原始计算能力时,Grok 4.1 却独树一帜,将“情商”和可靠性放在了首位。这个新模型充当了关键的“推理引擎”,全面升级了 xAI 的语音功能,并为其不断发展的视觉工具提供了强大的支持。
Grok 4.1 最引人注目的改进在于其理解细微差别、讽刺和情感潜台词的能力。在衡量 AI 同理心的 EQ-Bench3 评估中,新模型取得了 1,586 分的成绩,这表明它比之前的版本有了实质性的飞跃。
这一升级对 Voice Mode(语音模式)产生了直接影响。用户通过语音与 AI 互动时,会明显感觉到它不再是冰冷的问答机器,而更像是一位能够“察言观色”的对话伙伴。由于模型现在能够处理微妙的意图和语气,语音交互变得更加流畅和自然。
尽管 Grok 4.1 主要是一种基于文本的智能,但它在 xAI 的多模态雄心中扮演着核心角色。该模型凭借其破纪录的创意写作技巧(获得了 1,708 Elo 的评分),充当着“创意总监”的角色,负责解读用户的请求,并为外部视觉工具撰写高度详细的提示词。
目前,Grok 4.1 为该平台的图像生成功能(通过 Flux 实现)提供动力,并支持新出现的图像转视频动画功能。虽然完整的文本转视频生成仍在内部预览阶段,但 Grok 4.1 改进后的推理能力使用户能够以更高的精度将静态图像转化为短动画片段,有效地弥合了文本与动态视觉之间的鸿沟。
至关重要的是,该模型的真实性显著提高。xAI 利用先进的训练技术,将模型在真实世界查询中“幻觉”(即捏造事实)的比率从 12.09% 大幅削减至仅 4.22%。在严格的 FActScore 基准测试中,错误率下降了近三分之二,降至 3% 以下。这有力地解决了用户对生成式 AI 最大的抱怨之一。
这些内部指标得到了公众舆论的有力支持。在 LMArena 的“Text Arena”(一个盲测众包排行榜)上,Grok 4.1 成功锁定了全球第一名的位置,领先其最接近的竞争对手 31 分。该模型目前正在 X 平台和移动应用程序上向用户逐步推出。
阅读更多关于该主题的新闻:
你发现了错误或不准确的地方吗?
我们会尽快考虑您的意见。
