Google 於 2025 年 10 月發布了新一代人工智慧驅動的影片生成模型 Veo 3.1,此舉標誌著數位內容創作領域進入一個新的階段。該模型能夠根據文字與視覺輸入,生成高解析度的動態影像,並在精準同步音訊、角色對白與環境音效方面展現出對細節的深刻掌握,為創作者提供了前所未有的工具,使複雜的想像得以清晰呈現。
Veo 3.1 的技術進展,使其成功通過了業界戲稱的「威爾史密斯吃義大利麵」測試。這項測試在過去是檢驗 AI 模型模擬複雜人類表情與動作的試金石,早期模型常因無法捕捉如細緻地將義大利麵送入口中的微妙動作與表情而產出扭曲影像。如今,Veo 3.1 不僅能模擬逼真的面部細節,連帶咀嚼時的聲響也一併納入考量,展現了驚人的進步。不過,部分使用者反饋指出,儘管視覺效果大幅提升,合成的咀嚼聲等細微音效仍帶有一絲不自然感,暗示模型在處理聽覺層面仍有優化空間。
為應對日益普及的數位內容所帶來的真實性挑戰,Google 正積極為所有 Veo 3.1 生成的內容嵌入不可見的數位浮水印 SynthID,並明確標註內容來源為「Veo」。SynthID 技術源自 DeepMind,旨在追蹤 AI 生成的媒體,確保內容來源透明化,即使內容經過轉傳或輕微修改,浮水印仍能被偵測到。Google 表示,自該系統啟動以來,已有超過十億件內容被 SynthID 標記,這項工具的覆蓋範圍已擴展至文字、音訊和影片等多元媒介,旨在為快速演變的媒體環境提供必要的透明度。
儘管 Veo 3.1 在技術上取得了里程碑式的成就,它也再次引發了關於深度偽造(Deepfakes)以及現實與數位創造界線日益模糊的嚴肅討論。專家指出,這類技術的快速發展已超越現有規範,可能對文化傳承、版權保護乃至網路安全構成挑戰。然而,每一次技術的躍升,都是對人類理解與應對變革能力的考驗,促使人們在享受便利的同時,堅守對真實性的珍視與責任。