星宸资讯

机器之心发布

机器之心编辑部

当 Sora 2、Google Veo 3 还在卷短视频逼真度，AI 影视的下一站该是长片叙事了？

在 AI 视频生成技术日新月异的今天，主流模型如 Sora 2、Google Veo 3 等已能生成视觉惊艳的短视频片段，但想要创作长视频甚至是影视作品时，AI 模型似乎开始变得力不从心。

然而，在好莱坞，一家 AI 影视公司却已经拔地而起，开始将 AI 影视生成技术从模型验证推向大规模产业化。

11 月 3 日，据 Deadline 报道，AI 原生影视工作室 Utopai Studios 与全球创新投资平台 Stock Farm Road（SFR）宣布成立资本规模达数十亿美元的合资公司 Utopai East，以加速韩国影视的国际化进程。

SFR 背后，一面是 LG 集团继承人 Brian Koo，另一面是阿联酋主权基金推动者 Amin Badr-El-Din。

报道显示，此次合作中 Utopai Studios 将成为 SFR 在娱乐领域的独家 AI 技术合作伙伴，依托 SFR 在韩国规划的 350 亿美元 AI 数据中心枢纽，构建下一代影视制作基础设施。

在这场以韩娱为核心的产业协同背后，隐藏着 Utopai 希望系统性攻克的关键命题：如何让 AI 真正理解并驾驭影视长片的叙事逻辑，进而实现从「短片生成」到「长片制作」的工业级跨越？

视频链接：https://mp.weixin.qq.com/s/ACTi_DYghRP2rFKSungTeQ

核心问题：为何传统视频模型难以驾驭长片制作？

目前主流视频生成模型（如 Diffusion）的本质还是概率性生成器，它们逐帧或短片段独立生成视频，缺乏对长叙事逻辑的全局规划能力。

当视频生成目标从「生成片段」升级为「制作长片」时，Diffusion 模型的短板开始凸显：

长程一致性崩塌：角色外貌、场景元素在跨镜头时容易出现「漂移」，例如服装颜色突变、人物外貌畸变等。
叙事可控性不足：模型难以理解剧本中的因果链条（如情绪的递进转换），生成的内容往往与导演意图偏离。
物理合理性缺失：模型仅学习 2D 像素统计规律，缺乏对三维空间遮挡、碰撞等规则的认知，易产生反物理的「幻觉」。

Utopai 带来的解决方案则是直击痛点 ——不再追求单一模型的极致优化，而是通过架构重组，让不同模型各司其职。

技术架构：规划与渲染解耦的协同范式

Utopai 在技术上的重要创新是构建了分层协同架构，其中自回归模型（AR）负责「规划」，扩散模型（Diffusion）负责「渲染」，二者通过统一状态空间耦合。

1.规划层：自回归模型作为「导演大脑」

序列预测机制：AR 模型以剧本为输入，通过前帧预测后帧的机制，生成涵盖角色 ID 向量、摄像机轨迹、光影变化等要素的时空计划。该计划本质是一个机器可执行的「拍摄蓝图」，确保长达数十分钟的片长中元素演进逻辑保持一致。
状态记忆与因果推理：模型能够维护可回放的长程状态记忆，例如追踪角色从第 1 镜到第 50 镜的动作轨迹，避免传统模型因局部生成导致的逻辑断裂。

2.渲染层：扩散模型作为「执行引擎」

条件化生成：扩散模型不再随机「抽卡」，而是严格依据规划层输出的结构化指令（如深度图、光流信号）生成画面。例如，当规划层指定「摄像机以俯角拍摄雨夜小巷」时，扩散模型就会据此渲染细节。
物理规律注入：通过训练时引入带精确标注的 3D 合成数据，模型学习空间遮挡、材质反射等规则，避免生成内容违反重力或碰撞逻辑。

3.协同接口：统一状态空间

规划层与渲染层通过统一状态空间交换信息：规划器输出未来帧的几何与语义约束，渲染器据此生成像素，并反馈生成结果供规划器优化后续计划。这一闭环解决了扩散模型「生成即遗忘」的缺陷。

简单来说，Utopai 的突破就在于构建了一种融合自回归模型与扩散模型的协同架构，通过「规划 — 渲染」解耦的协同范式，将 AI 从「画面生成工具」升级为「叙事协作伙伴」。

训练方法论：从 2D 统计到 3D 物理规律的跃迁

Utopai 模型能力的基石是其独特的训练策略，训练的核心是用 3D 物理规律替代 2D 像素统计。

1.预训练阶段：几何与语义对齐

通过使用高质量 3D 合成数据（如虚拟城市、动态物体），训练模型去理解场景的深度信息，如材质属性、运动轨迹等，而非仅学习网络视频的像素分布；通过构建「下一状态预测」「掩码重建」等任务，强制模型推理物体遮挡关系（如角色绕过桌椅而非穿模）。

2.微调阶段：多模态指令遵循

在这一阶段，引入剧本、分镜等专业数据，训练模型将抽象指令（如「史诗感」）转化为具体视觉元素（如低角度镜头、暖色调光影）。

这样的训练方式使模型能处理复杂指令，例如当要求角色「由怀疑转为恍然大悟」时，模型能够协调人物角色的面部微表情、肢体语言、镜头焦距的同步变化，而非简单替换表情贴图。

可量化的技术优势：定义 AI 电影叙事的新指标

当前 AI 视频领域的通用指标（如 FVD、CLIP Score）主要衡量视觉逼真度和文本符合度，但无法有效评估「叙事质量」。

Utopai 的核心优势之一，正是建立一套基于专业影视标准的内部评估体系，其在三个维度超越传统方案：

1.一致性指标

相较于通用模型在几秒后可能出现角色特征「漂移」的现象，Utopai 的系统旨在跨越数十甚至上百个镜头，仍然稳定保持核心角色身份、场景布景和光影逻辑的连续性。这种一致性不是简单的「不变化」，而是按照叙事逻辑的「合理演进」。

2.剧本指令遵从度

Utopai 能够量化生成内容与复杂剧本指令的匹配程度。例如，当剧本要求「角色从犹豫转为决绝」时，AI 模型能通过姿态、视线、镜头语言与光影的协同变化，呈现出符合表演逻辑的情感转变，而非生硬的表情切换。

3.制作效率的跃升

这样的架构能极大优化专业影视制作的前期流程，导演可通过修改时空计划（如调整摄像机轨迹）精准控制生成结果，无需反复「抽卡」，将创意迭代周期从数周缩短至几天。

Utopai 的实践揭示了一条代表范式转变的技术路径：影视级 AI 模型的未来不是替代 Diffusion 或 AR，而是通过架构创新实现专业化分工。

在这里，AI 不再是辅助工具，而是能够理解导演愿景、具备电影级思维的真实创作伙伴。

正如 Utopai 创始人兼 CEO Cecilia Shen 所言：「AI 可以生成无穷选项，但定义品味的永远是会讲故事和有艺术审美的人。」

而此次合作也不仅是资本层面的联手，更是以韩国为战略枢纽，整合 AI 技术、算力基建与内容生态的系统性布局。

当技术的成本壁垒被 AI 击穿，电影制作的未来将更多地取决于想象力的边界，而非预算的多少。那些曾因「拍不起」而被搁置的宏大叙事，或许正奔跑着拥抱 AI 影视，阔步走向好莱坞大荧幕。

Utopai联手LG、中东主权基金加码韩娱，新模型颠覆AI视频格局！

“天后前夫”...

“消失”12...

一个时代审美...

曾经被国产质...

安德鲁蹲伏在...

470场，格...

这家中国民企，破解了“迪拜之眼”难题，还拿下30多项“世界第一”！

武汉理工毕业生称因当保安遭学校约谈本人否认蹭流量

44岁郭晶晶看车被偶遇，素颜白发撞脸董明珠

数据不会说谎！《向往8》收视0.3

3人因销售火麻种子被判缓刑申诉获再审法院维持原判

剑指千亿！松江卫星互联网产业按下“加速键”

北京一副局长骑电动车送外卖，“原以为骑手最关心社保政策，没想到他们张口就是‘别罚我款’”

恭喜！49岁萧煌奇官宣结婚，和妻子晒结婚戒指分享甜蜜

新年烫头不想显老10岁？看这篇就够了

张艺谋谍战片定档打了春节档一个措手不及

英歌舞300岁，正是“闯”的年纪

从一罐无糖，到“全城疯迷”：百事如何把联名做成渠道新生意

被预制菜笼罩，商场餐饮大撤退？

陈妍希带娃现身海口，儿子小星星近状曝光，母子俩牵手同行好温馨

卖车的力不从心买车的见怪不怪，车市或进入“后价格战时代”

孙东旭卸任东方甄选珠海公司职务

杨立昆爆猛料：Meta Llama造假，小扎因此大换血

银行长期限存款“退场”背后

韩专家：韩国建核潜艇被大国幻觉冲昏头可能刺激中国

许家印出事前，只有他提前果断脱离恒大，至今毫发无损

杭州男子家中一斤黄金消失找了两天后报警结局太意外

曾1600元一粒难求的片仔癀，如今跌至六七百元！药房：买得多可以优惠

高端海鲜“老炮儿”，开始扎堆做小火锅

山东加时105-99福建取4连胜，陶汉林19+10，邹阳空砍28+8