关闭广告

边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA

新智元456人阅读


新智元报道

编辑:LRST

【新智元导读】AI拍长视频不再是难事!LongLive通过实时交互生成流畅画面,解决了传统方法的卡顿、不连贯等痛点,让普通人都能轻松拍大片。无论是15秒短片还是240秒长片,画面连贯、节奏流畅,让创作变得像打字一样简单。

你还在为拍视频头疼吗?

想象一下你正在写一个故事,主角从城市街头一路打到未来太空,剧情越来越精彩,突然你灵光一闪——

「如果他这时候变身成反派,故事会不会更炸?」

以前,你得重新写剧本、找素材、剪辑、渲染……

现在,你只需要打一句话,AI实时生成新剧情,而且画面连贯、节奏流畅,边想边出片,像电影一样!

近日,NVIDIA联合MIT等机构重磅推出LongLive,把交互式视频生成性能干到SOTA,最长实现4分钟,可以实时交互式长视频生成。


项目地址:https://nvlabs.github.io/LongLive/

论文链接:https://arxiv.org/abs/2509.22622

项目主页:https://nvlabs.github.io/LongLive/

视频1:交互式视频生成结果展示

LongLive的惊艳不止于实时交互,别家模型「跑长跑就掉鞋」,我们把终点线直接拉到4分钟——240秒一镜到底,人物不崩、剧情不跳、镜头不晃。

视频2:和其他模型在长视频生成上的视觉对比。LongLive生成速度快的同时,还保持了视觉一致性和语义上的连贯

对比Sora2,由于Sora2每次只能生成10秒视频,Sora2借助GPT-5对输入进行了优化,尽可能地增加背景和上下文信息,来提示Sora2生成的连贯性。

视频3:Sora2与LongLive在长视频生成上的对比。Sora2在视频质感、运镜以及物理规律模拟等方面非常强大,但难免会出现突变和不一致。LongLive连续性好且生成速度快

VBench-Long权威测评显示,LongLive在长视频赛道拿下84.87总分,领先同量级选手近4分;背景一致性94.8、主角一致性94.0,全程零闪变,比SkyReels-V2快了41倍。


表1:LongLive和其他模型在长视频生成上的User Study对比

回到日常短视频(15-30秒)场景,一样「稳又快」:20.7帧/秒生成速度,比播放速度还快;VBench短片段评分86.97,视觉效果依旧SOTA。


表2:LongLive在VBench 短视频评测榜单上的性能比较

一句话,无论15秒爆款还是240分钟大片,LongLive都给你影院级稳感和丝滑产出

现在,很多扩散模型的做法由于双向注意力机制导致长时域生成过慢。而另一些则是「把一段视频一段视频分别生成然后拼起来」,所以越长越崩,人物形象完全错误,还有一些方法由于训练阶段使用短视频,推理阶段则推长视频导致训推不一致。

总结为:

  • 不用KV-cache,时间太慢并且形象错乱。

  • 使用KV-cache,实时交互困难。

  • 训不动长视频,推理则错误累计。


而LongLive完美解决这些痛点,一个真正面向长视频生成交互式的训练和推理算法。滚动式窗口支持长视频训练,单张GPU实现240s实时交互生成。

视频4:240s长视频生成效果

LongLive三板斧

LongLive的核心秘诀是「三把钥匙」,专门解决「长、顺、快」不可能三角:

长跑钥匙——Streaming Long Tuning

专为「长度」而生:训练时就让模型自己跑完240秒,边生成边学习,像陪练一样陪它冲过终点,从此不再「train-short-test-long」,越长越稳。


图2:流式长视频微调流程图。

剧情钥匙——KV-Recache

换剧情时,旧画面不丢,新指令立刻生效。就像导演现场改剧本,演员自然接戏,不会「出戏」或「重来」。


图3:不同策略对比来看,LongLive提出的KV re-cahce完美解决所有痛点

时间锚点和聚光灯注意力——Frame Sink和Short-Window

把开头几帧永久「钉」在记忆里,后面无论怎么拍,人物长相、场景风格都不会跑。相当于给整部片上了「定妆锁」。


图4:LongLive提出的sink策略保持风格一致

只看最近关键几帧,算力减半,画面反而更稳。就像摄影师只追焦主角,背景再乱也不影响镜头清晰度。


图5:LongLive提出的Shift Window策略极致的加速生成和降低算力消耗

三招齐下,才能让你「边聊边拍」240 秒依旧不崩、不跳、不重来,这才是 LongLive敢把「交互式长视频」做成「打字速度」的大秘诀。

LongLive把「写一句话」变成「拍一部大片」,长视频一镜到底、随时改戏、立等可取——从此,长视频不再是专业团队的专利,而是每个人随手可得的创意游乐场。

真正的交互式视觉时代已悄然开启,AI的每个灵感都值得被实时看见,被长久记住。

参考资料:

https://arxiv.org/abs/2509.22622

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

"地表最难乒乓球赛"上 全运会卫冕冠军王曼昱差点输了

澎湃新闻 浏览 510

《伟大的长征》首发预告,于和伟饰演毛泽东,总觉得差点意思

最爱酷影视 浏览 440

媒体:中美元首会晤让赖清德坐立不宁、寝食难安

环球时报新闻 浏览 586

俄称在克里米亚附近击落乌导弹和无人机

环球网资讯 浏览 3353

哈马斯呼吁落实加沙停火协议 要求确保拉法口岸双向开放

极目新闻 浏览 371

那些外国博主们,怎么突然开始吹中国手机了???

差评XPIN 浏览 315

拖欠WTO的会费 美国已悄悄补缴

上观新闻 浏览 583

韩安冉自曝新男友为她花了十几万,两人交往仅一个多月

扒虾侃娱 浏览 33

Claude Opus 4.5来了!单次生成打造《我的世界》,还破解高难度Agent测评

智东西 浏览 399

保时捷中国自建充电网络将关停,回应:重新调整资源 前三季度利润下跌99%

红星资本局 浏览 375

美财长公然挑拨中阿关系:米莱承诺"让中国退出阿根廷"

环球网资讯 浏览 578

梁实第28次高考总分446分未过二本线:心情烂透了

齐鲁壹点 浏览 3269

钟楚曦过往争议被扒,对苗苗黑脸、戛纳霸占楼梯,一进圈就有野心

萌神木木 浏览 447

超充智能为王 华为发布充电技术十大趋势

网易汽车 浏览 3272

10天9涨停!又一超级大妖股彻底爆了

财经锐眼 浏览 440

小伙去理发被店家弄到VIP房间后脸白了 联系父母要钱

1818黄金眼 浏览 39

AI时代,寻找超级创业者!徐汇区发布政策扶持一个人赛过一群人的“大牛”

上观新闻 浏览 383

票房从57.7亿跌到1.28亿,我感慨:这块金字招牌算是砸了

靠谱电影君 浏览 392

库里谈退役:到时身体状态会告诉你答案 现在我还差得远

直播吧 浏览 3077

《骄阳似我》热度24000,这才是现偶剧该有的样子

娱乐圈笔娱君 浏览 358

“麂皮包”越来越流行,秋冬怎么搭都好看

LinkFashion 浏览 441
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2024,版权所有 xingchentong.com
沪ICP备20017958号-8