关闭广告

NeurIPS 2025放榜:阿里Qwen门控注意力获最佳论文

量子位49人阅读

嘻疯 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,NeurIPS 2025最佳论文奖、时间检验奖出炉!

今年Best Paper共有4篇,3篇为华人一作,阿里Qwen门控注意力获奖

Best Paper Runner-up也有三篇

这七篇论文聚焦于扩散模型理论、自监督强化学习、大语言模型注意力机制、大语言模型推理能力、在线学习理论、神经缩放定律以及语言模型多样性基准测试方法等领域的突破性进展。



另外,任少卿、何恺明、Ross Girshick、孙剑团队2015年提出的深度学习模型Faster R-CNN拿下时间检验奖

Faster R-CNN用于解决目标检测问题,目标检测的任务不仅要知道一张图片里有什么物体(分类),还要知道这些物体在图片的什么位置(定位)。

它的名字“Faster”已经点明了其最大贡献:极大地提升了目标检测的速度,真正实现了端到端的、接近实时的检测。



4篇Best Paper,3篇华人一作

1、《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》



论文一作为来自华盛顿大学的Liwei Jiang。

这篇工作聚焦大语言模型在开放式生成任务中的多样性问题,提出“人工蜂群思维(Artificial Hivemind)”概念。

核心发现是当前大模型存在显著的模型内重复和模型间同质性:

单一模型对同一开放式查询会生成相似响应,不同模型(无论开源还是闭源、不同规模)也会收敛到相似输出,即便采用min-p等增强多样性的解码策略,仍有超60%的响应相似度超过0.8。



例如,对查询“写一个关于时间的隐喻”的响应通过主成分分析(PCA)将句子嵌入降至二维后进行聚类。25个不同家族、规模的模型以top-p=0.9、temperature=1.0生成50条响应,所有响应仅形成两个主要聚类:“时间是一条河流”“时间是一位织工”。



为支撑研究,作者构建了含26K真实世界开放式查询的INFINITY-CHAT数据集,涵盖创意内容生成、头脑风暴、哲学问题等6大类17个子类,并收集了31250条人类标注,形成首个系统评估开放式查询的资源。



同时,研究还发现,现有大模型、奖励模型和大模型评判器在评估人类偏好分歧大或质量相近的开放式响应时,与人类评分的校准度较低,难以捕捉人类多元偏好。



论文通过大量实验(涉及70+模型)验证了“人工蜂群思维”的普遍性,讨论了其对人类思维同质化的潜在风险,并为未来开发更具多样性、更贴合人类多元需求的AI系统提供了基准和方向,也指出了数据集语言局限性、创意表达维度简化等研究不足。

2、《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》



论文共同一作Zihan Qiu、Zekun Wang、Bo Zheng均来自阿里Qwen团队,Zeyu Huang来自爱丁堡大学。

该论文聚焦大语言模型中的门控注意力机制,通过对15B混合专家(MoE)模型和1.7B稠密模型在3.5万亿token数据集上的30种变体进行全面实验,系统探究了门控增强型softmax注意力的效果。

研究核心发现,在缩放点积注意力(SDPA)后应用特定于注意力头的sigmoid门控能持续提升模型性能,同时增强训练稳定性、容忍更大学习率并改善缩放特性。



该门控机制的有效性源于两大关键因素:一是在softmax注意力的低秩映射中引入非线性,二是通过查询依赖的稀疏门控分数调节SDPA输出。

这种稀疏门控不仅缓解了大规模激活和注意力沉陷问题,将基线模型中平均46.7%指向首个token的注意力占比降至4.8%,还提升了长上下文外推性能,在RULER基准上实现超10分的增益。



实验还对比了不同门控位置、粒度、共享方式、作用形式及激活函数的效果,证实SDPA输出的元素级门控最优,且头特定门控比头共享门控更有效,乘法门控优于加法门控,sigmoid激活函数表现最佳。



此外,该门控机制在MoE模型和稠密模型中均有效,能支持更大学习率和批次大小的稳定训练,且在上下文长度扩展至128k时仍保持优越性能,相关代码和模型已公开,其核心设计也被应用于Qwen3-Next模型中。

3、《1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities》



论文一作Kevin Wang,来自普林斯顿大学,同时是OpenAI研究员。

这篇论文聚焦于解决强化学习中模型规模扩展的难题,探索了网络深度作为关键因素对自监督强化学习性能的影响。

与近年来RL领域普遍采用2-5层的浅层架构不同,研究团队将网络深度提升至1024层,结合自监督RL算法(对比性RL,CRL)、GPU加速框架以及残差连接、层归一化、Swish激活等架构技术,在无演示、无奖励的无监督目标条件设置下开展实验。



实验覆盖移动、导航和机器人操作等多种任务。

结果显示,加深网络深度使CRL算法性能提升2-50倍,在半数环境中实现超20倍的性能飞跃,且在10个任务中的8个超越SAC、TD3+HER等主流目标条件基线算法。



深度增加不仅提高任务成功率,还会触发质的行为变化,当达到特定临界深度(如Ant Big Maze的8层、Humanoid U-Maze的64层)时,智能体将习得全新技能(如类人机器人的翻墙、坐姿移动等)。



研究还揭示,深度扩展比宽度扩展更具计算效率(参数与计算量增长更平缓),且能与批量大小扩展协同作用。



同时,actor和critic网络的联合深度扩展可互补提升性能;深层网络通过增强对比表征能力、优化探索与表征效率的协同作用、合理分配关键状态区域的表征容量等机制实现性能提升,还在组合泛化任务中表现更优。



此外,研究发现深度扩展的优势主要体现在在线RL场景,离线设置下效果有限,且仅CRL等自监督算法能有效利用深度扩展,传统TD类算法难以从中获益。

论文通过详尽的实验验证、架构消融和机制分析,为RL的规模扩展提供了新范式,同时也指出了计算成本较高等局限性。

4、《Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training》



论文共同一作Tony Bonnaire、Raphaël Urfin,来自巴黎高等科学与研究学院。

论文深入探究了扩散模型避免训练数据记忆化、实现泛化的核心机制,聚焦训练动态中的隐式动力学正则化作用。

论文首先指出,扩散模型在图像、音频、视频等生成任务中表现出色,但理解其防止记忆化、保障泛化能力的机制是关键挑战。通过大量数值实验与理论分析,研究识别出两个关键训练时间尺度:

一是泛化时间,即模型开始生成高质量样本所需的最短训练时间,该时间与训练集大小无关;二是记忆化时间,超过此时间模型会开始记忆训练数据,且该时间随训练集大小呈线性增长。

这两个时间尺度形成的泛化窗口会随训练集规模扩大而拓宽,只要训练在泛化窗口内停止,模型就能高效泛化,只有当训练集大小超过模型相关阈值时,无限训练时间下的过拟合才会消失,这一发现揭示了隐式动力学正则化能让扩散模型即便在高度过参数化场景下也可避免记忆化。



在实验验证方面,研究以CelebA人脸数据集为对象,将图像转为灰度下采样图像,采用U-Net架构构建分数模型,通过改变训练集大小和模型参数数量(调整U-Net基础宽度)展开实验。



结果显示,不同训练集大小下,泛化时间基本稳定,记忆化时间随训练集增大而线性延长,且模型容量会影响两个时间尺度(参数越多,泛化和记忆化出现越早),同时排除了数据重复导致记忆化的可能性,证明记忆化由损失景观的本质变化驱动。



理论分析层面,研究采用随机特征神经网络模型,在高维极限下结合随机矩阵理论等工具,分析训练动态。

结果表明,训练动态的时间尺度与随机特征相关矩阵的特征值倒数相关,过参数化场景下会出现两个分离的特征值区间,分别对应泛化和记忆化时间尺度,泛化阶段依赖数据总体协方差,与具体数据集无关,记忆化阶段则与数据集相关的高频特征有关,进一步印证了实验观察到的规律。



此外,论文还探讨了优化器影响、条件生成场景等扩展情况,同时指出研究局限,如未充分探索更宽范围的模型参数、未深入分析条件生成对时间尺度的具体影响等。

Faster R-CNN获时间检验奖



Faster R-CNN目标检测框架,核心创新是引入区域提议网络(RPN),通过与检测网络共享全图像卷积特征,解决了传统目标检测中区域提议计算耗时的瓶颈问题,实现了高效且高精度的目标检测。

RPN作为全卷积网络,能在特征图的每个位置同时预测目标边界框和目标性得分,其设计的“锚点”机制通过3种尺度和3种长宽比的参考框,无需图像金字塔或滤波器金字塔即可覆盖多种尺度和形状的目标,兼具平移不变性且参数规模远小于MultiBox等方法,有效降低过拟合风险。

论文设计了多任务损失函数,结合分类损失(log损失)和回归损失(smooth L1损失),通过4步交替训练策略将 RPN与Fast R-CNN融合为统一网络,实现卷积特征的共享——

RPN扮演注意力角色指示检测网络关注区域,Fast R-CNN负责对提议区域进行精确分类和边界框修正。



在实验验证方面,该框架在PASCAL VOC 2007、2012和MS COCO等数据集上均取得当时最先进的检测精度,使用VGG-16模型时在GPU上达到5fps的帧率(含所有步骤),仅需300个提议区域即可优于传统Selective Search(2000个提议)的性能,且提议计算仅耗时10ms。



在ILSVRC和COCO 2015竞赛中,Faster R-CNN和RPN成为多个赛道冠军方案的基础。

此外,论文还通过消融实验验证了锚点设置、损失函数平衡参数等超参数的鲁棒性,对比了单阶段与两阶段检测框架的优劣,证明两阶段架构更具精度优势,同时探索了MS COCO大规模数据集对PASCAL VOC任务的迁移提升作用,通过跨数据集预训练实现了检测精度的显著提高。

该框架不仅为实时目标检测提供了实用解决方案,其共享特征和锚点机制也深刻影响了后续3D目标检测、实例分割等多个计算机视觉领域的发展,相关代码已公开供学术界和工业界使用。


[1]https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/
[2]https://blog.neurips.cc/2025/11/26/announcing-the-test-of-time-paper-award-for-neurips-2025/

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

76人新赛季不败金身被破,全胜球队仅剩马刺、雷霆和公牛

懂球帝 浏览 125

拟购半导体资产 英唐智控继续转型

北京商报 浏览 98

国台办:对于迫害大陆配偶的"台独"帮凶爪牙决不轻饶

环球网资讯 浏览 134

引力一号遥二运载火箭发射成功

环球网资讯 浏览 160

一级演员李春来表演时突然倒地,后抢救无效去世

可乐谈情感 浏览 84

女孩性侵的案子你都敢盖?!

电影最TOP 浏览 1

双巴大战来了!萨巴伦卡、莱巴金娜会师WTA总决赛争冠

懂球帝 浏览 116

播放破1.6亿!我断言:“反腐剧”拍成这样,观众不会骂娘

皮皮电影 浏览 2849

女网红名下公司涉嫌逃税逾千万被查处 仍在高频次直播

红星新闻 浏览 26

曝曼联3800万求购铁腰,没达到大巴黎标价!法国中卫明确拒绝曼联

罗米的曼联博客 浏览 2581

传奇瑞高管发全员邮件痛批华为太强势 引咎辞职 官方回应来了

网易科技报道 浏览 16146

年轻人用AI生成流浪汉吓坏父母,引810万人围观,这次玩笑开大了

机器之心Pro 浏览 143

尹锡悦看守所内收超6.5亿韩元代管金 系总统年薪2.5倍

鲁中晨报 浏览 122

2026年度流行色怎么搭最好看?看这篇就够了

LinkFashion 浏览 20

徐萌为87岁范曾操办寿宴 身材丰腴满面红光主动带酒

缘浅娱深 浏览 3002

韩美首脑讨论推动建造核动力潜艇 外交部回应

北京青年报 浏览 136

极氪右转:为何回归一个吉利?

天天汽车 浏览 133

日股大跌,政坛地震威胁“高市交易”

国际金融报 浏览 152

MINI与Paul Smith合作推出设计师款 东京车展首秀

网易汽车 浏览 133

Counterpoint:比亚迪 2024 纯电汽车销量将超特斯拉

IT之家 浏览 18235

62岁刘德华告诉你:发型一丝不苟,裤子短一截,到老也不油腻

潮人志Fashion 浏览 2949
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2024,版权所有 xingchentong.com
沪ICP备20017958号-8