星宸资讯

这项由ServiceNow公司的Nima Sheikholeslami领导的研究团队完成的突破性工作，发表于2025年9月30日的arXiv预印本平台（论文编号：arXiv:2510.00137v1）。感兴趣的读者可以通过该编号查询完整论文。这项研究揭开了当前AI检索系统的一个重大缺陷，并提出了一种全新的训练方法，让搜索引擎能够给出更可靠、更一致的相关性评分。

在日常使用搜索引擎或问答系统时，你是否遇到过这样的困扰：明明搜索的是同一个问题，但系统给出的答案质量却忽高忽低，有时候不相关的内容反而排在前面？这个问题的根源其实隐藏在AI检索系统的核心训练机制中。目前主流的检索系统就像一个只会相对比较的评委，它能判断在同一个问题下哪个答案更好，但无法给出绝对的好坏评分。这就导致了一个尴尬的局面：对于不同问题的答案，系统无法进行跨问题的质量比较。

ServiceNow的研究团队发现，这个问题源于目前广泛使用的对比学习方法。这种方法就像让学生只做选择题，永远不做绝对评分题。学生虽然能在给定选项中选出最好的答案，但无法给每个答案一个独立的分数。更严重的是，研究团队通过严格的数学证明发现，现有的训练方法在提升检索质量这个核心目标上存在根本性的盲点。

为了解决这个问题，研究团队提出了一种名为Mann-Whitney损失函数的新训练方法。这种方法的灵感来源于统计学中的Mann-Whitney U检验，它能让AI系统学会给每个文档一个绝对的相关性评分，而不仅仅是相对排序。通过这种方法训练的检索系统，就像培养了一个能给每道菜打绝对分数的美食评委，而不是只会说"这道菜比那道菜好"的相对评判者。

研究团队在多个标准数据集上进行了详尽的实验验证，包括自然语言推理、问答系统、阅读理解等不同任务。实验结果显示，使用新方法训练的检索系统不仅在传统的检索指标上表现更优，在评分一致性方面更是有了显著提升。特别是在需要设定相关性阈值的实际应用场景中，新方法展现出了明显的优势。

一、检索系统的隐秘缺陷

在深入探讨解决方案之前，我们先来理解当前检索系统面临的核心问题。现代的AI检索系统，包括那些为搜索引擎、智能问答和文档检索提供支撑的系统，都依赖于一种叫做"双编码器"的架构。这种架构的工作原理就像一个智能的图书管理员，它会把用户的问题和候选文档都转换成数字化的"指纹"，然后通过比较这些指纹的相似度来判断文档与问题的相关程度。

然而，这个看似完美的系统却隐藏着一个致命缺陷。目前主流的训练方法叫做"对比学习"，它的工作方式就像训练一个只会做选择题的学生。给定一个问题和几个候选答案，系统学会了如何选出最相关的那个，但它从来没有学会如何给每个答案一个绝对的分数。

这种局限性在实际应用中会产生什么后果呢？研究团队给出了一个生动的例子：当用户问"为什么天空是蓝色的？"时，一个相关度很高的答案可能只得到0.85分，而当另一个用户问"为什么地球上有不同季节？"时，一个相关度较低的答案却可能得到0.82分。这种分数的不一致性让系统无法设定一个统一的相关性阈值来过滤低质量内容。

更深层的问题在于，现有的训练方法对于分数的绝对值完全不敏感。研究团队通过严格的数学证明揭示了一个惊人的事实：你可以任意调整某个查询下所有文档的分数，只要保持它们的相对顺序不变，训练损失就完全不会改变。这就像一个老师在批改试卷时，只关心学生的排名顺序，而完全忽视他们的实际分数。学生A得90分，学生B得80分，和学生A得60分，学生B得50分，在这个老师眼里是完全一样的。

这种盲点的存在意味着，传统的对比学习方法在优化过程中根本无法感知到全局的分数分布质量。它可能会产生这样的结果：对于简单问题的不太相关答案分数很高，而对于复杂问题的高度相关答案分数很低。这种现象在实际的检索增强生成系统中尤其危险，因为这类系统通常需要设定一个固定的阈值来决定是否采用检索到的信息。

研究团队还发现，这种缺陷不仅影响系统的校准性，也会间接影响检索性能。当系统无法学会正确的全局分数分布时，它对不同查询和文档组合的泛化能力也会受到限制。这就解释了为什么即使是表现优秀的检索系统，在面对需要绝对评分的应用场景时往往表现不佳。

二、Mann-Whitney损失函数的创新突破

为了解决传统对比学习的根本缺陷，ServiceNow的研究团队提出了一种全新的训练方法，他们称之为Mann-Whitney损失函数。这个名字来源于统计学中著名的Mann-Whitney U检验，这是一种用来比较两组数据分布差异的统计方法。

Mann-Whitney损失函数的核心思想可以用一个简单的比喻来理解。传统的对比学习就像训练一个只会在一桌菜中选出最好吃的那道菜的食客，而Mann-Whitney损失函数则是在训练一个能对任意两道菜进行味道比较的美食评委。这个评委不仅要能判断A菜比B菜好吃，还要能准确估计A菜好吃多少，以及这种判断的置信度有多高。

从技术角度来看，Mann-Whitney损失函数的工作原理是这样的：对于训练数据中的每一对正例文档（相关文档）和负例文档（不相关文档），无论它们是否来自同一个查询，系统都要学会给出正确的相对评分。具体来说，系统需要确保每个正例文档的分数都高于每个负例文档的分数，而且这种比较是全局性的，不受查询条件的限制。

这种方法的数学表达非常优雅。对于每一对正例和负例文档，系统计算它们分数差值的sigmoid函数，然后通过最小化二元交叉熵损失来优化。这个过程确保了正例文档的分数总是倾向于比负例文档更高，而且差距越大，系统的信心越足。

研究团队为这种新方法提供了严格的理论保证。他们证明了Mann-Whitney损失函数直接上界于"曲线下面积"（AUC）的补集，这意味着最小化这个损失函数就等价于最大化AUC指标。这个理论结果非常重要，因为AUC是评估检索系统性能的黄金标准之一，它衡量的是系统将相关文档排在不相关文档之前的能力。

更深层的理论意义在于，Mann-Whitney损失函数建立了训练目标和评估指标之间的直接联系。传统的对比学习方法在训练过程中优化的目标与最终的评估指标之间存在不可忽视的差距，而新方法则实现了完美的对齐。这种对齐不仅在理论上更加优雅，在实践中也带来了显著的性能提升。

从计算复杂度的角度来看，Mann-Whitney损失函数确实需要进行更多的成对比较。在传统方法中，每个查询只需要与同一批次内的负例进行比较，而新方法需要与所有负例进行比较。但是，这种额外的计算开销主要体现在损失计算阶段，对于嵌入向量的计算和相似度计算的成本并没有增加。研究团队通过巧妙的实现技巧，使得这种额外开销在实际应用中是完全可以接受的。

三、实验设计与性能验证

研究团队设计了一套全面的实验来验证Mann-Whitney损失函数的效果。他们选择了三种不同规模的预训练模型作为基础架构：MiniLM（小型模型）、XLM-RoBERTa-Base（基础模型）和XLM-RoBERTa-Large（大型模型）。这种多规模的实验设计确保了结论的普适性，无论是资源受限的应用场景还是追求极致性能的场景，都能从中受益。

实验涵盖了四个具有代表性的数据集，每个数据集都代表了不同类型的语言理解任务。自然语言推理数据集测试系统理解句子间逻辑关系的能力，自然问题数据集模拟真实的开放域问答场景，SQuAD数据集专注于阅读理解任务，而MS MARCO数据集则是搜索引擎检索的经典基准。通过在这些不同任务上的测试，研究团队确保了新方法的通用性和鲁棒性。

在评估指标的选择上，研究团队采用了业界认可的标准指标。AUC指标衡量系统区分相关和不相关文档的能力，MRR指标关注最相关文档的排序位置，nDCG指标则综合考虑了排序质量和相关性程度。这种多维度的评估确保了结论的全面性和可信度。

实验结果令人印象深刻。在同领域性能测试中，使用Mann-Whitney损失函数训练的模型在AUC指标上普遍获得了显著提升。以XLM-RoBERTa-Large模型为例，在自然语言推理任务上，AUC从0.73提升到了0.88，这是一个相当可观的改进。更重要的是，这种提升在所有测试数据集上都保持了一致性，说明新方法的优势是普遍存在的，而不是针对特定任务的偶然改进。

在传统检索指标方面，新方法也展现出了竞争优势。虽然MRR和nDCG的提升相对温和，但考虑到这些指标已经在传统方法上得到了充分优化，任何进一步的改进都是难能可贵的。特别值得注意的是，随着模型规模的增大，新方法的优势变得更加明显，这表明更大的模型具有更强的能力来学习这种更复杂的全局优化目标。

四、跨领域泛化能力的深度验证

为了验证Mann-Whitney损失函数的泛化能力，研究团队设计了一个更加严格的测试场景：他们在自然语言推理数据集上训练模型，然后在完全不同的BEIR基准测试套件上评估性能。BEIR是检索领域的综合性基准，包含了十多个不同领域的数据集，从生物医学文献检索到法律文档分析，从科学论文搜索到金融问答，覆盖了几乎所有主要的应用场景。

这种跨领域测试的设计理念类似于医学研究中的临床试验。在实验室条件下表现良好的药物，必须在真实世界的复杂环境中证明其有效性。同样，在单一数据集上表现优秀的机器学习方法，也需要在多样化的应用场景中验证其鲁棒性。

跨领域实验的结果进一步证实了新方法的优势。在BEIR基准的14个子任务中，使用Mann-Whitney损失函数训练的模型在绝大多数任务上都取得了更好的性能。特别令人惊喜的是，这种改进在不同类型的任务上都保持了一致性。无论是事实性问答、文档分类，还是论证挖掘任务，新方法都展现出了稳定的性能增益。

更深入的分析显示，新方法在需要精确相关性判断的任务上表现尤为突出。例如，在科学文献检索任务SciFact上，AUC指标从0.66提升到了0.77，这种程度的改进在实际应用中具有重要意义。科学研究者在查阅文献时，需要系统能够准确识别真正相关的研究，而不是被表面相似但内容无关的文档所误导。

跨领域实验还揭示了一个有趣的现象：模型规模越大，新方法的跨领域泛化优势越明显。这个发现具有重要的实践指导意义，它表明在有限的计算资源下，选择更好的训练方法可能比简单地增大模型规模更加有效。对于很多实际应用场景，使用Mann-Whitney损失函数训练的中等规模模型，其性能可能超过使用传统方法训练的大型模型。

五、算法收敛性与计算效率分析

研究团队还深入分析了新方法的训练动态和计算特性。他们发现，Mann-Whitney损失函数的收敛速度确实比传统的对比学习方法稍慢。具体来说，新方法通常需要额外20-30%的训练步数才能达到最佳性能。这个现象并不意外，因为新方法需要学习更复杂的全局分数分布，这自然需要更多的训练时间。

然而，这种额外的计算成本是完全值得的。研究团队认为，较慢的收敛速度实际上反映了新方法正在解决一个更困难、更有价值的优化问题。传统方法只需要学会局部的相对排序，而新方法要建立全局一致的评分体系，这种任务的复杂性自然更高。

从计算资源的角度来看，Mann-Whitney损失函数的主要额外开销来自于更多的成对比较计算。在传统方法中，每个查询只需要与同批次内的负例进行比较，而新方法需要与所有负例进行比较。研究团队通过精心设计的实现方案，将这种额外开销控制在了可接受的范围内。他们发现，通过合理的批处理策略和内存管理，新方法的实际训练时间仅比传统方法增加了约15-25%。

更重要的是，这种额外的训练成本是一次性的。一旦模型训练完成，在推理阶段的计算成本与传统方法完全相同。对于需要长期部署的生产系统来说，训练阶段的适度额外投入换取推理阶段的持续性能改进，这种投资回报是非常划算的。

研究团队还分析了不同超参数设置对新方法性能的影响。他们发现，Mann-Whitney损失函数对学习率、批次大小和负例数量的敏感性都比较低，这意味着新方法具有更好的鲁棒性和更容易的调参过程。这种特性在实际应用中非常有价值，因为它降低了技术门槛，让更多的开发者能够成功应用这种先进的训练方法。

六、理论创新与实践意义

Mann-Whitney损失函数的提出不仅仅是一个技术改进，它代表了检索系统训练范式的根本性转变。传统的对比学习方法虽然在很多任务上表现优秀，但它存在的理论缺陷一直被学术界所忽视。这项研究首次系统地揭示了这些缺陷，并提供了严格的数学证明。

从理论角度来看，这项工作的最大贡献在于建立了训练目标与评估指标之间的直接数学联系。在机器学习领域，这种联系被称为"算法一致性"，它是衡量一个学习算法质量的重要理论标准。Mann-Whitney损失函数实现了与AUC指标的完美一致性，这在理论上保证了训练过程的正确方向。

这种理论创新的实践意义是深远的。在实际的检索系统部署中，开发者经常需要面对一个困难的问题：如何设定一个合理的相关性阈值来过滤低质量结果？传统的系统由于缺乏全局校准，这个阈值往往需要通过大量的试验和错误来确定，而且在不同类型的查询下可能需要不同的阈值。

使用Mann-Whitney损失函数训练的系统则提供了更好的解决方案。由于分数的全局一致性，开发者可以设定一个统一的阈值，这个阈值在不同类型的查询下都能保持稳定的过滤效果。这种特性对于需要自动化运行的大规模系统来说具有巨大的价值。

另一个重要的实践意义体现在检索增强生成系统的应用上。这类系统需要根据检索到的文档来生成答案，文档质量的不一致直接影响生成答案的质量。更好的文档评分校准意味着系统能够更准确地识别高质量的参考文档，从而生成更可靠的答案。

七、技术实现与部署考虑

对于希望在实际项目中应用Mann-Whitney损失函数的开发者来说，技术实现相对直接。研究团队提供的方法不需要修改现有的模型架构，只需要替换损失函数的计算方式。这种设计使得新方法能够无缝集成到现有的训练流程中。

在具体实现时，开发者需要注意几个关键点。首先是负例采样策略的调整。由于新方法需要进行更多的成对比较，合理的负例采样变得更加重要。研究团队建议使用困难负例挖掘技术，这样可以在保持训练效果的同时减少计算开销。

其次是批处理策略的优化。传统的对比学习可以使用相对较小的批次，而Mann-Whitney损失函数从更大的批次中获益更多。这是因为更大的批次提供了更多的成对比较机会，有助于学习更准确的全局分数分布。但是，批次大小的增加也会带来内存需求的增长，开发者需要在性能和资源消耗之间找到平衡点。

模型部署阶段的考虑主要集中在分数校准的验证上。研究团队建议在部署前进行全面的校准测试，确保模型在实际数据上的分数分布符合预期。这种测试可以通过在验证集上绘制ROC曲线和分析分数分布来完成。

对于已经在生产环境中运行传统检索系统的团队，迁移到新方法需要谨慎的规划。研究团队建议采用渐进式的迁移策略：首先在小规模的测试环境中验证新方法的效果，然后逐步扩大应用范围。这种策略可以最大程度地降低迁移风险，同时确保系统性能的持续改进。

结论

ServiceNow团队的这项研究为检索系统的训练方法带来了重要突破。通过深入分析传统对比学习方法的理论缺陷，他们提出了Mann-Whitney损失函数这一创新解决方案。这种新方法不仅在理论上更加严谨，在实践中也展现出了显著的性能优势。

从技术角度来看，Mann-Whitney损失函数解决了检索系统长期存在的分数校准问题。通过学习全局一致的相关性评分，新方法让检索系统具备了更强的实用性和可靠性。这种改进对于需要设定固定阈值的应用场景特别有价值，比如自动问答系统、文档推荐引擎和内容过滤系统。

从更广阔的视角来看，这项研究展示了理论分析在机器学习研究中的重要价值。通过严格的数学分析揭示传统方法的盲点，研究团队不仅提出了更好的解决方案，也为后续的相关研究指明了方向。这种将理论洞察转化为实践改进的研究范式值得更多研究者借鉴。

实验结果显示，新方法在多个维度上都优于传统方法，特别是在跨领域泛化能力方面表现突出。这种优势对于需要处理多样化查询的实际应用系统来说具有重要意义。随着AI技术在各个领域的深入应用，对检索系统泛化能力的要求越来越高，Mann-Whitney损失函数为满足这种需求提供了有效的技术路径。

虽然新方法在训练效率方面存在一定的额外开销，但这种投入换来的性能改进是值得的。特别是在大规模部署的生产系统中，训练阶段的适度额外投入能够带来长期的性能收益。

展望未来，这项研究为检索系统的发展开辟了新的方向。研究团队提到的一些未来工作方向，包括在大规模多语言环境下的应用、与其他优化技术的结合等，都具有重要的研究价值。同时，新方法在其他需要全局校准的机器学习任务中的应用潜力也值得进一步探索。

总而言之，这项研究不仅解决了一个重要的技术问题，也为整个检索系统领域的发展做出了有意义的贡献。对于希望改进检索系统性能的开发者和研究者来说，Mann-Whitney损失函数提供了一个简单而有效的工具。随着更多团队开始采用这种新方法，我们有理由期待检索系统在准确性和可靠性方面的进一步提升。

Q&A

Q1：Mann-Whitney损失函数与传统对比学习方法的主要区别是什么？

A：传统对比学习就像只会做选择题的学生，只能在同一个问题下比较答案好坏，无法给出绝对评分。而Mann-Whitney损失函数像训练能给任意答案打绝对分数的评委，可以进行跨问题的质量比较，解决了分数不一致的问题。

Q2：使用Mann-Whitney损失函数训练会增加多少计算成本？

A：新方法主要增加了成对比较的计算量，实际训练时间比传统方法增加约15-25%，需要额外20-30%的训练步数。但模型训练完成后，推理阶段的计算成本与传统方法完全相同，是一次性投入长期受益。

Q3：这种新方法适合什么样的应用场景？

A：特别适合需要设定固定相关性阈值的场景，如自动问答系统、文档推荐引擎、内容过滤系统等。对于检索增强生成系统也很有价值，能帮助更准确地识别高质量参考文档，从而生成更可靠的答案。

ServiceNow团队破解检索系统评分难题：让AI搜索更懂你的真实需求

74岁刘銮雄...

岛内民调：赖...

上海推动培育...

特朗普呼吁立...

搭载VLA大...

字节否认与博...

苗圩：保障安全的前提下，科学有序推进人工智能技术落地

真正优雅的50、60岁女人，不留黑长直，更不扮嫩，这样太美了

特斯拉Cybertruck雨刮器像＂巨型湿面条＂，功率高达1KW

福建舰入列消息刷屏美媒对其达到的技术高度表示赞叹

豪华平权大6座SUV 风云T11预售19.99万元起

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

秋天衣服没有必要买太多！这三款单品提前备好，百搭又不挑人

11月十大必看短剧

冬天就要和金靖一样穿得暖呼呼的

47岁冯绍峰颜值回春，自称是威尼斯影后的朋友

花400元“过家家”，Jellycat火爆看不懂？情绪消费正带来行业新逻辑

被60+阿姨的衣品惊艳：裙不上膝、衣不穿花，美得高级又洋气

巴西前国脚埃默松-莱昂：内马尔无法成为任何人的榜样

俄罗斯发射高超音速导弹

华硕发布Chromebox 5a主机：最高酷睿i7-1355U处理器 + 32GB 内存

美国的联邦制，很落后！

王鸥才是真清醒！住200平复式豪宅独自养娃

今夏“爆辣”小上衣！显瘦巨清凉，照着穿太美了！

俄外长：俄罗斯不会就乌克兰问题与任何一方私下谈判

德天空：法比奥-卡瓦略冬窗会离开布伦特福德，可能永久转会

＂最快女护士＂张水华获得＂复出＂后首个全马冠军

让男人上头的“伟哥”，遭遇大败退

2月起，这些新规施行

夫妇盯上2‰自然损耗规则上千吨粮食遭盗卖价值500万