关闭广告

Artificial Analysis评测新鲜出炉:Kimi K2 thinking位居世界第二,开源第一

AI寒武纪444人阅读


根据著名AI分析机构Artificial Analysis的评估,Kimi K2 Thinking在智能体(agentic)相关任务中表现非常突出,但在完成评测时生成了所有模型中最多的token,表现出非常“话痨”的特性

以下是其核心要点:

智能指数67分,登顶开源榜首

Kimi K2 Thinking在Artificial Analysis智能指数中获得67分。

这一成绩使其明确领先于所有其他开源权重模型,包括最近发布的MiniMax-M2(61分)和DeepSeek-V3.2-Exp(57分),在所有模型中仅次于GPT-5


Agent能力突出,推理表现强劲

Kimi K2 Thinking在智能体应用场景中展现出强大实力,在Artificial Analysis智能体指数中排名第二,仅次于GPT-5

其优异表现主要得益于在²-Bench Telecom基准测试中取得了93%的成绩。这是一个智能体工具使用评测。这是该机构独立测量到的最高分


此外,在Humanity’s Last Exam(人类终极考试)评测中,Kimi K2 Thinking在无工具情况下的得分为22.3%,创下开源模型历史新高,仅次于GPT-5和Grok 4


成为新晋开源代码模型冠军

尽管Kimi K2 Thinking并未在任何一项代码评测中夺得总冠军,但相较于其他开源模型,它在各项评测中均排名第一或并列第一

具体排名为:Terminal-Bench Hard第6名,SciCode第7名,LiveCodeBench第2名

因此,它在Artificial Analysis代码指数中超越了先前的开源领导者DeepSeek V3.2

更多排名:


模型细节:1万亿参数,INT4原生精度

模型规格:总参数量1万亿,激活参数320亿(约594GB),仅支持文本输入,拥有256K上下文窗口

模型定位:该模型是Kimi K2 Instruct的推理变体,拥有相同的架构和参数数量

INT4精度:与此前Kimi K2 Instruct发布的FP8精度不同,该模型原生以INT4精度发布。月之暗面在后训练阶段使用了量化感知训练来实现这一点。这使得模型大小仅为约594GB,相比K2 Instruct的1TB以上大幅缩小,从而提升了推理和训练效率

代价:高冗余度、成本与延迟

Kimi K2 Thinking表现得非常“话痨”。在完成智能指数评测时,它总共使用了1.4亿个token,约为DeepSeek V3.2的2.5倍,GPT-5的2倍。


高冗余度直接影响了成本和延迟

基础版API

定价:输入 百 万 , 输 出 2.5/百万token。

评测总成本:$356,比顶尖前沿模型便宜(比GPT-5(高)便宜2.5倍),但比DeepSeek V3.2贵9倍

速度:非常慢,约8个输出token/秒

Turbo版API

定价:输入 百 万 , 输 出 8/百万token。
评测总成本:$1172,是第二昂贵的模型,仅次于Grok 4。
速度:相对较快,约50个输出token/秒

报告指出,此次发布再次凸显了一个持续的趋势:后训练,特别是强化学习(RL),正在推动推理模型和涉及工具调用的长程任务性能实现增长

参考:

https://artificialanalysis.ai/models/kimi-k2-thinking

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

深公司早报丨比亚迪前五月累计产量129万辆、顺丰控股赴港上市新进展、华侨城收监管函

21世纪经济报道 浏览 16600

董璇张维依三亚带娃,这才是家庭最舒服的样子

吴霶爱体育 浏览 255

4999元起!荣耀三箭齐发:Air旗舰要从小屏卷向超轻薄赛道?

雷科技 浏览 338

斯帕莱蒂:对克罗地亚我们的表现低于水准,我们需要做到更多

直播吧 浏览 2906

3天破24.3亿中美观众不买账,《哪吒2》年冠稳了

靠谱电影君 浏览 366

美以袭击伊朗 中东军事冲突持续升级

国际在线 浏览 240

CES2026:吉利将发布最新辅助驾驶等全域AI技术成果

网易汽车 浏览 342

这一天:杨幂蚂蚁腰无敌了,赵丽颖生图抗打,陈坤咋长这样了

娱乐圈笔娱君 浏览 304

数十款超2米,新能源车越造越宽?车企有“小算盘”,车大还好开

小李车评李建红 浏览 318

姆巴佩已完成职业生涯400球,为最年轻达成此成就球员

懂球帝 浏览 368

内外均有升级 新款斯柯达ENYAQ COUPE谍照曝光

网易汽车 浏览 2956

广东3配角齐爆太惊喜!杜润旺陈家政三分即插即用,焦泊乔终暴走

篮球资讯达人 浏览 325

巴西队接连错失机会,内马尔在看台上捂脸不忍直视

懂球帝 浏览 2824

净资产一天内增长77亿美元!印度富豪阿达尼风波后重当亚洲首富

环球网资讯 浏览 3050

未满14岁男孩刺死一陌生男子 作出三种不同版本供述

红星新闻 浏览 545

以方称已提交一份撤离加沙地带平民的行动计划

财联社 浏览 3495

离婚分走4亿财产,最爽的投行女出现了

金融八卦女 浏览 326

搭载华为智驾,奥迪「6系」电车上市,售价30.98万元起|最前线

36氪 浏览 65

17岁少年网购虚假退货"薅羊毛"获利超400万 被判刑6年

北青网-北京青年报 浏览 407

德媒:德总理拟动用俄央行在德冻结资产援乌

新华社 浏览 381

贝嫂素颜出镜翻车,疑眼皮提拉失败额头过度填充

好丹 浏览 3166
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2024,版权所有 xingchentong.com
沪ICP备20017958号-8