关闭广告

一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军

新智元166人阅读


新智元报道

编辑:元宇

【新智元导读】加州大学伯克利分校等机构的研究人员,近日推出了一种全新的基因组语言模型GPN-Star,可以将全基因组比对和物种树信息装进大模型,在人类基因变异预测方面达到了当前最先进的水平。

让大模型读懂物种关系,这可能吗?

近日,加州大学伯克利分校等机构的研究人员,推出了一个全新、通用且功能强大的GLM框架GPN-Star。


论文地址:https://www.biorxiv.org/content/10.1101/2025.09.21.677619v1

GPN-Star破解了传统GLMs又大又烧算力、且在一些预测任务中不如传统进化模型等短板。

同时,它也克服了GPN-MSA在新数据场景下泛化能力不足等弱点。

GPN-Star的三点重要改进

GPN-Star(Genomic Pretrained Network with Species Tree and Alignment Representations,融合物种进化树与序列比对表示的基因组预训练神经网络),是一种基因组语言模型,它的灵感来自经典进化模型,目标是画出演化轨迹。

研究人员采用了专门的Transformer架构,既能够捕捉到WGA中的进化信号,又能够融入基因组上下文信息(图1A)。


该模型是纯编码器,以掩码语言建模(MLM)为目标训练,输入跨物种WGA窗口和系统发育树。

相比GPN-MSA,GPN-Star实现了三点升级:

  • 训练数据更加多样

    GPN-MSA仅在人类基因组上进行掩码训练,而GPN-Star则在多个物种中预测被掩码的碱基,显著扩大了训练数据的规模与多样性。

  • 显式引入物种间系统发育关系

    GPN-Star通过定制的注意力模块,可能更贴近生物学实现更精准建模。

  • 灵活适配任意比对数据

    无需像GPN-MSA手动剔除近缘物种。

GPN-Star是一个通用且高度灵活的框架,可适用于任何物种的比对数据,仅需最小程度的超参数调优即可获得强大性能。

研究人员先将其在人类基因组落地,分别用目前最大规模的脊椎动物、哺乳动物与灵长类WGA数据分别训练了三个GPN-Star模型(V)、(M)、(P)(图1B)。


研究人员重点分析了2亿参数版本,结果显示其计算资源开销远低于之前的GLM模型。

与以往超长时跨度(例如从原核生物到人类)的GLM不同,GPN-Star聚焦于近缘系统发育距离(图1B)。

很多情况下,建模较短进化历史往往更具优势。尤其是在解释某些类型的遗传变异时,捕捉近期的进化约束效果更佳(图1C)。


致病性编码变异预测

研究人员系统评估了GPN-Star在一系列标准测试集中的预测能力。

对比PhyloP、PhastCons、CADD、以及新一代多物种GLM(如Nucleotide Transformer 2.5B、Evo-2 40B 和 GPN-MSA)之后,GPN-Star (V) 在精确率-召回曲线面积(AUPRC)方面表现最佳,与蛋白语言模型 ESM-1b相当(图 2A)。


研究人员用COSMIC数据库评估了GPN-Star体细胞错义变异的预测性能,结果GPN-Star(V)明显优于所有对比模型,表现出极强的体细胞致病性预测能力(图2B)。


研究人员还在ProteinGym的31个DMS数据集上测试,GPN-Star(V)为基因组级最佳,仅略逊蛋白专用ESM-1b(图2D)。


在非编码任务中,研究人员重点评估致病非编码变异。

评测用OMIM与HGMD,评测结果GPN-Star(M)双基准夺冠(图2E、F)。


考虑到启动子区域在转录起始和基因调控中的关键作用,研究人员还评估了GPN-Star在OMIM启动子变异中的表现,并启动了三个子专用模型:PromoterAI、SpeciesLM和GPN-Promoter。

如图2H所示,GPN-Star(M)在预测性能上明显优于所有对比模型,尤其是在与其他启动子模型的比较中,其提升幅度尤为显著。


定位错义变异

为了进一步评估GPN-Star的实用价值,研究人员还测试了它在对来自英国生物银行(UK Biobank)65个性状的GWAS(全基因组关联研究)精细定位错义变异中,区分潜在因果变异与非因果变异的能力。

在所有参评模型中,GPN-Star(M)在区分这些精细定位的错义变异中表现最好(图2C)。


在对英国生物银行的83个性状的GWAS精细定位数据的基准测试中,GPN-Star(M)再次优于所有其他模型(图2G)。


对于位于启动子区域的精细定位变异,GPN-Star(M)再次超越了所有模型,包括PromoterAI、SpeciesLM和GPN-Promoter(图2H)。


强大的全基因组变异解读框架

上述结果表明,GPN-Star是一个强大、多用途的全基因组变异解读框架。

研究人员在多个基准测试中,观察到基于更长进化时间尺度训练的模型,更容易预测编码变异以及低频、效应大的变异。

而非编码变异以及高频、效应较小的变异,则更适合使用在较短进化时间尺度上训练的模型进行预测。

PhyloP和PhastCons分数在三种进化时间尺度下也呈现出类似趋势,但在每一种时间尺度下,GPN-Star表现都优于二者(图2I)。


考虑到GPN-Star在致病变异和精细定位变异预测中的强劲表现,研究人员进一步探索了它在稀有变异关联分析(RVAT)中的应用潜力,发现GPN-Star提升了稀有变异关联分析的能力。

学习基因组功能元件及依赖关系

GLM模型可以通过预测被遮蔽的核苷酸来学习强大的序列表示。

为探究这一点,研究人员可视化了基因区、cCRE和背景区的基因组窗口嵌入(图4A)。


研究发现,保守序列窗口的嵌入在功能区域上的聚类性更强(图4B),说明GPN-Star在预测时能识别基因组的关键功能元素。


为了进一步分析GPN-Star是否理解基因组「语法」,研究人员系统地对序列中每个位置进行突变,并计算该变异对其它位置预测概率的影响。

在编码酶酪氨酸羟化酶的TH基因启动子及首个外显子区域中,研究人员观察到两个强依赖模块:

一个在编码区,另一个在转录因子CREB的结合位点,该位点突变已知会引发酪氨酸羟化酶缺乏症和肌张力障碍(图4C)。


在HBA1基因中,研究人员也观察到跨外显子的依赖关系。

该基因的内含子极短,能够完整落入模型上下文窗口内。剪接供体与受体区域间的依赖关系尤其显著,与已有研究结果一致。

随后研究人员分析了LDLR启动子,该区域与家族性高胆固醇血症相关,且已通过MPRA等方法广泛研究。

模型可根据碱基依赖图中的块结构准确预测TFBS的位置(图4D),同时还能识别TFBS之间的依赖关系。


最后,研究人员分析了一个被认为受到灵长类特异性进化约束的开放区域。

在该区域的一个潜在TEAD4结合位点附近,GPN-Star(P)模型预测到了最强的依赖信号。

这些结果表明,GPN-Star能够通过协同进化信号学习有意义的碱基依赖结构,且与已知功能依赖一致。

这相较于传统的保守性评分方法(如PhyloP和PhastCons)是一次显著的进步。

为了更直接地评估模型预测与基因组中进化约束之间的关联,研究人员利用了gnomAD v3.1.2提供的等位基因频率数据,该版本汇总了来自76,156名个体的全基因组测序样本。

研究人员重点将GPN-Star与PhyloP和PhastCons进行对比,这两种模型同样基于全基因组比对(WGA)数据来学习进化约束。

为了评估模型对等位基因频率与约束关系的捕捉能力,研究人员选取了这三种模型在脊椎动物、哺乳动物和灵长类三个不同进化时间尺度上的版本,对gnomAD v3中第22号染色体的全部变异进行了预测(该染色体未用于GPN-Star模型训练)。

随后,研究人员按照每个模型的评分分位数对变异进行分组,并对各组中的平均等位基因频率进行比较。

如图5A所示,在所有三个时间尺度下,GPN-Star评分最低分位数中的变异平均频率显著低于对应的PhyloP和PhastCons分组,表明GPN-Star更准确地捕捉了人类基因组中的选择性约束。


研究人员进一步进行量化分析,关注模型评分分布中「最具约束力」的尾部区间。如图5B所示,三种GPN-Star模型在稀有变异富集上均明显优于PhyloP、PhastCons和CADD。


在GPN-Star各版本中,基于脊椎动物训练的模型整体表现最佳,甚至超过了同样以脊椎动物数据训练的GPN-MSA。

进一步按分子功能后果对变异进行分层分析后,GPN-Star在所有类别中均取得最高富集度。

其中,GPN-Star(V)在错义变异中表现最优,而GPN-Star(M)则在同义与非编码变异方面领先,这一趋势与先前基准测试中的观察结果一致。

研究人员研究了上下文相关的突变率差异对模型预测的影响,发现控制突变率变异有助于提升变异效应预测的准确性。

由于GPN-Star是在真实基因组序列上训练的,其预测自然同时反映了突变过程和选择过程的综合影响。

研究人员在致病性预测和复杂性状遗传力方面的结果证明了GPN-Star在人类遗传学中的实用性。

将进化数据与功能基因组数据结合,开发更强大的多模态基因语言模型,是未来非常值得探索的方向。

参考资料:

https://www.biorxiv.org/content/10.1101/2025.09.21.677619v1%20

https://x.com/yun_s_song/status/1969994081251266665

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

独行侠内线再多也不够?浓眉小腿拉伤至少缺阵两场

体坛周报 浏览 117

Jacob Elordi 最新电影造型,好像鬼!

下水道男孩 浏览 131

永不独行!利物浦官方发文庆祝俱乐部成立132周年

直播吧 浏览 2627

爱马仕继承人,千亿家产被最好的朋友骗光

Yuki女人故事 浏览 29

87岁画家范曾有四段婚姻 亲生后代一女一子

红星新闻 浏览 24

市值20亿,成长空间大的龙头,A股小而美企业名单

资本百科 浏览 2727

“做次反派,人生爽翻”

时尚COSMO 浏览 137

中国色特别策划 | 故宫建筑与阙羽重光

时尚COSMO 浏览 124

一直在错过!快船18年选中小桥又给送走了 得到的SGA也送走了

直播吧 浏览 2630

斯基拉:尤文、罗马、国米都在关注热那亚中场弗伦德鲁普

懂球帝 浏览 125

普京:美版和平方案与普特会讨论一致

新华社 浏览 61

从“土三轮”到“全球潮品”,徐州丰县的“三蹦子”何以“闯世界”

澎湃新闻 浏览 111

“万元定价”已成新趋势?人形机器人也打起了价格战

澎湃新闻 浏览 127

强调优势的吉利星愿,能否改写A0级市场的“野蛮迭代”

观察者网 浏览 144

乔治亚大学团队让大型语言模型学会"精打细算"的思考方式

科技行者 浏览 125

柳云龙:与初恋结婚,婚后生一女,如今咋样了?

人间无味啊 浏览 151

夏联-乔治30分&罚球绝杀 埃迪14+15 爵士加时力克灰熊

直播吧 浏览 2514

新能源汽车的轮胎,为啥那么贵?

小李车评李建红 浏览 133

我军开始用机器狗“巡山”了!

环球时报新闻 浏览 2725

进苏超决赛,泰州主帅:队伍分工明确,三个臭皮匠顶个诸葛亮

懂球帝 浏览 135

泰柬两国密集表态说法大相径庭 泰国称不会停止行动

环球网资讯 浏览 5
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2024,版权所有 xingchentong.com
沪ICP备20017958号-8