上海交大发布大模型Venus,可让蛋白质“定向进化”
来源:
|
作者:proac3c72
|
发布时间 :2025-04-27
|
46 次浏览:
|
分享到:
在蛋白质设计领域,传统方法面临着诸多难题,如需要丰富的专家经验,且要经过数以万计的实验试错,时间长、成本高,这些问题长期制约着行业发展。3月22日,上海交通大学洪亮教授团队发布最新蛋白质设计模型“Venus”,把蛋白质生产由“缓慢的试错”变为“高效率的精准设计”,开启AI蛋白质设计新阶段。该模型设计的多款产品已进入产业应用。

洪亮团队发布蛋白质设计大模型Venus(受访者供图)
科研团队首先建立了全球最大的蛋白质序列数据集Venus-Pod,其含有近90亿条蛋白质序列,包含数亿个功能标签。这些数据覆盖从常规地表生物到极端环境微生物的蛋白质序列信息,为AI模型提供了丰富“养分”,让其能更好地理解蛋白质的序列、结构和功能关系,挖掘新蛋白,助力生物医药和合成生物学发展。针对蛋白质设计中关键的功能预测问题,团队训练出Venus系列模型。与其他聚焦蛋白质结构的模型不同,Venus直接瞄准“功能预测”。它能精准学习自然界蛋白质序列与功能的关系,预测蛋白质突变功能的精度位居行业榜首。Venus系列模型具备两大核心功能:“AI定向进化”与“AI挖酶”。“AI定向进化”可优化蛋白质性能,让其成为满足应用需求的“六边形战士”。而“AI挖酶”则是Venus基于其海量的未知功能蛋白质数据集,可以“海选超能力战士”,去精准发掘满足苛刻应用需求的具备超常规功能的蛋白质,比如极度耐热、极度耐酸、极度耐碱、极度耐胃肠消化等。这些超常规功能的蛋白质在生物技术、医药研发和工业生产中具有巨大的应用潜力,能够为相关领域带来创新和突破。
洪亮表示,自然界中参与构成蛋白质的氨基酸有20种,一个蛋白质分子一般由几十个乃至数百个氨基酸组成,而蛋白质的功能则包含热稳定性、活性、亲和力等。
据介绍,与以往靠经验和高通量实验的传统方法相比,大模型Venus能完成蛋白质从序列到功能的预测,实现了从“大海捞针”到精准设计。如果想要强化目标蛋白质的某个功能,只需要提供该蛋白质的序列信息,Venus就可以快速给出一批蛋白质序列改造方案,随后结合实验验证得到最优改造方案。
洪亮表示,基于海量功能未知的蛋白质数据集,精准发掘满足苛刻应用需求的、具备超常规功能的蛋白质,是Venus的另一核心功能,有望开发这些蛋白质在生物技术、医药研发和工业生产中的应用潜力。
“蛋白质设计大模型的突破,不仅开辟了蛋白质从序列到功能的科学研究新方向,还打通了人工智能与生物交叉的工程化应用之路。”上海交通大学自然科学研究院院长金石说。
据介绍,Venus设计的多款蛋白质已进入产业化阶段,例如活性高、稳定性强、产物纯的PET降解酶,用于超敏检测诊断的高活性碱性磷酸酶等。