可助力阿尔兹海默等疾病诊断,上海交大发布蛋白质设计模型-新华网
2025 03/24 09:04:08
来源:新华网

可助力阿尔兹海默等疾病诊断,上海交大发布蛋白质设计模型

字体:

  新华网上海3月23日电(史依灵 符云霞 江倩倩)上海交通大学洪亮教授团队22日发布其最新成果:团队将人工智能与蛋白质设计与改造相结合,建立了全球最大的蛋白质数据集,并利用其训练了启明星 (Venus)系列模型。

  

  蛋白质功能预测Venus系列模型发布会。新华网 发(受访者供图)

  洪亮介绍,团队建立的蛋白质序列数据集Venus-Pod(Venus-Protein Outsize Dataset)含有近90亿条蛋白质序列,包含数亿个功能标签,是全球数据规模最大、功能批注标签最多的数据集。

  据了解,该数据集包含36.2亿条陆地微生物蛋白质序列、26.4亿条海洋微生物蛋白质序列、24.3亿条抗体蛋白质序列、0.6亿条病毒蛋白质序列,覆盖从常规地表生物到极端环境微生物的蛋白质序列信息,尤其是配备的数亿功能标签。这些数据意味着什么?洪亮解释,一方面,该数据集构成了巨大的“蛋白质矿藏”,使得人类有可能挖掘新的蛋白或者生物催化剂,助力我们生物医药和合成生物学的快速发展;另一方面,AI大模型有望通过海量数据的学习和掌握自然界蛋白质的进化模式,为AI设计优异的蛋白质产品提供了宝贵的学习资料。

  蛋白质是由20种氨基酸组成的一条高分子链,这个高分子链会扭曲并折叠成独特的三维结构,正是这种独特结构赋予了特定蛋白质的生物功能。洪亮教授团队直接瞄准“功能预测”这一终极目标,将复杂的蛋白质设计变成以需求为导向,配合少量实验输出结果的简单过程。“我们训练了启明星系列模型,与DeepMind团队的AlphaFold预测蛋白质结构不同,这个模型学习自然界蛋白质序列的组织规则以及它与功能之间的关系,其预测蛋白质突变功能的精度位居行业榜单之首”。

  

  洪亮团队科研人员正进行湿实验验证工作。新华网 发(受访者供图)

  洪亮表示,启明星系列模型具备两大核心功能:“AI定向进化”与“AI挖酶”。所谓“AI定向进化”是指启明星系列模型可以对一个不尽如人意的蛋白质产品的多种性能进行优化,让它成为一个“六边形战士”满足应用需求;“AI挖酶”则是指启明星系列模型基于其海量的未知功能蛋白质数据集,可以“海选超能力战士”,去精准发掘满足苛刻应用需求的具备超常规功能的蛋白质,比如极度耐热、极度耐酸、极度耐碱、极度耐胃肠消化等。“这些超常规功能的蛋白质在生物技术、医药研发和工业生产中具有巨大的应用潜力,能够为相关领域带来创新和突破。”洪亮说。

  如今,经过启明星系列模型设计的多款蛋白质已经实现了落地产业化。以国内生长激素龙头金赛药业的单域抗体耐碱性改造为例,洪亮团队借助该模型结合少量湿实验闭环迭代验证,不到 1 年将普通单域抗体耐碱性提升 4 倍,每年为金赛药业节约上千万元成本。该成果已实现多个批次 5000 升放大生产,成为全球首款由大模型设计并规模化生产的蛋白质产品。

【纠错】 【责任编辑:王若宇】