筑基AI4S:摩尔线程全功能GPU加速中国生命科学自主生态

精准医疗与药物研发正被人工智能深刻重塑。作为AI for Science(AI4S)领域的核心阵地,解码生命奥秘的关键已从实验观测转向算力与算法的协同突破。蛋白质结构预测、基因组分析与医学影像,构成了生命科学AI的三类关键技术,其能力直接决定了新药研发的效率与精准医疗的进程。

然而,作为这三类关键技术之一的蛋白质结构预测模型AlphaFold 3,其训练代码未完全开放,商业使用亦受限,这使得科学家难以基于该模型构建真正自主可控的研发环境。这种技术依赖还面临更深层的合规挑战:蛋白质结构预测与基因组分析涉及大量人类遗传数据,相关法规对数据的跨境流动有明确规范。因此,构建从模型到算力的全链路自主能力,不仅是科研效率的保障,更是合规与安全的必然要求。

在技术工具层面,这一困境迎来了破局。2026年,字节跳动发布Protenix-v1,在Apache 2.0协议下完整开源代码及模型参数,业界称之为首个在同等条件下“性能表现达到甚至超越AlphaFold 3的全开源模型”。至此,生命科学领域迎来了自主可控、可训练、可定制的开源基础模型。

工欲善其事,必先利其器。模型开放只是起点,能否在国产算力上跑通训练、推理、精度验证和开发环境,决定了这些模型能否真正进入科研与产业工作流。摩尔线程旗舰级训推一体全功能智算卡MTT S5000,基于自主MUSA软件栈,已完成对蛋白质结构预测模型Protenix、基因组基础模型Evo 2的完整验证。实测显示,在生命科学AI核心工作负载中,MTT S5000实现了性能对标:在蛋白质结构预测训练任务中,其单卡性能达到国际主流GPU的115%以上;在基因组大模型推理与训练任务中,精度与国际主流GPU持平。此外,摩尔线程已开源MUSA加速版MONAI 1.5.0,为AI医学影像这一关键环节提供国产算力支持,进一步增强了AI4S工具环的可控性。

生物医药研发对算力的依赖日益加深,而算力供应链的安全性直接影响科研与产业的稳定性。摩尔线程全功能GPU能够完整承载生命科学AI前沿模型的生产级负载,为国内科研机构、药企及医疗机构提供了自主可控的高性能计算基座,降低了对单一算力路径的依赖。

这是中国AI医药研发领域的一个里程碑事件:从可控模型到自主算力,从结构预测到医学影像,一个完整、开放、可控的AI医药研发底座正在形成。

生命的数字镜像

人类生命体由约30亿个碱基对编码而成。若将人体比作一台精密运行的计算系统,感冒发烧如同临时进程异常,免疫机制可自动修复。然而,癌症、渐冻症等重大疾病的根源,是写入基因组深处的代码错误:抑癌基因被篡改,导致细胞增殖失控;运动神经元代码发生乱码,指令无法传达。这些内源性错误无法通过常规手段修复,需要从分子层面被靶向。

理解这些疾病,需回归生物学的中心法则:DNA转录为RNA,再翻译为蛋白质。蛋白质从氨基酸序列折叠为三维空间构象,多条肽链可组装为功能复合体(如血红蛋白)。核心共识贯穿始终:序列决定结构,结构决定功能。

《筑基AI4S:摩尔线程全功能GPU加速中国生命科学自主生态》

图1:基于AI生命科学技术的肿瘤精准诊疗与新疗法研发协同框架

正是基于这一逻辑链条,AI驱动的精准治疗解决方案得以构建。当前,基于生命科学AI的癌症精准治疗已形成完整的技术闭环:

1. 基于MONAI等框架的AI影像学实现早筛与监测;

2. 基因组大模型(如Evo 2)解读突变功能;

3. 结构预测模型(如AlphaFold / Protenix)揭示蛋白结构变化;

4. 在此基础上设计靶向药物或降解剂;

5. 最终通过临床验证与数据回馈,持续优化模型。

这一技术路径的实现,高度依赖于蛋白质结构预测、基因组分析与医学影像这三类关键工具。

生命科学AI的工具箱

Protenix:蛋白质结构预测的开源破局

蛋白质结构决定功能。精确预测蛋白质三维结构,是理解疾病机制、设计靶向药物的关键。

2018年以来,DeepMind的AlphaFold系列不断刷新结构预测的精度边界。2024年发布的AlphaFold 3可同时预测蛋白质、DNA、RNA及小分子配体等复合物结构。然而,该模型的训练代码未完全开放,商业使用亦受限,全球科研机构难以基于其进行定制化开发。

Protenix的出现填补了这一空白。2025年5月,字节跳动发布生物分子结构预测模型Protenix-v0.5.0,成为开源社区中追平甚至挑战AlphaFold 3水平的重要力量。2026年2月,字节跳动正式发布Protenix-v1,在Apache 2.0协议下完整开源代码及模型参数。据媒体报道,Protenix是首个在相同训练数据与推理预算下,性能达到甚至超越AlphaFold 3的全开源模型,模型采用Transformer+Diffusion架构,可精准处理蛋白质、DNA/RNA及小分子配体。开发者可基于Protenix在自有数据集上进行微调与训练,为特定研究任务提供了灵活的技术路径。

Evo 2:从“阅读”到“写作”基因组

Protenix解决了“序列→结构”的映射问题,但更深层的源头问题仍然存在:基因如何决定蛋白质序列?为什么某些基因更易突变导致疾病?修改基因会产生什么后果?

人类基因组总长约30亿碱基对,其中编码蛋白质的基因仅占1%-2%,大部分为非编码区。非编码区承载了人与人之间90%以上的遗传差异,其功能机制尚未被完全阐明。糖尿病、精神分裂症等复杂疾病涉及多个微效基因的叠加效应——这需要更强大的基因组建模能力。

《筑基AI4S:摩尔线程全功能GPU加速中国生命科学自主生态》

图2:Evo 2和Evo 1的模型框架

Evo 2由美国Arc研究所等机构共同开发,于2026年3月发表于《自然》期刊。作为面向生命科学领域的基因组基础模型,Evo 2借鉴了大语言模型的理念,在超过12.8万个物种、9.3万亿个核苷酸(OpenGenome 2数据集)上完成训练,覆盖细菌、古菌、真核生物三大生命域。其训练数据量是前代Evo 1的30倍,模型采用StripedHyena 2架构,可一次性处理长达100万个碱基对的序列,训练效率达传统Transformer的三倍。Evo 2提供70亿和400亿参数两个版本,其中400亿参数版本是当前最大的开源生物学AI模型。

Evo 2的核心能力主要体现在两个维度:

  • 精准预测:可零样本评估编码区和非编码区基因突变的影响。在区分乳腺癌相关基因BRCA1的有害突变与良性突变时,预测准确率超过90%,为临床解读“意义未明变异”提供了重要工具;
  • 生成设计:从“阅读”基因组进化到“写作”基因组。成功案例包括设计模拟生殖支原体的简化基因组、人类线粒体基因组、酵母染色体片段,以及设计并合成功能性噬菌体——部分设计序列在导入大肠杆菌后产生了具有杀菌活性的病毒颗粒,为应对抗生素耐药性提供了新思路。

MONAI:医学影像的“事实标准”

在AI医学影像领域,算法正从基础的2D图像筛查,迈向复杂的3D器官分割与生成式内容创建。作为该领域公认的“事实标准”,基于PyTorch构建的开源框架MONAI(Medical Open Network for AI),已成为连接前沿学术研究与临床落地应用的关键桥梁。截至2024年底,其全球下载量已突破350万次,在行业内被广泛应用。

MONAI采用清晰的三层架构设计:

  • MONAI Core:提供专门针对医学影像的高效数据处理、变换方法与网络架构;
  • MONAI Label:作为智能标注工具,通过AI辅助大幅提升数据标注效率;
  • MONAI Deploy:支持将训练好的AI模型打包并部署至临床环境。

凭借从数据标注、模型训练到临床部署的完整闭环能力,MONAI已成为医学影像AI研究与应用的主流框架。

结构预测模型涉及复杂的pair representation、几何推理与扩散式计算,对显存、访存及数值稳定性要求极高;基因组基础模型面向超长序列与大规模数据训练,对长上下文处理、分布式训练及吞吐效率要求严苛;医学影像框架强调从标注、训练到部署的完整链条,对框架兼容性与工程落地能力要求更强。对国产GPU而言,真正的挑战不仅在于跑通模型,更在于同时完成算子适配、数值稳定性验证、训练与推理双场景支持,以及开发环境的可复现封装。

摩尔线程全功能GPU实践

面对这些挑战,摩尔线程基于自主MUSA软件栈,完成了对Protenix、Evo 2及MONAI三大生命科学AI工具的完整验证与支持,覆盖推理、训练及医学影像三大场景。

Protenix:训练性能达115%以上

Protenix-v0.5.0作为开源社区中追平AlphaFold 3水平的重要版本,为开发者提供了可训练、可定制的全栈开源方案。摩尔线程在MTT S5000上完成了对该模型的推理与训练验证。

《筑基AI4S:摩尔线程全功能GPU加速中国生命科学自主生态》

图3:7r6r等示例序列在MTT S5000上的推理重建结果和误差对比

▼ 推理精度:

选取 7r6r、7wux、7pzb三个示例序列进行推理重建测试。如上图所示,重建可视化效果与参考实现基本一致,端到端整体计算误差小于1%,充分验证了推理结果的准确性与可靠性。

▼ 训练性能:

如下图所示,在全数据集训练任务中,MTT S5000单卡性能达到国际主流GPU的115%以上。

《筑基AI4S:摩尔线程全功能GPU加速中国生命科学自主生态》

图4:Protenix-v0.5.0实测表现

Evo 2:精度完全对标

在Evo 2_7B模型上,摩尔线程完成了推理与训练的精度对标。对4个序列生成任务的比对显示:序列生成Score、准确率与国际主流GPU持平,充分体现了MUSA软件栈对基因组大模型的完整兼容性。

《筑基AI4S:摩尔线程全功能GPU加速中国生命科学自主生态》

图5:Evo 2_7B实测表现

MONAI:国产化加速

在医学影像环节,摩尔线程已开源MUSA加速版MONAI 1.5.0(了解更多详情请参见https://gitee.com/MooreThreads/monai ),为AI医学影像领域提供国产算力支撑。基于MUSA软件栈,摩尔线程实现了对MONAI官方仓库的原生支持,开发者可实现“零学习成本”的无缝迁移。

国内领先的XR+AI智慧外科解决方案提供商锦瑟医疗,已将MONAI深度集成至其产品线。锦瑟医疗CTO陈亮表示:“我们基于CUDA开发的成熟算法,可以低成本、高效率且无损地迁移到摩尔线程MUSA平台。在AI医学影像的复杂实际任务中,MUSA展现出与CUDA对等的计算精度与运行稳定性。”

这意味着,国产全功能GPU的价值不再局限于研究端的模型验证,而开始进入更接近真实医疗应用的工程链路。

筑基AI4S,共创生命科学新未来

从基因序列到蛋白质宇宙,生命科学的AI化正在重塑疾病理解与治疗的根本范式。在AI for Science(AI4S)的版图中,蛋白质结构预测与基因组设计已成为检验算法创新与算力能力的试金石。

摩尔线程在生命科学领域的一系列探索成功推动了“开源模型—本土软件栈—国产算力—开发者工作流”的全链路闭环。对国内科研机构、药企和医疗技术团队而言,意味着在许可条件、数据合规、供应链安全与长期迭代能力上,拥有更高自主性,加速从验证到落地的全流程。

生命科学的数字镜像正在被层层解码。在AI for Science的时代浪潮中,摩尔线程愿与开发者一同,在30亿碱基对的浩瀚宇宙里,探索从基因到蛋白质的未竟之路。

点赞

发表评论

邮箱地址不会被公开。 必填项已用*标注