
当前,生命科学研究的复杂度随着多维度数据的出现不断升级,传统 AI 模型仍困于黑箱难题,难以摆脱工具属性,「让模型真正思考」成为 AI 与生物交叉领域的关键命题。百图生科正式推出 ProteinReasoner,让 AI模型真正像科学家一样思考起来,正是呼应这一命题的破局之作。百图生科技术副总裁张晓明表示:“ProteinReasoner 首次构建了真正的「生命科学多模态思维链」,链中所有环节都是生物模态,模拟生命机理推导,从而具备真正的推理能力;它开辟了干湿闭环新思路,从微调优化后置判断模型到「上下文学习」指导生成,其设计反馈效果更加明显,实验数据门槛也从 100 条降至 20 条,必将解锁更多新场景。ProteinReasoner 多目标感知的推理生成,叠加更短且更高效的干湿闭环,定会开启蛋白质设计新范式。”
目前,百图生科基于该技术正在推进系列 First-in-class 的突破性药物蛋白研发,包括血脑屏障递送蛋白等关键项目,将为治愈人类关键的神经系统疾病提供全新的技术平台。该示范项目在原有 De Novo 设计和高通量干湿闭环体系的基础上,通过多目标感知的 CoT 推理能力,针对需要满足复杂多参数最优约束、需要多轮次迭代设计才能实现的新构型创新蛋白,实现数十倍的效率提升,预计将在近期进入相关动物实验阶段。
ProteinReasoner /CoT 技术突破的背后,是百图生科生命科学基础大模型的深度积淀,也是百图生科跨模态「生物模拟器」技术版图的核心一环。随着 ProteinReasoner /CoT 技术与虚拟细胞、DNA/RNA 模拟器深度协同,「生物模拟器」将从单一蛋白质优化,升级为模拟整个生物系统动态演化的「数字孪生引擎」——从酶功能提升到细胞代谢调控,再到疾病机制解析,「模型思考」将驱动生命科学与产业转化进入新纪元。这不仅是 ProteinReasoner 的使命,更是百图生科对生命科学的终极想象:让数据流动成规律,让每一次实验更接近真理。
当前,生命科学研究的复杂度随着多维度数据的出现不断升级,传统 AI 模型仍困于黑箱难题,难以摆脱工具属性,「让模型真正思考」成为 AI 与生物交叉领域的关键命题。百图生科正式推出 ProteinReasoner,让 AI模型真正像科学家一样思考起来,正是呼应这一命题的破局之作。百图生科技术副总裁张晓明表示:“ProteinReasoner 首次构建了真正的「生命科学多模态思维链」,链中所有环节都是生物模态,模拟生命机理推导,从而具备真正的推理能力;它开辟了干湿闭环新思路,从微调优化后置判断模型到「上下文学习」指导生成,其设计反馈效果更加明显,实验数据门槛也从 100 条降至 20 条,必将解锁更多新场景。ProteinReasoner 多目标感知的推理生成,叠加更短且更高效的干湿闭环,定会开启蛋白质设计新范式。”
目前,百图生科基于该技术正在推进系列 First-in-class 的突破性药物蛋白研发,包括血脑屏障递送蛋白等关键项目,将为治愈人类关键的神经系统疾病提供全新的技术平台。该示范项目在原有 De Novo 设计和高通量干湿闭环体系的基础上,通过多目标感知的 CoT 推理能力,针对需要满足复杂多参数最优约束、需要多轮次迭代设计才能实现的新构型创新蛋白,实现数十倍的效率提升,预计将在近期进入相关动物实验阶段。
ProteinReasoner /CoT 技术突破的背后,是百图生科生命科学基础大模型的深度积淀,也是百图生科跨模态「生物模拟器」技术版图的核心一环。随着 ProteinReasoner /CoT 技术与虚拟细胞、DNA/RNA 模拟器深度协同,「生物模拟器」将从单一蛋白质优化,升级为模拟整个生物系统动态演化的「数字孪生引擎」——从酶功能提升到细胞代谢调控,再到疾病机制解析,「模型思考」将驱动生命科学与产业转化进入新纪元。这不仅是 ProteinReasoner 的使命,更是百图生科对生命科学的终极想象:让数据流动成规律,让每一次实验更接近真理。
论文名称:ProteinReasoner: A Multi-Modal Protein Language Model with Chain-of-Thought Reasoning for Efficient Protein Design
论文链接:http://www.biorxiv.org/content/10.1101/2025.07.21.665832v2
目录
导语
简介
结果
具备思维链推理的多模态模型
零样本蛋白质任务表现
消融实验:验证思维链设计与训练策略
思维链用于蛋白质优化
上下文学习用于蛋白质优化
讨论
方法
模型架构
模型训练
参考文献
导语
蛋白质语言模型(PLMs)借助大规模序列数据学习丰富的表征,加深理解蛋白质,加强相关工程能力。然而,这类模型却不能很好地捕捉到对蛋白质任务至关重要的结构与进化约束。尽管近期多模态蛋白质语言模型已整合序列与结构,但往往未能显式建模作为蛋白质科学基础的逐步推理过程,尤其是对蛋白质设计与优化至关重要的进化约束与决策逻辑。
有鉴于此,百图生科研究员提出 ProteinReasoner ——一种多模态蛋白质语言模型,其在一个思维链(CoT,Chain-of-Thought )框架内,显式地把「进化谱」(Evolutionary Profile)作为结构与序列模态的一个中间推理步骤纳入其中。结果证明,ProteinReasoner 已在蛋白质结构预测、反向折叠、突变效应预测任务中实现零样本性能提升,表现始终优于包括 ESM3 和 DPLM-2 在内的大模型。
此外,研究员还开发出一种创新的蛋白质优化的上下文学习(ICL,In-Context Learning)范式,其基于先前的实验反馈并利用 ProteinReasoner 推理能力,以指导序列生成。在蛋白质优化任务中,ProteinReasoner 优于传统干湿结合的主动学习范式(AL),实现更高的预测准度和更好的泛化能力。ProteinReasoner 为蛋白质建模与优化提供了一个可扩展、高效且可泛化的框架,并且为加速蛋白质工程工作流程和增强对蛋白质生物学的机制理解提供了一条实际路径。
简介
PLMs 已成为理解和开展蛋白质工程的强大工具。ESM 等系列模型已证明,基于蛋白质序列的大规模自监督训练可生成对多种生物任务有用的表征,从而推动了计算生物学的范式转变。通过学习氨基酸的上下文表征,PLMs 为探索蛋白质生物学提供了新视角,其影响类似于自然语言处理中的语言模型。
然而,基于序列的模型的局限性日益凸显;开发整合互补数据源的多模态蛋白质语言建模方法,以更全面地表征蛋白质生物学的复杂性,正受到越来越多的关注。近期研究日益聚焦于将结构与进化信息融入基于序列的表征中。ESM3、ProSST、SaProt、DPLM-2 等代表性工作即体现了这一趋势。尽管取得进展,一个核心挑战仍未解决:如何预训练多模态 PLMs,以有效整合结构、序列与进化信号,充分释放其互补潜力并优化模型容量。
回答这一问题需思考蛋白质科学家如何解读和推理蛋白质功能。蛋白质优化任务将定向进化作为内在推理机制——湿实验反馈的亲和力、产量等指标在此充当推理信号,指导后续突变决策。每一轮实验中,生成一组突变序列并评估其稳定性或结合亲和力等特性;这些突变序列的结果决定了哪些突变应被保留或进一步探索,从而有效构建出一条贯穿突变性景观的经验推理轨迹。这种定向进化过程随时间推移不断积累功能认知,体现了一种基于实验证据的潜在迭代式决策逻辑。
当前模型通常采用输入到输出的端到端映射,从而导致两个关键问题:它们忽略了作为支撑的进化约束信息,且常忽略了 MSA 作为输入模态。MSA 不仅在生物学上具有重要意义,还能编码残基保守性与共变性的丰富结构化表征。尽管无比对模型因其速度与可扩展性备受青睐,但在准确性上始终逊色于 AlphaFold 2 等 MSA 模型。这些局限凸显了对新建模范式的需求。

图1:ProteinReasoner 是一种多模态生成模型,把「进化谱」作为中间推理步骤
基于这一洞见,研究员提出 ProteinReasoner——一种生成式基础模型,将结构与序列作为主要模态,并引入受 ProfileBFN 启发的「进化谱」作为中间推理模态,用于表征自然或定向进化信号,为模型多模态理解提供潜在约束。与将进化信息视为辅助特征的做法不同,ProteinReasoner 模型将其整合为推理过程的核心组成部分,这种机制类似于大型语言模型中的思维链提示。
预训练阶段,ProteinReasoner 通过建模模态间的定向流动(包括序列→进化谱→结构及其反向)捕捉蛋白质科学任务的逻辑。这一设计提升了关键任务(包括蛋白质结构预测、反向折叠与突变效应)的零样本性能。此外,ProteinReasoner 还支持通过上下文学习进行蛋白质优化——这种推理驱动的学习方法通过显式上下文推理高效利用先例,在不额外训练的情况下更充分利用基础模型能力。
结果
具备思维链推理的多模态模型
ProteinReasoner 的输入数据包含三种独立模态:1)序列模态,氨基酸序列按残基级别进行分词,生成长度为 L 的序列向量;2)结构模态,蛋白质三维结构通过 DPLM-2 结构分词器离散化处理,将原子坐标编码为与序列等长的结构 token;3)进化谱模态(核心推理枢纽),作为模型的中间推理步骤,进化谱是基于MSA生成的 L x 21 数值矩阵,其捕获同源蛋白间的保守性与共进化模式,基于生物先验知识反映自然进化约束。
ProteinReasoner 在预训练阶段接收按特定顺序拼接的输入数据,包括(结构 → 进化谱 → 序列)或(序列 → 特征谱 → 结构)两种模式;并被训练用于同步预测下一结构 token、下一氨基酸残基以及后续位点的进化谱,通过模拟蛋白质折叠与逆折叠的生物学过程,构建跨模态推理流程:
正向推理:模型基于序列与进化谱预测蛋白质结构(模拟折叠过程)
逆向推理:模型依据结构与进化谱重建氨基酸序列(模拟逆折叠过程)
这种双向训练框架不仅强化了跨模态关联性,还同步提升了生成任务与预测任务的性能。
相较于传统多模态模型,ProteinReasoner 的创新性体现在模态分离架构,该设计使注意力机制能够通过结构化推理学习模态间依赖关系,显著增强模型容量。这一架构与新兴的「模态链」(Chain of Modality)多模态框架趋势高度契合。
ProteinReasoner 采用两阶段预训练策略(图1C)。第一阶段基于已发布的纯序列模型,使用从多源收集的 1 万亿氨基酸 token 进行训练;第二阶段多模态预训练继承第一阶段模型权重,训练数据包含 945 万个 AlphaFold 数据库结构和 31.1 万条经 PDB-REDO 优化的 X 射线晶体结构链。模型训练规模为 1.5 亿和 6.5 亿参数两种版本,最大训练 token 量为1.89×10¹¹。验证集评估(图1D)显示, 6.5 亿参数模型在序列/结构 token 上困惑度更低,以及进化特征谱预测的 KL 散度更低。这些结果证明更大参数规模具有更优的建模能力。
零样本蛋白质任务表现
为评估 ProteinReasoner 的泛化能力与建模能力,研究员在三项代表性任务(结构预测、反向蛋白质折叠、突变效应预测)上测试了其零样本性能,并对比 ESM3-Open 1.4B 和 DPLM-2 两个强大多模态基线模型,以定位 ProteinReasoner 在这些任务中的表现。

图 2:ProteinReasoner 下游任务推理形式概览
结构预测任务评估了两种推理模式(图 2 A、B):1)外部引导模式,模型同时接收氨基酸序列与基于 MSA 推导的进化谱;2)内部推断模式,模型仅接收序列,需先自主生成进化谱,再预测结构 token。最终性能通过均方根偏差(RMSD)和模板建模分数(TM-score)评估。结构预测任务在在四个评估数据集上进行对比验证:CAMEO、CASP14、CASP15以及基于PDB 日期划分的保留测试集。
在外部引导模式下,参数规模小于 ESM3-Open-1.4B 和 DPLM-2-3B 等模型的 ProteinReasoner-650M,在结构预测的四个基准数据集上始终优于所有基线模型,详细结果见表 1:
表 1:零样本结构预测基准测试结果
反向蛋白质折叠任务评估模型从给定蛋白质结构中重建氨基酸序列的能力。为避免标签泄露,与其他模型进行公平的比较,研究员在此任务上仅评估了内部推断模式,评估指标包括平均氨基酸恢复率(AAR)和自洽性模板建模分数(scTM),以体现反向蛋白质折叠任务的核心目标:设计能够可靠折叠成指定结构的新型序列。在所有模型中,ProteinReasoner-650M 实现了最高的结构一致性,测评结果详见表 2:
表 2:零样本反向蛋白质折叠基准测试结果
除生成任务外,研究员还在蛋白质理解任务(具体聚焦于突变效应预测)上评估了 ProteinReasoner:通过包含多种蛋白质综合突变扫描数据的 ProteinGym DMS 替换突变数据集对模型性能进行测试。结果显示,ProteinReasoner-650M 表现优于 ESM3-Open-1.4B,证明 ProteinReasoner 尽管参数规模较小,但在突变效应预测任务中仍具有效性。值得注意的是,从 1.5 亿参数扩展至 6.5 亿参数并未带来性能提升,表明相较于结构预测等生成任务,突变效应预测任务对模型规模的敏感性较低。具体评测结果见表 3:
表 3:零样本 ProteinGym 基准测试结果
消融实验:验证思维链设计与训练策略
消融实验的目的是全面评估 ProteinReasoner 的设计选择,重点探究进化谱推理的作用及预训练策略的影响。这些实验阐明了促成模型在各类蛋白质任务中表现的关键组件。为确保公平比较,研究员使用同一组未参与消融比较的超参数设置训练所有模型。所有 1.5 亿参数模型均在同一训练步数(3万步)使用相同训练数据集进行评估,确保观察到的性能差异可归因于所研究的变量。
进化谱在结构预测和适应性预测任务中显著提升了模型性能。在比较将进化谱作为中间推理步骤与未将其作为中间推理步骤的模型时,发现当包含进化谱时,模型表现呈现持续的性能提升。值得注意的是,反向折叠任务中,内部推理模式的 ProteinReasoner 150M 模型 (Profile = Yes)并未优于消融中的没有进化谱的双模态模型(Profile = No);研究员将这个观察归因于150M 模型自主生成进化谱的能力仍有不足。近期,当消融实验在 650M 模型以同样设计进行时,ProteinReasoner 已显著超越了双模态消融模型。具体实验结果详见表 4 与表 5:
表 4:蛋白质结构预测的消融实验结果
表 5:ProteinGym和反向蛋白质折叠的消融实验结果
综合来看,上述消融实验为 ProteinReasoner 的设计原则提供了有力证据,确立了其作为框架核心组件的地位。然而,提升内部推断进化谱的生成质量仍是未来工作的关键方向,以进一步强化模型的推理过程与整体性能。
把思维链用于蛋白质优化
鉴于 ProteinReasoner 的上述优异表现,研究员尝试借助模型的推理能力,通过上下文学习实现蛋白质优化,给出一种更高效的蛋白质优化范式——它直接学习上下文中的先前示例,无需在每一轮优化后重复更新模型参数。该方法充分利用基础模型的生成和推理能力,通过多轮定向进化引导序列设计。相比将寥寥数条的上一轮示例混入所有数据中进行微调,上下文学习提供了一种更加高效利用先验示例的范式,能够更好地提升模型表现。

图 3:ProteinReasoner 上下文学习范式用于蛋白质优化的示意图
为此,研究员设计了基于湿实验打分结果的定向进化谱,扩展了现有的逆向折叠推理链为(结构→进化谱→野生型序列→定向进化谱→...→突变序列)(图3B)。定向进化谱是预训练进化谱的变体,在每个残基位置计算加权氨基酸频率矩阵(图3C)。借助上下文学习设置,ProteinReasoner 隐式地沿这些轨迹推理未来可能的有益突变,并生成具有改进特性的新候选序列,从而内化并扩展优化过程,无需显式更新模型参数,实现高效、灵活、可泛化且自动化的蛋白质优化。
把上下文学习用于蛋白质优化

图 4:ProteinReasoner 的上下文学习能够在大规模基准测试中实现高效的蛋白质优化
为验证上述设计,研究人员在 Megascale 热稳定性数据集上实现了单轮优化的评估比较。如图 4A 所示,ICL模型的表现显著优于主动学习(AL)基准模型和预训练模型 Vanilla。该结果凸显了 ICL 模型从给定先验序列推荐更好的序列的能力;更重要的是,其能够从先验中存在的突变位置外推至序列中完全不同的位置的突变优化。
针对组合突变的热稳定性预测任务,研究员进一步评估了模型性能。如图 4B 所示在 21 种蛋白质的双突变体序列上对所有模型进行专项评估,结果表明 ICL 框架中嵌入的思维链推理的优势——它能够有效捕捉并泛化组合突变景观中复杂的非线性相互作用。
研究员还通过改变提供给 ICL 和 AL 模型的先验示例数量,评估支持集大小对模型性能的影响。在支持集大小从25个到200个先验示例的范围,随着先验示例数量增加,ICL 和AL 模型的性能均稳步提升(图4C)。这一观察结果符合预期:额外的上下文信息能够增强模型的泛化能力。
值得注意的是,在每个支持集大小下,ICL 模型的表现始终优于 AL 模型,表明 ICL 框架在利用递增的先验信息进行蛋白质优化时更高效。当针对双突变体序列专项评估模型时(图4D),性能趋势呈现出更大的波动性。
讨论
ProteinReasoner 的关键概念创新是显式地借助进化谱桥接序列与结构模态之间显式推理。不同于把进化信息视为辅助输入特征的先前模型,ProteinReasoner 把进化谱置于推理链的核心位置。这一设计强化多模态整合,并通过结构化推理步骤,提升模型在多样化任务中的性能。
本文已在单轮设置中验证基于 ICL 的优化框架,但把模型扩展为支持多轮蛋白质优化仍是未来的一个关键方向。同时,未来研究还应探索测试时间缩放(TestTimeScaling)策略,以最大化 ProteinReasoner ICL 框架的实际效用。
方法
模型架构
自然进化谱(预训练阶段)。针对每个目标蛋白质序列,研究员通过MSA识别其同源序列,并基于这些同源序列构建进化谱。具体而言,使用一个 A3M 文件,其中包含 n 个比对序列 {X₁, X₂, ..., Xₙ}(每个序列长度为 L)。进化谱表示为一个矩阵 P ∈ R^{L×21} :
定向进化谱(蛋白质优化)。在蛋白质优化过程中,研究员通过计算定向进化谱来编码由先前实验反馈所指示的突变偏好。具体而言,设{X₁, X₂, ..., Xₙ}表示一组突变体序列,其对应softmax归一化的稳定性分数为{s₁, s₂, ..., sₙ}。定向谱D ∈ R^{L×21}表示为一个加权频率矩阵:
模型训练
研究员使用自回归框架训练 ProteinReasoner 及其衍生模型,其在同一模态内预测下一个 token,直到遇到该模态的
参考文献
Lin, Z. et al. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science (1979) 379, 1123–1130 (2023).
Notin, P. et al. ProteinGym: Large-Scale Benchmarks for Protein Fitness Prediction and Design. in Advances in Neural Information Processing Systems (eds. Oh, A. et al.) vol. 36 64331–64379 (Curran Associates, Inc., 2023).
Hayes, T. et al. Simulating 500 million years of evolution with a language model. Science (1979) 387, 850–858 (2025).
Wang, X. et al. DPLM-2: A Multimodal Diffusion Protein Language Model. Preprint at http://arxiv.org/abs/2410.13782 (2024).
Gong, J. et al. Steering Protein Family Design through Profile Bayesian Flow. Preprint at http://arxiv.org/abs/2502.07671 (2025).
Wei, J. et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. in Advances in Neural Information Processing Systems (eds. Koyejo, S. et al.) vol. 35 24824– 24837 (Curran Associates, Inc., 2022).
Cheng, X. et al. Training Compute-Optimal Protein Language Models. Preprint at http://arxiv.org/abs/2411.02142 (2024).
Frey, N. C. et al. Lab-in-the-loop therapeutic antibody design with deep learning. bioRxiv (2025) doi:10.1101/2025.02.19.639050.
Tharwat, A. & Schenck, W. A survey on active learning: State-of-the-art, practical challenges and research directions. Mathematics 11, 820 (2023).
Dong, Q. et al. A Survey on In-context Learning. Preprint at http://arxiv.org/abs/2301.00234 (2024).

暂无评论