摘要
复杂生物系统的可编程组装是生物学研究的长期目标。生成式建模提升了计算设计的可靠性,但现有方法高度专业化,难以拓展或组合。本文提出面向生成生物学的高级编程语言Proto。通过将少量抽象原语组合为结构化程序,可实现跨模态、跨尺度的生成式设计任务,覆盖DNA、RNA、蛋白质、配体及其相互作用。Proto可便捷地将预测模型整合至生成工作流中,本文基于该框架设计了可变剪接内含子,并在人类细胞系中完成实验验证。Proto原生支持多目标优化,可用于设计启动子-阻遏子对,在合成蛋白-DNA设计领域取得了领先的实验成功率。结合AI智能体,Proto可通过自然语言指令实现复杂通路与调控逻辑的定义。本文开源发布Proto全套工具,包括软件基础设施与用户界面,以推动生成式生物编程的广泛应用。
brianhie@stanford.edu
#生成生物学 #可编程生物设计 #高级编程语言 #多模态生成模型 #多目标优化 #AI智能体
引言
图1Proto系统概述
(A) Proto整合DNA、RNA、蛋白质、配体及其相互作用的生成式与预测模型,并与功能持续升级的大语言模型、AI编程智能体联动,通过组件组合实现多目标、多模态、多尺度的生物设计。
(B) Proto在功能与语义层面定义模块化与组合性,借助生成式建模在抽象层级与底层生物序列间搭建桥梁,同时保证全局功能一致性;与之相对,传统生物编程依靠直觉、启发式规则或试错拼接具象序列元件,设计鲁棒性较差。
(C) Proto语言的4类原语——序列、约束、生成器、优化器,对应自然与实验生物设计中的同类概念,同时可表述为能量基模型的组成因子,对应目标分布π(x)∝p(x)exp(−f(x)/T),其中y=f(x)。
(D) Proto中,生成器提出候选序列,约束对序列打分,优化器引导生成向低能量(更优)设计收敛;Proto还提供高层交互接口,包括Python应用程序接口(本地库与云端托管版)、图形用户界面,以及对接通用AI编程智能体的智能体接口。
(E) Proto整体工作流:将生物设计任务编码为1组与序列关联的约束和生成器,优化算法组合各生成模型,将全部约束编译为统一能量函数,最终输出设计完成的序列集合。
结果
Proto复现已发表设计任务
图2基于Proto编程实现多样化设计任务
(A−C) 从头设计对称蛋白同源寡聚体:以均匀突变为生成器,ESMFold预测结构的置信度、对称性、球形度为约束,Metropolis-Hastings模拟退火为优化器(A为程序示意图;B为优化轨迹),最终得到3聚体到8聚体的预测对称组装体(C)。
(D−F) 基于Protein Hunter的从头蛋白单体设计:交替执行Boltz-2结构预测(约束)与ProteinMPNN序列重设计(生成器),采用循环优化器(D),设计随循环迭代收敛至高结构置信度 (E, F)。
(G−I) 多模态CRISPR-Cas系统设计:以微调后的Evo 1为生成器,生物信息学过滤与结构预测为约束,采用拒绝采样流程筛选候选序列(G, H);从48,000条采样基因座中得到40条合格设计,包含推定的Cas9蛋白与向导RNA (I)。
(J−L) 多千碱基级染色质可及性设计:以Evo 2为自回归生成器,Enformer与Borzoi为可及性约束,集束搜索算法为优化器 (J, K),得到1条20 kb的DNA序列,预测整合入小鼠基因组后可编码摩尔斯电码PROTO,AUROC=0.98(L)。
(M−O) 基于Germinal的从头抗体互补决定区设计:对AlphaFold 2结构损失与AbLang抗体语言模型损失做多目标优化,以梯度下降为优化器(M, N),最终得到VHH与scFv骨架的PD-L1结合剂,AlphaFold 2置信度较高(pLDDT >0.8,ipTM >0.6)(O)。
细胞系特异性基因调控的内含子设计
图3基于Proto设计人类细胞系中的可变剪接内含子
(A) 以SpliceTransformer供体-受体打分、AlphaGenome细胞系特异性为约束,在多种质粒与人类基因组背景下评估以降低上下文依赖变异;每轮生成中,均匀突变生成器在组成型剪接内含子或随机初始序列上提出突变,MCMC优化器决定是否接受提议。
(B) 归一化能量(能量总分除以约束数量)随优化迭代的变化曲线;所有设计方向(SH-SY5Y正确剪接/K562错剪、SH-SY5Y错剪/K562正确剪接、HepG2正确剪接/K562错剪、HepG2错剪/K562正确剪接)的轨迹均收敛。
(C) 两两相似度评分证实,实验测试的设计内含子在组内与组间均保持序列多样性。
(D) 脱靶细胞中内含子滞留会封闭下游效应元件,靶细胞中内含子切除则可启动效应蛋白翻译。
(E) 筛选ProtoIntron的质粒构建示意图:将ProtoIntron插入mScarlet编码序列,下游带恒定条形码用于异构体定量,采用双报告载体,eGFP由EF1α独立驱动;成功剪接可恢复全长mScarlet的翻译。
(F) 通过RNA测序对转染细胞系的异构体比例与剪接变异度进行定量。
(G) 各构建体的剪接产物比例热图,证实多组细胞系组合、多种设计方向下均存在细胞差异性剪接。PI为ProtoIntron缩写。
(H) 代表性差异剪接内含子的AlphaGenome预测剪接位点使用率,与实测的隐蔽剪接、经典剪接事件吻合度较高,而预测RNA表达量偏差相对更大。
(I) 荧光显微镜测得的mScarlet/eGFP比值,整体验证了蛋白水平的差异性效应元件翻译。S为SH-SY5Y,K为K562,H为HepG2;PC为HBB2c内含子阳性对照;NC为反向HBB2c内含子阴性对照。
(J) 代表性荧光显微图像,展示不同设计组中mScarlet表达的细胞系特异性差异。
合成启动子-阻遏子相互作用设计
图4基于Proto设计合成启动子-阻遏子对
(A) ProtoPromoter生成流程:第1阶段使用Evo 2与拒绝采样生成候选启动子序列,筛选指标包括预测启动子活性、σ70盒质量、无天然转录因子基序,以优化启动子强度与正交性;第2阶段通过均匀突变与MCMC优化器精炼序列,并引入回文操纵子位点。
(B) ProtoRepressor生成流程:第1阶段使用Evo 2与天然序列,经拒绝采样筛选出AlphaFold 3、Boltz-2预测结合活性达标的初始阻遏子序列;第2阶段采用LigandMPNN与拒绝采样,评估基序接触、Rosetta蛋白-DNA结合指标;第3阶段通过LigandMPNN与MCMC优化精炼结合界面,引入NA-MPNN、DeepPBS、AlphaFold 3特异性指标提升靶向特异性。
(C) 设计的ProtoPromoter与天然σ70启动子的序列标识图,展示−35与−10盒的保守性。
(D) 天然序列、ProtoPromoter、随机打乱序列与σ70启动子的序列一致性分布;ProtoPromoter 多样性高,与天然σ70启动子序列相似度低。
(E) 细菌eGFP报告实验示意图,用于ProtoPromoter功能筛选;ProtoPromoter克隆至eGFP上游,以荧光强度表征转录活性。
(F) ProtoPromoter的eGFP表达倍数排序;虚线标注J23119组成型启动子强度、10倍变化阈值、PLtetO1强度与无启动子阴性对照;ProtoPromoter整体活性强,多数表达倍数超10倍,最强启动子与J23119相当或接近。
(G) 综合设计能量与eGFP倍数呈中度负相关,验证了多目标打分函数对活性启动子的筛选能力。误差线为均值标准误。
(H) ProtoRepressor筛选实验示意图:功能性ProtoPromoter驱动eGFP表达作为报告系统,候选阻遏子由独立的阿拉伯糖诱导型启动子表达;功能性阻遏子会抑制启动子活性、降低eGFP水平,无功能变体则不影响eGFP表达。
(I) 14个ProtoPromoter对应的实验筛选阻遏子最高BLAST氨基酸序列一致性分布,表明生成的阻遏子序列新颖性高;纵轴为随机抖动值;ProtoRep家族指靶向同一ProtoPromoter的阻遏子候选集。
(J) 流式细胞术测得的各启动子-阻遏子组合的log2倍数抑制效果,颜色区分阻遏子家族;多数阻遏子相对阴性对照均有显著抑制效果。误差线为均值标准误。Ctrl为tetR阳性与非靶向对照;NS为相对倍数= 1无显著性。
(K) 顶级阻遏子候选在单操纵子、双操纵子构型下的抑制倍数;增加第2个操纵子位点可提升抑制强度,对照为组成型λ阻遏子cI、tetR与非靶向tetR对照。##表示与cI相比P<0.01;**表示与tetR相比P<0.001。柱形为均值,圆点为独立重复。
(L) 交叉抑制热图,展示候选阻遏子对同源与非同源启动子的log2倍数抑制效果;强阻遏子普遍对靶标启动子具有特异性。
(M) ProtoRepressor 40_2与44_9的蛋白-DNA复合物AlphaFold 3预测结构,内嵌图展示识别螺旋插入DNA大沟,形成碱基与骨架接触。
复杂生物系统的智能体编程
图5AI智能体辅助实现复杂生物设计的Proto编程
(A) 可人机交互的通用AI编程智能体,能将自然语言调控指令转化为Proto程序,既帮助领域知识有限的用户编写基础程序,也拓展了专业用户可实现的设计复杂度。
(B−D) 蛋白质组规模的复合物多样化改造。
(B) 多样化模块示意图:以野生型人类序列为各亚基种子,ESM3提出变体,以各亚基的结构置信度(ESMFold pLDDT/pTM)、折叠一致性(TM-score、相对天然结构的RMSD)、序列复杂度为约束,运行联合MCMC优化器,最终由AlphaFold 3对完整多聚体打分。
(C) 有已知实验结构的设计复合物,其AlphaFold 3预测结构相对天然结构的RMSD(中位数1.9 Å)、TM-score(中位数0.80),以及AlphaFold 3结构置信度pTM(中位数0.65)、pLDDT(中位数71)的分布。
(D) 代表性AlphaFold 3预测复合物及功能类别标注,展示本次多样化改造的规模。
(E−K) β2肾上腺素信号通路的重设计。
(E) 通路示意图,涵盖β2AR、Gαβγ、腺苷酸环化酶、PKA、CREB1与CREB响应DNA元件,在ESM3/AlphaFold 3多样化基础模块上叠加功能特异性约束;肾上腺素、ATP、CBP、CREB DNA背景等无生成器的元件在优化中保持固定。
(F) β2AR-Gs复合物(上)、结合肾上腺素的β2AR(下)的AlphaFold 3预测结构,与实验结构比对。
(G) BioEmu构象集成分析显示,设计的Gαs可占据2种已知天然构象。
(H) Gαs-腺苷酸环化酶复合物(上)、结合ATP的腺苷酸环化酶(下)的预测结构与实验结构比对。
(I) 设计的PKA调节亚基可占据2种天然构象。
(J) PKA调节亚基与催化亚基异2聚体的预测结构与实验结构比对。
(K) 上图为ESM3多样化的CREB1、Evo 2生成的DNA、天然 CBP形成的复合物预测结构,与CREB1-DNA、CREB1-CBP天然互作结构比对;下图为Borzoi预测的Evo 2生成DNA元件上的CREB1 ChIP-seq信号。
(L−R) 非小细胞肺癌选择性治疗效应元件。
(L) 多层级慢病毒门控策略设计:EGFR靶向微型蛋白结合剂介导病毒优先进入肿瘤细胞,NSCLC特异性增强子与启动子驱动HSV-TK转录,内嵌内含子实现HSV-TK的NSCLC选择性剪接,3'UTR微RNA应答元件阵列抑制脱靶细胞的残留表达。
(M) 包含5个设计阶段的Proto程序:
① EGFR胞外域微型蛋白结合剂设计;
② NSCLC特异性增强子设计;
③ NSCLC特异性启动子设计;
④ NSCLC选择性内含子设计;
⑤ 3'UTR开关设计,约束涵盖结构置信度、表观基因组活性、启动子信号、剪接位点使用率、微RNA介导抑制。
(N) 设计的EGFR结合微型蛋白与EGFR胞外域复合物的AlphaFold 3预测结构,显示高结构置信度与多处界面接触。
(O) AlphaGenome预测设计增强子在A549与健康肺组织的H3K27ac、H3K4me1信号(GAPDH整合背景),显示增强子活性具有A549偏向性。
(P) AlphaGenome预测设计启动子在A549与健康肺组织的H3K4me3、CAGE、Puffin启动子活性;CAGE与Puffin显示启动子末端存在转录起始位点,健康肺组织活性更低。
(Q) AlphaGenome预测的NSCLC选择性HSV-TK内含子剪接位点使用率与RNA-seq信号,显示A549中内含子切除倾向略高于健康肺组织。
(R) 设计的3'UTR关闭开关,健康肺组织中TargetScan与miRanda预测的微RNA结合位点活性更强,同时避开NSCLC高表达微RNA靶点,且AlphaGenome预测选定微RNA应答元件处RNA信号较低。
数据、代码
Proto语言实现与Python应用程序接口
https://github.com/evo-design/proto-language
Proto工具层实现与Python应用程序接口
https://github.com/evo-design/proto-tools
Proto网页交互界面可访问
https://proto.evodesign.org/
详细总结
思维导图
参考
A high-level programming language for generative biology with Proto
doi: https://doi.org/10.64898/2026.06.22.733870
260623Proto.pdf
注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。