自给自足?利用AI构建虚拟细胞

张开发
2026/4/18 12:55:22 15 分钟阅读

分享文章

自给自足?利用AI构建虚拟细胞
摘要虚拟细胞是细胞的世界模型是可跨模态、跨尺度预测、模拟与调控细胞过程的计算系统。实现该目标的核心路径之一是建模遗传与化学扰动引发的转录响应这一能力对疾病研究和药物研发至关重要。现有方法高度依赖专家干预需历经数月的手动模型设计、训练与调试迭代。本文提出融合AI编码智能体与多模态生物基础模型的自主AI系统VCHarness可自动化构建扰动-响应模型。该系统以极低人工干预在庞大的架构与训练流水线空间中自主探索迭代生成、评估并优化候选模型。在多项扰动-响应基准测试中VCHarness挖掘的架构性能超越专家设计方案且将开发周期从数月压缩至数天。该系统还揭示了与性能提升相关的非直观架构模式证明自动化搜索可突破传统设计思路。研究结果预示虚拟细胞世界模型组件的构建将从人工工程化转向自主系统驱动为细胞系统的规模化数据驱动探索提供支撑。xingyi.chenggenbio.aile.songgenbio.aieric.xinggenbio.ai#虚拟细胞 #人工智能 #扰动响应模型 #AI编码智能体 #生物基础模型 #蒙特卡洛树搜索系统概述系统核心架构与闭环工作流图1VCHarness系统总览a系统整合AIDO系列生物基础模型、编码智能体、约100项虚拟细胞模型开发插件化技能以及基于蒙特卡洛树搜索MCTS的节点选择策略该分布式系统可并行训练多个模型同时统筹各工作节点的整体搜索流程。bK562细胞差异基因表达预测任务的代表性MCTS搜索树节点颜色代表验证集F1分数高亮轨迹为程序空间中逐步迭代至高性能区域的优化路径下方面板汇总最优配置验证集 F10.513包括所用基础模型、融合策略、预测头与优化设置。cK562搜索任务中单个MCTS节点各阶段的平均耗时模型执行与训练占主导评估、反馈与树更新的开销相对极低。dK562搜索任务中单个MCTS节点各阶段的平均成本美元执行训练H100按GPU小时定价估算其余阶段参照Claude Sonnet 4.6定价成本主要分配于程序生成、调试与执行训练评估环节占比较小。实验结果跨数据集性能一致性提升图2不同CRISPR扰动场景下VCHarness的性能与搜索动态a在4种细胞系HepG2、K562、Jurkat、hTERT-RPE1的差异基因表达DEG分类任务中VCHarness蓝色性能超越按输入模态或知识来源分组的人工设计模型虚线为平均性能基线模型来自foundation-models-perturbation仓库跨细胞系的稳定性能提升证明自主搜索闭环在不同细胞系间的可迁移性纵轴为测试集宏平均F1分数。https://github.com/genbio-ai/foundation-models-perturbation/tree/main/results/ scoresb蒙特卡洛树搜索MCTS过程中的最优性能轨迹灰色点为已评估的候选模型蓝色线为实时最优性能初期快速提升、后期逐步优化的趋势体现了搜索资源的高效分配横轴为按评估时间排序的候选模型纵轴为验证集宏平均F1分数。自主发现新颖非直观模型架构图3 VCHarness通过搜索发现非直观架构模式ahTERT-RPE1细胞DEG分类任务的MCTS可视化节点颜色编码验证集宏平均F1分数高亮轨迹展示搜索逐步聚焦于程序空间高性能区域的过程。b成功分支上的代表性局部修改这些排序后的优化操作表明性能提升源于架构与优化策略的序列式调整而非单次跳跃式改进。ca中标记为⑨的节点所对应的模型架构该模型融合图结构、选择性微调与扰动条件化计算体现VCHarness生成的可执行程序区别于简单的单模态隔离基线。d已评估节点的验证集与测试集分数相关性近线性一致性证明基于验证集的选择可可靠泛化至独立测试集。e所有搜索架构的基序频率分析按高频设计选择对发现的模型分组凸显与更强性能反复关联的神经网络架构基序。跨细胞系架构发现图4 HepG2细胞的架构发现aHepG2细胞核心数据集任务的MCTS可视化。b成功分支上的排序式局部修改展示搜索如何通过序列式编辑提升性能。c从高亮分支中得到的最优发现模型架构。d已评估节点的验证集与测试集分数相关性验证集性能可作为实用搜索目标。e所有搜索架构的基序分析汇总在更优HepG2模型中高频出现的神经网络架构选择该任务中最优方案反复青睐以图扰动结构为核心、融合额外预训练表达特征的多模态架构。图5 Jurkat细胞的架构发现aJurkat细胞核心数据集任务的MCTS可视化。b成功分支上的排序式局部修改。c最优发现的Jurkat模型架构。d已评估节点的验证集与测试集分数相关性。e所有搜索架构的基序分析凸显与更优Jurkat性能反复关联的神经网络架构基序相较于HepG2Jurkat的高性能节点更常采用紧凑架构、显式扰动建模与轻量化融合策略。图6 K562细胞的架构发现aK562细胞核心数据集任务的MCTS可视化。b成功分支上的排序式局部修改。c最优发现的K562模型架构。d已评估节点的验证集与测试集分数相关性。e所有搜索架构的基序分析汇总与K562性能提升反复关联的架构模式K562的成功节点反复将强细胞级骨干网络与图扰动模块、门控融合结合体现预训练细胞表征与显式网络先验间的稳定协同。迁移至MPRA表达预测任务图7 MPRA-K562细胞架构与搜索总结aMPRA-K562微调任务的MCTS搜索树37个节点2个初始种子节点颜色编码验证集皮尔逊相关系数0.694-0.876种子1AlphaGenome预训练编码器种子2从0构建的卷积神经网络。b最优节点节点1-3-3-1验证集r0.876的架构采用扁平化拼接的AlphaGenome卷积编码器与双层MLP头2阶段训练先冻结编码器训练头再全微调。c最优优化路径每行代表最优分支上按验证集分数选择的1次MCTS迭代。d最优节点的训练曲线按验证集分数选择上图为第1阶段仅训练头与第2阶段编码器全微调的验证集皮尔逊r下图为训练损失。e搜索树所有节点的验证集与测试集皮尔逊r2者皮尔逊相关系数为0.999。f所有节点的特征分析双轴柱状图展示各分类预训练模型、微调策略、头类型、学习率调度器的节点数蓝色与平均测试集皮尔逊r±标准差绿色。图8 MPRA-HepG2细胞架构与搜索总结aMPRA-HepG2微调任务的MCTS搜索树55个节点2个初始种子节点颜色编码验证集皮尔逊相关系数-0.028-0.888种子1AlphaGenome预训练编码器种子2从0构建的卷积神经网络。b最优节点节点1-3-2验证集r0.888的架构。c最优优化路径按验证集分数选择。d最优节点的训练曲线按验证集分数选择。e搜索树所有节点的验证集与测试集皮尔逊r2者皮尔逊相关系数为0.9998。f所有节点的特征分析双轴柱状图展示节点数与平均测试集皮尔逊r±标准差。图9 MPRA-WTC11细胞架构与搜索总结aMPRA-WTC11微调任务的MCTS搜索树125个节点2个初始种子节点颜色编码验证集皮尔逊相关系数0.071-0.849。b最优节点节点1-3-2-1-2验证集r0.849的架构。c最优优化路径按验证集分数选择。d最优节点的训练曲线按验证集分数选择。e搜索树所有节点的验证集与测试集皮尔逊r2者皮尔逊相关系数为0.975。f所有节点的特征分析双轴柱状图展示节点数与平均测试集皮尔逊r±标准差。详细总结思维导图跨细胞系性能领先参考Harnessing AI to Build Virtual Cellsdoi: https://doi.org/10.64898/2026.04.11.717183260414VCHarness.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。

更多文章