自给自足？利用AI构建虚拟细胞

张开发

• 2026/4/18 12:55:22 • 15 分钟阅读

分享文章

摘要虚拟细胞是细胞的世界模型是可跨模态、跨尺度预测、模拟与调控细胞过程的计算系统。实现该目标的核心路径之一是建模遗传与化学扰动引发的转录响应这一能力对疾病研究和药物研发至关重要。现有方法高度依赖专家干预需历经数月的手动模型设计、训练与调试迭代。本文提出融合AI编码智能体与多模态生物基础模型的自主AI系统VCHarness可自动化构建扰动-响应模型。该系统以极低人工干预在庞大的架构与训练流水线空间中自主探索迭代生成、评估并优化候选模型。在多项扰动-响应基准测试中VCHarness挖掘的架构性能超越专家设计方案且将开发周期从数月压缩至数天。该系统还揭示了与性能提升相关的非直观架构模式证明自动化搜索可突破传统设计思路。研究结果预示虚拟细胞世界模型组件的构建将从人工工程化转向自主系统驱动为细胞系统的规模化数据驱动探索提供支撑。xingyi.chenggenbio.aile.songgenbio.aieric.xinggenbio.ai#虚拟细胞 #人工智能 #扰动响应模型 #AI编码智能体 #生物基础模型 #蒙特卡洛树搜索系统概述系统核心架构与闭环工作流图1VCHarness系统总览a系统整合AIDO系列生物基础模型、编码智能体、约100项虚拟细胞模型开发插件化技能以及基于蒙特卡洛树搜索MCTS的节点选择策略该分布式系统可并行训练多个模型同时统筹各工作节点的整体搜索流程。bK562细胞差异基因表达预测任务的代表性MCTS搜索树节点颜色代表验证集F1分数高亮轨迹为程序空间中逐步迭代至高性能区域的优化路径下方面板汇总最优配置验证集 F10.513包括所用基础模型、融合策略、预测头与优化设置。cK562搜索任务中单个MCTS节点各阶段的平均耗时模型执行与训练占主导评估、反馈与树更新的开销相对极低。dK562搜索任务中单个MCTS节点各阶段的平均成本美元执行训练H100按GPU小时定价估算其余阶段参照Claude Sonnet 4.6定价成本主要分配于程序生成、调试与执行训练评估环节占比较小。实验结果跨数据集性能一致性提升图2不同CRISPR扰动场景下VCHarness的性能与搜索动态a在4种细胞系HepG2、K562、Jurkat、hTERT-RPE1的差异基因表达DEG分类任务中VCHarness蓝色性能超越按输入模态或知识来源分组的人工设计模型虚线为平均性能基线模型来自foundation-models-perturbation仓库跨细胞系的稳定性能提升证明自主搜索闭环在不同细胞系间的可迁移性纵轴为测试集宏平均F1分数。https://github.com/genbio-ai/foundation-models-perturbation/tree/main/results/ scoresb蒙特卡洛树搜索MCTS过程中的最优性能轨迹灰色点为已评估的候选模型蓝色线为实时最优性能初期快速提升、后期逐步优化的趋势体现了搜索资源的高效分配横轴为按评估时间排序的候选模型纵轴为验证集宏平均F1分数。自主发现新颖非直观模型架构图3 VCHarness通过搜索发现非直观架构模式ahTERT-RPE1细胞DEG分类任务的MCTS可视化节点颜色编码验证集宏平均F1分数高亮轨迹展示搜索逐步聚焦于程序空间高性能区域的过程。b成功分支上的代表性局部修改这些排序后的优化操作表明性能提升源于架构与优化策略的序列式调整而非单次跳跃式改进。ca中标记为⑨的节点所对应的模型架构该模型融合图结构、选择性微调与扰动条件化计算体现VCHarness生成的可执行程序区别于简单的单模态隔离基线。d已评估节点的验证集与测试集分数相关性近线性一致性证明基于验证集的选择可可靠泛化至独立测试集。e所有搜索架构的基序频率分析按高频设计选择对发现的模型分组凸显与更强性能反复关联的神经网络架构基序。跨细胞系架构发现图4 HepG2细胞的架构发现aHepG2细胞核心数据集任务的MCTS可视化。b成功分支上的排序式局部修改展示搜索如何通过序列式编辑提升性能。c从高亮分支中得到的最优发现模型架构。d已评估节点的验证集与测试集分数相关性验证集性能可作为实用搜索目标。e所有搜索架构的基序分析汇总在更优HepG2模型中高频出现的神经网络架构选择该任务中最优方案反复青睐以图扰动结构为核心、融合额外预训练表达特征的多模态架构。图5 Jurkat细胞的架构发现aJurkat细胞核心数据集任务的MCTS可视化。b成功分支上的排序式局部修改。c最优发现的Jurkat模型架构。d已评估节点的验证集与测试集分数相关性。e所有搜索架构的基序分析凸显与更优Jurkat性能反复关联的神经网络架构基序相较于HepG2Jurkat的高性能节点更常采用紧凑架构、显式扰动建模与轻量化融合策略。图6 K562细胞的架构发现aK562细胞核心数据集任务的MCTS可视化。b成功分支上的排序式局部修改。c最优发现的K562模型架构。d已评估节点的验证集与测试集分数相关性。e所有搜索架构的基序分析汇总与K562性能提升反复关联的架构模式K562的成功节点反复将强细胞级骨干网络与图扰动模块、门控融合结合体现预训练细胞表征与显式网络先验间的稳定协同。迁移至MPRA表达预测任务图7 MPRA-K562细胞架构与搜索总结aMPRA-K562微调任务的MCTS搜索树37个节点2个初始种子节点颜色编码验证集皮尔逊相关系数0.694-0.876种子1AlphaGenome预训练编码器种子2从0构建的卷积神经网络。b最优节点节点1-3-3-1验证集r0.876的架构采用扁平化拼接的AlphaGenome卷积编码器与双层MLP头2阶段训练先冻结编码器训练头再全微调。c最优优化路径每行代表最优分支上按验证集分数选择的1次MCTS迭代。d最优节点的训练曲线按验证集分数选择上图为第1阶段仅训练头与第2阶段编码器全微调的验证集皮尔逊r下图为训练损失。e搜索树所有节点的验证集与测试集皮尔逊r2者皮尔逊相关系数为0.999。f所有节点的特征分析双轴柱状图展示各分类预训练模型、微调策略、头类型、学习率调度器的节点数蓝色与平均测试集皮尔逊r±标准差绿色。图8 MPRA-HepG2细胞架构与搜索总结aMPRA-HepG2微调任务的MCTS搜索树55个节点2个初始种子节点颜色编码验证集皮尔逊相关系数-0.028-0.888种子1AlphaGenome预训练编码器种子2从0构建的卷积神经网络。b最优节点节点1-3-2验证集r0.888的架构。c最优优化路径按验证集分数选择。d最优节点的训练曲线按验证集分数选择。e搜索树所有节点的验证集与测试集皮尔逊r2者皮尔逊相关系数为0.9998。f所有节点的特征分析双轴柱状图展示节点数与平均测试集皮尔逊r±标准差。图9 MPRA-WTC11细胞架构与搜索总结aMPRA-WTC11微调任务的MCTS搜索树125个节点2个初始种子节点颜色编码验证集皮尔逊相关系数0.071-0.849。b最优节点节点1-3-2-1-2验证集r0.849的架构。c最优优化路径按验证集分数选择。d最优节点的训练曲线按验证集分数选择。e搜索树所有节点的验证集与测试集皮尔逊r2者皮尔逊相关系数为0.975。f所有节点的特征分析双轴柱状图展示节点数与平均测试集皮尔逊r±标准差。详细总结思维导图跨细胞系性能领先参考Harnessing AI to Build Virtual Cellsdoi: https://doi.org/10.64898/2026.04.11.717183260414VCHarness.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。

更多文章

前端开发 2026/4/18 12:54:27

智能代码生成与CI/CD审查流程深度耦合（2024头部科技公司内部SOP首次公开）

第一章：智能代码生成与CI/CD审查流程深度耦合（2024头部科技公司内部SOP首次公开） 2026奇点智能技术大会(https://ml-summit.org) 2024年，Google、Meta与阿里云联合发布的《AI-Native DevOps白皮书》正式将智能代码生成器&#x…

3步解锁B站缓存视频：m4s转MP4完整指南【免费下载链接】m4s-converter 一个跨平台小工具，将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 还在为B站缓存的视频只能在特定客户端播放而烦…

张开发

前端开发 2026/4/18 12:32:53

Digital：从零开始掌握开源数字电路设计与模拟的终极教程

Digital：从零开始掌握开源数字电路设计与模拟的终极教程【免费下载链接】Digital A digital logic designer and circuit simulator. 项目地址: https://gitcode.com/gh_mirrors/di/Digital Digital是一款功能强大且易于使用的开源数字电路设计与模拟工具&a…

张开发

自给自足？利用AI构建虚拟细胞

最新文章

AudioSeal Pixel Studio基础教程：自定义CSS注入修改Ocean Pixel Blue主题配色

终极Windows运行库集成方案：一站式解决VC++依赖难题

Go语言的goroutine泄漏检测与pprof内存剖析在调试中的配合

Git-RSCLIP零样本分类教程：如何利用地理先验知识设计提示词

实战指南：用Go语言突破Twitter数据采集限制的创新方案

AGI可信度崩塌的第7秒：SITS2026首次定义“意图熵”量化模型，附Python可运行评估工具包

推荐文章

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

从NUSTCTF Ezjava1看Java Web参数绑定与条件竞争漏洞挖掘

SITS2026现场直击：LLM-native NLP架构设计原则（含可复用的5层抽象模型图谱）

AHT20温湿度传感器库深度解析与工业级应用实践

Rust的引用计数智能指针Rc与Arc在线程共享中的内部可变性

libhv实战：从零构建一个功能完备的HTTP客户端

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

智能代码生成与CI/CD审查流程深度耦合（2024头部科技公司内部SOP首次公开）

轻量级语义分割实战：用BiseNetv2+TensorFlow2在Cityscapes上实现82%+ mIoU的调参与优化全记录

【应用场景】OpenClaw玩转迅雷下载

5分钟搭建私有在线Office：LibreOffice Online 让团队协作效率翻倍

找工作，烦死了

解放双手！如何用MaaYuan免费开源游戏自动化工具告别重复游戏日常

MATLAB仿真实战：如何用下垂控制解决并网逆变器功率不均问题（附完整代码）

VMDE终极指南：3分钟掌握虚拟机检测核心技术

如何将普通照片变成可触摸的3D浮雕？ImageToSTL让你的创意立体化

金属风速传感器：从气象预警到智慧农业，精准测风全覆盖

3步解锁B站缓存视频：m4s转MP4完整指南

Digital：从零开始掌握开源数字电路设计与模拟的终极教程