Nature Reviews Genetics 基因调控网络:从相关模型到因果解释

张开发
2026/4/8 11:26:57 15 分钟阅读

分享文章

Nature Reviews Genetics 基因调控网络:从相关模型到因果解释
基因调控网络从相关模型到因果解释Gene regulatory networks: from correlative models to causal explanations摘要基因调控网络解释了基因组如何控制细胞行为和组织形态建成它将分子机制与功能输出连接起来。如今单细胞技术以前所未有的细节描绘了这些网络但这一进展也揭示出基因调控系统过于复杂超出了我们现有的概念框架。原本应提供机制性解释的基因调控网络正日益被简化为统计相关性——那些无法捕捉分子因果关系的毛线球。在此我们探讨了为何会陷入这种困境并提出了前进的方向。我们认为可以利用表征学习方法来构建基因调控网络模型而无需捕捉每一个分子细节。为此我们倡导三个相互关联的原则模型必须本质上是机制性的其结构应建立在细胞和进化生物学的基础之上必须利用分子原理和约束来缩小学习基因调控网络模型的解空间需要更复杂的实验扰动和合成生物学工程手段来训练模型和检验预测。通过基于这些原则重新构想基因调控网络我们能够跨越从数据丰富到全新概念理解的鸿沟。引言针对单个基因的研究永远无法阐明身体蓝图或身体部位发育的整体机制——充其量只能提供一种微观且始终片段化的视角甚或完全是管窥之见。—— 埃里克·H·戴维森 美国科学院院士当纽斯林-沃尔哈德和维绍斯首次对果蝇胚胎进行系统性的突变筛选时他们揭示出诸如体节形成这样的发育过程竟然可以由数量少得惊人的基因来调控。在随后的几十年里基因敲除方法不断深化我们对驱动组织形成的遗传工具箱的理解以至于有人呼吁建立“扰动细胞与组织图谱”将基因筛选推向其逻辑终点——记录每一个基因在每一种组织中的作用。然而显而易见的是逐个基因地研究发育是不够的基因并非具有单一功能的固定实体。基因并非独立的因果单元它们相互作用、相互交流形成网络。正是通过这些网络的动态变化而非单个基因才涌现出发育的形态。在过去的半个世纪里“基因调控网络”的概念已成为发育生物学的核心。广义上讲基因调控网络是一个由分子遗传调控因子组成的系统它们协同作用驱动特定的细胞结局。基因调控网络的基本形式是一组转录因子它们作用于其他基因的顺式调控元件。从根本上说基因调控网络的概念描述了调控基因如何协同运作来控制细胞功能和组织形态建成提供了一张从基因型到表型的动态图谱。这些整体性的描述能够解释单个基因无法产生的行为例如振荡、条纹和开关样反应。基因调控网络最初的概念本质上是因果性的是通过对基因组进行迭代实验干预构建起来的。然而随着全基因组测序的进步揭示了发育基因调控网络的规模和复杂性——数十个转录因子结合到基因组上数千个位点——纯粹通过实验干预构建基因调控网络的挑战变得愈发明显。这一障碍推动了“统计性”基因调控网络模型的兴起这类模型旨在从数据如细胞间或样本间的基因协方差的统计模式中推断遗传关系。研究重点从实验干预转向统计推断使得方法能够更好地处理发育的复杂性但这却使该领域偏离了对基因调控网络如何将基因型映射到表型的机制性理解的追求。在当前状态下发育遗传学的两种模式各有其优缺点传统的单基因敲除提供了基因功能的强有力因果证据但忽略了发育系统相互关联的现实相比之下基于基因调控网络的方法捕捉到了这一关键背景但提供的证据日益趋向于相关性解释力很有限。在这篇观点文章中我们主张回归到将基因调控网络视为机制性解释的观点。我们首先概述了当前基于基因组数据集构建计算性基因调控网络模型所面临的挑战。为了在拥抱处理基因调控网络全貌所需的大数据方法的同时克服这些挑战我们接着概述了如何潜在地将这些高维数据提炼成清晰的解释。首先我们提出因果表征学习技术可以提供低维度且本质上是机制性的基因调控描述。其次我们考虑如何利用现有的细胞和进化生物学知识确保使用表征模型学习到有意义的生物学信息。第三我们探索了通过工程化合成基因调控网络和产生顺式调控扰动来创造新数据的实验机会以拓展我们能够探索的调控系统空间。最后我们讨论了如何借鉴生物机器学习领域的过往成功来指导我们的努力。通过整合这里探讨的多种方式我们能够创建出可以解释复杂分子网络如何涌现出生物体优雅形态与功能的基因调控模型。基因调控网络模型的缺陷传统上基因调控网络模型的构建是一个迭代过程包括系统性地识别调控基因和元件、绘制表达模式图并通过遗传扰动确定调控相互作用图1a, b。高通量测序技术的出现催生了基因调控网络推断算法通过捕捉大量样本或大量单细胞中基因之间的相关模式绕过了逐一重建调控连接的需要从而加速了这一过程图1c, d。图1 | 经典与数据驱动的基因调控网络构建。a. 构建机制性基因调控网络模型的经典流程。该工作流程通常是高度迭代和实验性的首先识别相关基因然后通过实验测试基因间的关系。b. 一个机制性GRN模型的示例通过诱导或抑制相互作用分别用箭头和横杠表示进行基因调控基因在功能上被组织成负责控制生物表型的模块。c. 与b部分相同的网络但表示为统计GRN其中相互作用用箭头表示。d. 统计GRN推断的工作流程收集数据并根据基因间的统计关系构建推定网络。间接作用的边被修剪并且可以在训练或验证中纳入额外的数据模态。ATAC-seq利用测序技术检测转座酶可接近的染色质开放染色质ChIP–seq染色质免疫沉淀后测序CRE顺式调控元件RNAiRNA干扰scRNA-seq单细胞RNA测序TF转录因子。早期的算法如GENIE3和MRNET是为微阵列或批量RNA测序数据设计的并使用合成数据集或已知真实网络结构的简单细菌数据集进行基准测试。这些方法的性能通过对比这些“真实情况”来量化但在实际生物学问题上的应用有限。随着单细胞RNA测序的出现——它揭示了基因调控网络在动态性、随机性和异质性方面的真实程度——涌现出一大批新方法它们应用了从贝叶斯建模到动力系统理论的技术有时还整合了拟时序或RNA速率信息。这些方法在生物学上得到了更多应用例如识别出与疾病状态相关的新基因。然而对基因调控网络推断工具的独立基准研究揭示了普遍较差的性能许多方法的表现并不优于简单的基线模型或随机猜测。事实上最近一项研究表明即使有单细胞分辨率仅靠基因表达数据也不足以控制基因调控网络推断中的假阳性发现。同时测量基因表达和染色质可及性的多组学方法的出现带来了令人兴奋的改进前景。像SCENIC、Dictys和CellOracle这样的方法利用多模态单细胞数据来建模基因调控网络并已被用于识别关键的转录因子和重要的增强子区域。在某些情况下它们被用来预测扰动经过充分研究的分化驱动基因的影响或寻找新的重要细胞命运转录因子。然而尽管多模态方法前景广阔它们也为建模带来了更多问题。从染色质可及性推断基因调控网络需要为每个染色质区域完成两项额外的推断任务推断哪个转录因子与之结合以及推断它调控哪个下游基因。仅从序列预测转录因子结合并非易事因为结合基序可能高度简并例如一个转录因子可以结合一系列序列而一个基序可能被许多转录因子结合。此外一个增强子距离其调控的基因可能相距数万到数十万个碱基对。也许正因为如此最近的独立基准测试揭示多模态基因调控网络推断方法的稳健性有限对用户提供的参数高度敏感并且在基于扰动的因果预测方面表现不佳。建模基因调控网络的内在挑战基因调控网络模型的基本形式是一个网络图其中每个节点是一个基因每条边是两个基因之间的相互作用。从这些图结构的性质可以清楚地看出基因调控网络推断的挑战如果考虑有向相互作用和自相互作用一个有n个基因的网络中可能的相互作用数量是n^2而可能的网络拓扑结构数量是2^{n^2}。因此一个包含10个基因的网络有100种可能的相互作用以及超过 10^30 种可能的拓扑结构。系统性地删除网络中的每个基因只能产生10个观察条件10个敲除和一个野生型但却需要学习100个相互作用参数。如果在实验测试这100个相互作用中的每一个后对每个相互作用的估计有95%的置信度那么对整个网络结构的总体置信度仍然只有0.6% (0.95 ^ 100 0.0059)。更糟糕的是基因调控网络是动态过程具有时间依赖的相互作用和反馈回路这意味着任何静态的网络表示例如传统的节点和边图都不一定能捕捉到网络的行为。系统生物学和动力学建模的理论工作揭示了在构建仅被部分观察的复杂系统如基因调控网络模型时所面临的诸多挑战。数学模型可能遭遇“结构不可识别性”现象即不同的模型参数集产生相同的输出使得确定“正确”的参数解成为不可能。一个相关但不同的现象是松散模型即模型中的某些参数可以在几个数量级范围内变化而不影响模型输出图2c。图2. GRN建模的挑战。a. 不同的基因调控网络结构三节点网络可以产生相同的表达模式和组织表型表示为在时间和空间上的表达值方框。b. 相反相同的GRN结构根据其参数化基因-基因相互作用的强度、环境边界条件和初始条件的不同可以产生不同的模式。c. “松散模型”的挑战。上图在这些情况下模型对某些参数的变化响应非常剧烈刚性参数而对其他参数的变化几乎完全没有响应松散参数。下图在参数空间中松散参数可以可视化为模型输出不变的方向等高线图保持不变在此示例中从左下到右上。这些现象与一个更普遍的问题——“动力学等价性”——有关即不同的模型能够产生等效的动力学行为这使得识别正确的模型结构变得非常困难。已有研究表明许多不同的基因调控网络结构能够产生相同的模式形成行为图2a。同样单一基因调控网络结构内的微小参数变化可以产生截然不同的模型行为图2b。我们不能期望基因调控网络内部的遗传相互作用结构与其整体的行为之间存在一一对应的映射关系。随着模型参数数量的增加这些问题会变得更糟。即使是一个精确的基因调控网络图模型也无法提供基因调控现实的完整、客观描述。这些模型中忽略了许多方面——从时空动态到表观遗传调控再到转录因子的协同性具体取决于模型。这些方面是被有意忽略的它们被抽象化假设它们会被模型参数充分捕捉。这种抽象是必要的它使系统变得易于分析。理解这种简化的行为使我们能够质疑我们所选择的抽象层次是否捕捉到了我们想要研究的生物学现象。选择抽象掉分子细节在遗传相互作用的层次上表示基因调控网络是基于这样一个假设基因是细胞系统中因果的基本单位。然而生物学功能可以是“涌现”的它源于基因调控网络系统本身的动力学和整体结构。振荡、开关样行为和图灵斑图是涌现性质的例子这些性质无法从单个基因中体现。没有理由认为基因调控网络的涌现性质不能用包含网络中每个遗传组分的显式详细模型来描述。然而这些显式表示可能无法为这些复杂系统提供最具信息量的描述。理解每一个单独的相互作用可能并不比完全理解氨基酸结构能更好地解释蛋白质折叠。事实上考虑到构建基因调控网络模型所面临的明显挑战值得考虑的是将遗传相互作用的细节抽象化是否有助于我们更多地了解基因调控网络在细胞中执行的功能。一个基因调控网络的“涌现性质”可能捕捉到什么样的分子组织它可能简单到只是量化两个基因活性之间的比率而不是基因本身的活性例如红系-髓系命运决定取决于GATA1和PU.1之间的化学计量平衡。涌现性质或机制的其他例子可能包括许多共表达的基因协同诱导以产生特定表型例如黑素细胞中的色素沉着基因模块一组相关或重复的组分例如转导Sonic hedgehog信号的不同Gli蛋白或在α-珠蛋白超级增强子中协同作用的不同增强子组分是不同的分子例如DNA序列和蛋白质但共同作用驱动特定的细胞水平表型例如果蝇中even-skipped基因第二条条纹系统驱动的尖锐、位置特异的表达条纹或病毒感染中整合NF-κB和IRF信号以激活干扰素-β的增强体或者在更广泛的转录因子网络内一个负责特定表型的子回路例如驱动腹侧脊髓模式形成的Pax6、Olig2、Nkx2-2和Irx3四基因网络。在每个例子中分子组分形成一个更大的功能单元因此我们可以模拟这个功能单元的行为并将分子细节抽象化。这种粗粒化方法可以提供更稳健的模型揭示新形式的生物学机制。它将为研究多尺度生物系统提供一种多视角的方式针对不同的问题采用不同的抽象层次。挑战在于弄清楚如何以一种灵活、通用的方式做到这一点使得单一的建模方法能够适用于上面给出的所有例子。表征解决方案在不同粒度层次上建模的挑战已在各种科学背景下得到解决。例如在化学中粗粒化建模用于进行分子模拟它抽象掉原子信息用“伪粒子”替换粒子仅保留在分子或大分子水平上相关的细节。类似地AlphaFold2将氨基酸链抽象为三角形气体仅保留建模全局蛋白质结构所需的核心几何信息。然而聚焦于涌现性质的粗粒化分析 coarse-graining能做的不仅仅是去除多余的细节。在研究信号处理系统时更高层次的分析可以揭示更广泛的设计原理和功能结构。在神经科学中马尔的“分析三层次”提出了理解信息处理系统的三个层次。最高层是“计算层”它描述了系统要解决什么问题目标、约束和成功标准。其次是“算法/表征层”它描述了系统如何实现其目标如何处理输入构建有用的表征并利用这些表征产生输出。最低层是“实现层”它描述了系统的物理实现。将这些分析层次应用到收音机上我们可以说收音机的计算层是为听众传递音频节目。实现层将涉及天线、电子元件、扬声器、按钮、电源等等。连接这些组件的是算法/表征层它可能描述收音机如何通过带通滤波选择特定频率通过频率鉴别读取该信号然后将此信号处理成数据发送给扬声器。计算层解释了为什么人们会使用收音机实现层描述了收音机由什么组成但要理解收音机是如何工作的就需要理解表征层。这个框架同样可以应用于基因调控网络执行的信号处理首先是细胞、组织或生物体层面的描述说明基因调控网络控制什么过程、驱动什么表型以及在其发挥功能的背景其次是分子层面描述构成基因调控网络的蛋白质、顺式调控元件和表观遗传组分最后为了连接前两者需要一个表征层描述这些不同组分如何组织输入信号如何映射到输出表达程序以及这种输入-输出映射如何从分子组分中创造出生物体功能图3a。图3 GRN的表征描述。a. 信息处理描述马尔的分析层次可应用于基因调控网络的研究。实现层 (implementational level)描述了系统的物理实现在GRN的实例中即介导遗传相互作用的转录因子和增强子的明确描述。在此层次之上表征层(representational level)描述了这一物理实现如何运作以解读信号信号1和信号2并达成系统目标的逻辑此处可视化为连接抽象细胞类型因子的逻辑门。最后计算层 (computational level)描述了所执行的计算过程在此实例中即解码输入信号以形成条纹状组织模式。要构建这个表征层理解分子组分如何组织至关重要。在这方面基因调控网络已被证明具有结构和组织性特定任务的子回路提供了一种模块化形式。这些子回路以层级方式组织反映了基因调控网络的进化和功能结构而发育过程中通过连续亚稳态细胞状态的顺序进展在细胞状态特异性子回路之间创造了另一种形式的层级。这种层级和模块化以这种功能方式存在连接了基因调控网络如何运作以驱动细胞决策这表明基因调控网络架构是可约和可分解的。将基因分组为模块并将细胞状态组织成层级自然地在遗传功能尺度与细胞功能尺度之间架起了一座桥梁。接下来是系统行为的问题。在分子层面行为仅仅是组分随时间的动态变化或许扩展到包括组分间的相互作用。然而一个更系统性的、表征性的基因调控网络行为概念必须将系统的输入映射到输出。什么是最简单的模型能够基于输入复现输出组分的活动如何与这种输入-输出映射联系起来图3 GRN的表征描述。b. 细胞信号解读描述从细胞视角看GRN可被视为以信号动态为输入然后输出细胞类型比例的过程。在信号解读层面构建机制模型可以描述GRN的细胞功能而无需显式建模其底层的遗传相互作用。第三个问题与基因调控网络更相关涉及系统是如何演化的。在整个进化过程中中性甚至轻微有害的突变可以积累顺式调控序列在不同物种间差异显著但影响基因调控网络表征行为从而影响计算功能的突变往往更倾向于产生负面的适应度影响。许多发育相关的基因调控网络是围绕古老的、稳定的转录因子核心构建的核心模块这些核心驱动组织特异性发育程序。向这些核心模块提供输入的是信号输入模块称为“可插拔组件”或“输入/输出开关”它们在物种间表现出更大的变异性尽管它们通常在一个生物体内的不同背景下重复使用。响应核心活性的是“分化电池组”即执行网络输出的下游效应基因它们不向调控系统提供反馈。这些基因在不同物种间表现出最高的变异性因为它们不受下游调控逻辑的约束可以进化出组织特异性的“特征状态”。因此尽管基因调控网络的组分在不同物种间可以分化但其系统逻辑可以保持保守使得基因调控网络作为同源性的分子和机制基础。人的手和鸟的翅膀具有不同的形态和功能正是它们同源的基因调控网络核心反映了它们共同的进化起源。正如蛋白质中残基的进化动态可以提供结构信息一样遗传组分的进化动态可以描述其在更广泛的基因调控网络功能背景中的作用。在进化时间尺度上基因调控网络回路可以被征用到新的发育背景中而发育系统则通过不同的网络配置漂移以产生等效的输出在维持整体功能的同时重新连接相互作用。引导这种漂移过程的约束以及由其产生的相关模式可以为建模发育中基因调控网络的结构和功能提供有价值的先验信息。图3 GRN的表征描述。c. 进化层描述GRN由“可插拔组件”可复用的模块如提供输入的信号通路、“核心逻辑模块”包含GRN核心功能逻辑的部分以及“分化电池组”负责执行GRN下游结果的部分构成。这些模块的不同功能反映在它们的进化动力学中核心模块由于对组织形成具有关键功能在物种间高度保守此处可视化为跨物种不变的蓝色网络。可插拔组件表现出更高的可变性尤其是在它们于生物体不同组织中部署的背景下此处通过不同模块大小和强度的变化来展示。分化电池组表现出最高程度的多变性它们不反馈到GRN中因此可以自由进化与适应以提供物种特异性的输出。因此捕捉GRN各组件的进化动力学可以揭示这些组件在网络中执行的功能角色。采用表征方法来建模基因调控系统将有助于缩小模型的解空间但其益处可能更为根本。这种方法从询问“基因调控网络是由什么组成的”或“基因调控网络的结构是什么”转变为询问“基因调控网络如何将输入映射到输出以及这如何实现细胞更广泛的功能”这样做这种方法可以将焦点转向设计原理、细胞功能和进化动力学将基因调控网络结构的研究与生物目的和起源的根本问题联系起来。这种基因调控表征模型的参数不一定会捕捉到不同的分子实体或特性如蛋白质或反应动力学。因此挑战在于找到生物学约束以确保这些模型能够以稳健、有原则的方式进行训练。降维解决方案在单细胞基因组学等领域使用抽象表征来可视化生物系统已经是常见做法。降维方法如主成分分析、统一流形逼近与投影 (UMAP)和t-分布随机邻域嵌入 (t-SNE)将数千个变量和观测值浓缩成更易理解的二维图景。降维也是机器学习流程中用于统计任务如多模态数据整合、批次校正和扰动预测的常见步骤。尽管低维可视化可能会给分析带来失真但推动这些方法的原理是恰当地描述生物系统所需的变量数量远少于我们可以测量到的特征数量。换句话说生物学存在于一个比可观察特征的全维度更低维度的空间中在生物学之外被称为“流形假说”。生物特征是相关且相互依赖的因为系统被限制在比观测变量更少的自由度上。这种现象是有组织的生物系统的必要特征流形假说仅仅展示了组织的存在。生物学的低维表征捕捉了生物系统中由组分间相互作用产生的相关性和模式。因此将这些表征构建成机制性模型可以学习生成这些相关性和模式的机制。这种更具机制性的降维形式的基本实现已经存在于单细胞数据中。例如用于描述捕捉基因间相关性的基因模块的算法、捕捉细胞状态粗粒化模式的元细胞以及能够建模解释数据集中观察到的细胞类型模式的细胞分化路径的拟时序和轨迹分析工具。作为机制性降维的另一个例子因果表征学习方法旨在将复杂表型分解为不同的生物学过程并从数据中学习因果关系。这些方法已被用于多种数据集包括模拟的和真实的单细胞基因组学数据并有望提供更可解释、更具泛化能力的复杂生物系统模型这些模型建立在因果发现理论的基础上。迄今为止这些方法主要应用于扰动预测问题学习遗传和化学干预对细胞的因果效应。图4 迈向机制的抽象表征。a. 在主成分分析中每个投影后的数据点都是原始数据点通过变换矩阵C进行线性变换的结果。相应地每个主成分都可以描述为原始数据集中变量的线性组合。b. 自编码器、均匀流形近似与投影或t分布随机邻域嵌入等降维方法将这一思想推广到了线性映射之外其中每个数据点通过一个非线性函数映射到一个潜在表征。因此每个潜在变量都可以描述为原始数据集中变量的非线性函数。c. 一种机制性的改进其中潜在表征由一个捕获了潜在因子间因果关系的机制模型所构建这些潜在因子可以解释数据点的动态。这个机制模型可以是一个描述细胞在状态间转换的时间依赖性进程的动态系统。同时数据变量通过一个受生物学约束的函数映射到潜在变量确保映射具有生物学意义。潜在表征的结构以及从变量到潜在因子的映射是相互依赖的但并不等同。机制模型可以捕获驱动细胞层面行为的因果关系而潜在变量映射则学习基因如何与这些因果关系相连接。未来应用这些方法可以为基因调控系统如何驱动发育过程中的细胞水平和组织水平结局提供机制性表征。这样的模型将着眼于抽象掉分子细节将这些复杂性的负担转移到神经网络的抽象参数上从而释放模型中有意义的参数使其学习到与特定细胞表型相关联或驱动特定细胞表型的少量潜在因果因素图4。这里的挑战在于约束模型使得学习到的内容对要解决的问题是有意义的。例如我们可以强制潜在变量映射到具有特定基因本体论术语的基因或映射到特定染色体或者映射必须通过一个转录动力学模型。模型参数可以被定义来捕捉观察到的进化序列数据动态表示特定扰动或信号条件的影响捕捉细胞属性如增殖率或细胞周期阶段或者可以被设计来捕捉特定的基因调控网络子回路或基序。这些约束决定了模型学习什么。如果基因调控网络的进化、细胞功能或生物体应用对其形式或结构有任何决定性作用那么将这些细节构建到我们的模型中可以帮助缩小巨大的解空间。在表征学习框架中这样做可以提供更高层次的约束使粗粒化模型能够从噪声中抽象出信号。实验解决方案建立对基因调控功能的高层次理解可能不需要绘制网络中每一个分子组分的图谱。然而正如动力学等价性挑战意味着许多不同的模型参数化可以产生相同的动力学一样许多不同的分子系统也可以产生等效的机制。以一种稳健且可泛化的方式跨越细胞类型、组织、生物体和物种从分子组分的测量中建模基因调控需要理解支配基因调控功能的分子“规则”。一个基因调控模型可能的解集涵盖了该系统所有可能的分子实例化空间因此为了约束基因调控网络模型的解空间我们必须理解在分子层面上什么是可能的、什么是不可能的。例如考虑学习将增强子序列映射到其功能的“顺式调控代码”这一挑战。一个无偏倚的方法面临一个难以处理的巨大解空间长度为200个碱基对的可能的序列数比宇宙中的原子数还多。因此需要定义生物学原理和设计约束将这个空间缩小到生物学上合理的机制空间。正如了解诸如音节和音素等语言结构有助于识别一种语言中的有效词汇一样理解组织基因调控相互作用的分子原理为将基本物理单元DNA碱基和转录因子与其更广泛的功能意义联系起来提供了框架图5a。图5. 确立调控GRNs的分子原则。a. 英语语言的结构有助于在判断一个字母序列是否为有效单词时约束其解空间无论是”protein”还是”pertino”都遵循有效的语音规则而序列”rnpetoi”则包含了无效的音位组合”rnp”因此可以被排除。类似地理解分子层面上允许的构型结构有助于约束基因调控网络建模的解空间此处以转录因子复合物在基因启动子处形成为例展示。b. 看似无预测性或灵活的变量之间的相互作用可以产生一种”涌现刚性”的关系形式此处变量1和变量2与输入变量均未显示出良好的相关性然而这两个变量的乘积却呈现清晰的线性关系。c. 生物机制的变异例如顺式调控增强子活性可能通过两种过程产生。上图不同的增强子活性或亲和力可以在基因之间以及不同情境之间产生剂量调控从而在不同情境下产生功能上不同的输出。下图不同的增强子活性或亲和力也可能作为对进化事件例如基因复制的适应性变化而产生。在这种情况下这种变异不会产生功能差异而是补偿了先前的进化事件。像单细胞基因组学这样的“大数据”方法对于描述不同背景下基因调控的模式至关重要。然而理解基因调控需要超越对这些观察结果的编目和关联。同样重要的是要捕捉不同的调控层次是如何连接的。单个调控层可能给人一种松散或嘈杂机制的印象转录因子结合基序是简并的而增强子通常是冗余的。转录因子似乎结合基因组中数千个位点通常以成员可互换的复合体形式有时与其他转录因子结合而这些转录因子也是它们直接拮抗的对象。其他调控形式的作用如组蛋白修饰、DNA甲基化和非编码RNA似乎也表现出背景依赖性功能。这一观察结果给人一种极端、几乎无限灵活性的印象而显著的稳健性和精确性正是从这种灵活性中涌现出来的。稳健性可能是通过调控层之间的相互作用实现的。一层的变化可能与另一层的变化耦合、互补或抵消从而产生一种“涌现的刚性”图5b。例如一组观察可能表明一个基因同时受远端和近端增强子的调控因此这些调控元件的基因组距离并不能预测它们的相对活性。另一组观察可能发现这个基因包含在一个三维拓扑结构域中该结构域在不同细胞类型之间会发生重塑。整合这些观察结果可能会发现增强子的三维组织和基因组位置共同解析成一个细胞类型特异性增强子活性的预测模型。或者一个实验可能记录了某个转录因子所结合基序的序列变异性而另一个实验可能表明该转录因子诱导了并非单一细胞类型特异的靶基因表达。综合来看这些发现可以解析成一个剂量依赖性转录因子结合模型其中不同亲和力的基序驱动不同细胞类型程序的表达先前已证明Sox2就是这种情况。只考察一个调控层可能永远无法提供机制性理解基因调控的顺式调控代码如果仅从DNA序列或转录因子活性的角度观察可能只存在于模糊的意义上考察各层之间的关系可能让这种代码更清晰地显现出来。将一层的扰动与另一层的测量联系起来的跨模态实验设计对于解析顺式调控代码将非常有价值。这类实验设计可能包括工程化序列变异的同时用Hi-C测量染色质构象测量响应转录因子过表达的染色质可及性变化或记录组蛋白代码扰动下的增强子活性。总之通过实验将调控过程联系起来可能会揭示基因调控的多个方面如何协同作用来约束细胞行为。然而重要的是并非所有调控变异都一定是功能性的。变异性可以提供功能益处例如结合基序简并性可能允许转录因子的效应强度在不同背景下进行调节但也可能源于进化偶然性。例如一个转录因子基因的重复可能导致顺式调控序列发生进化变化以适应两个冗余的调控因子而不是消除重复的基因。同样变异性也可能由突变和重组的随机过程驱动这些过程不会产生足够强的选择压力而被进化消除。为了测试基因调控网络的结构方面如何映射到其功能我们需要自己重新排列这些网络的结构。通过改变细胞中顺式调控元件的组成和组合我们可以开始改变基因间相互作用的强度、极性或存在与否从而对不同网络结构如何产生各种表型进行实验探索。这方面的工作正在进行中高通量增强子诱变、人类基因组的工程化重排和增强子景观的工程化重排、高通量增强子敲除和转录因子诱导筛选就是这方面的例证。与此同时针对特定调控功能设计顺式调控序列的方法正在迅速成熟例如能够同时测试数千个DNA序列的细胞类型特异性调控活性的增强子筛选详细分析结构重组如何改变增强子功能通过饱和基因组编辑方法测量经过彻底改变的调控区域的功能读数以及用于从头生成细胞类型特异性和功能特异性增强子序列的机器学习方法。这些发展指向了合成基因调控工程的未来其中顺式调控序列和转录因子可以被编辑或引入以对基因调控网络的结构从而功能进行靶向改造。这反过来又为设计完全合成的基因调控网络作为研究对象创造了可能性这建立在现有合成生物学工作的基础上这些工作已经在哺乳动物细胞中创建了可编程的蛋白质回路和蛋白质水平神经网络在细菌中创建了核糖核酸计算设备或在酵母中创建了遗传逻辑回路。这些努力可以为构建和基准测试基因调控网络建模框架提供黄金标准的“真实情况”系统但更广泛地说将开辟一个超越自然系统的巨大基因调控网络结构空间。上面概述的实验进展从概述分子规则和网络中调控层之间的联系到重新排列、重新设计并最终构建新的基因调控系统。这条路径提供了构建与我们的数据收集能力以及我们研究系统的复杂性相匹配的复杂扰动框架的机会。对于理论家来说它提供了一个特别诱人的前景基因调控网络的动态在一定程度上是写在基因组序列中的。因此通过基因组工程编辑基因调控网络为因果发现提供了一个新的前景即我们可以系统地改变我们希望理解系统中因果相互作用的结构。这一机会让人联想到最近提出的一个理解顺式调控DNA代码的策略。该策略建议我们“保留基因组”自然界观察到的所有调控序列仅占整个可能序列空间的极小一部分因此要理解顺式调控序列我们必须在更大的合成序列文库上训练模型扩展到自然界观察到的范围之外。类似的论点也适用于基因调控网络可能的网络结构总空间远大于生物系统中观察到的。通过构建新的合成系统并重新设计现有系统的结构我们可以对基因调控网络进行比目前可能更深入、更广泛的探索。机器学习的作用生物技术的飞速进步从基因组学到计算方法引发了我们对理解基因调控机制和细胞功能的极大热情关于开放挑战见框1。这一势头促使一些人呼吁构建虚拟细胞和基础模型以提供细胞生物学的通用表征。框1 | 开放性问题与挑战可以运用哪些形式的层次结构、模块化和组织形式来粗粒化基因调控网络 哪些类型的表型和进化数据能够为GRN的结构与功能提供信息 在何种抽象层次上GRN与细胞表型之间的因果关系最为明显我们能否通过经验方法检测到这种依赖尺度的因果关系 我们如何验证生物系统抽象表征模型的性能并为其建立评估基准 某一调控层面的扰动如何影响其他层面的动态 我们能否利用合成生物学来构建具有已知真实结构的合成GRN系统 我们能否开发出这样的工具以我们目前编辑DNA和蛋白质序列的精度来设计和改造调控网络的结构 随着单分子水平和时间分辨数据的获得我们对调控机制的认识将发生怎样的改变推动这种热情的一股力量是AlphaFold的成功它可以说是第一个真正意义上的生物学基础模型。为基因调控系统创建一个类似的模型需要将尺度从分子转向细胞。要理解与这种转变相关的挑战必须考虑这些背景之间的差异晶体结构预测是一个静态且定义明确的问题。它受益于“真实情况”和稳健的成功度量标准。此外蛋白质数据银行(PDB)仍然是有史以来构建的最干净、最一致的生物数据集之一。蛋白质表现出结构“简并性”即结构包含常见的重复基序如α-螺旋和β-折叠这使得结构预测的挑战大大降低。相比之下“细胞功能”是一个依赖于背景的概念没有客观定义“细胞状态”永远只能被部分观察。单细胞测序数据嘈杂、稀疏且受批次效应影响这意味着收集到的数据库需要大量的数据处理和转换才能被整合。与蛋白质结构不同细胞决策是动态且依赖于背景的因此看似相同的细胞可能由于未观察到的差异例如克隆动力学、细胞培养条件的变化、基因表达的随机性而表现不同。这些差异凸显了需要取得进展的关键领域。例如蛋白质结构预测模型并非在原始数据上训练X射线衍射密度被整合、缩放并处理成原子坐标然后作为这些模型的输入。这个过程涉及整合生物学知识、专门的算法和人工监督以产生标准化的表征。将目前仅专注于去除批次效应的基因组学协调方法朝着生成精炼且具有生物学和生物物理学动机的细胞状态数据表征类似于原子坐标数据的方向推进可能是构建值得基础模型使用的数据集的关键。此外随着基因组学方法变得更便宜、更普及我们必须将关注点从“每个实验的细胞数量”转向“每个实验的样本数量”以捕捉更密集的时间点、信号背景和扰动条件采样。当我们能够记录每个实验数千个样本而不是数千个细胞时我们可能开始收集到能够展示重复模式简并性的数据集这种简并性已被证明对蛋白质结构预测和进化序列建模非常有益。多模态测序技术的持续增长可以将细胞状态只能被部分观察的问题最小化但这些方法必须提供稳健、一致、可以持续重用的数据集正如我们在蛋白质数据银行所看到的那样。值得注意的是蛋白质数据银行成立的同一年正是《感知机》一书出版的那一年该书对神经网络作为统计模型的有限用途持悲观态度。在那一年1969年深度学习还不存在最先进的计算机只有几千字节的内存也没有人认为蛋白质数据银行会为蛋白质结构的计算解决方案提供数据。我们必须同样规划生成具有足够规模、范围和质量的数据集以供未来多年使用即使使用目前尚不存在的计算方法。即使我们构建了稳健的数据集和清晰的建模目标来复制AlphaFold的环境我们也必须认识到蛋白质结构预测和基因调控网络建模之间的根本区别。AlphaFold是一种预测方法其目标不是学习控制蛋白质折叠的生物物理原理而是从氨基酸序列预测结构。基因调控网络模型的目标不应仅仅是预测特定分子遗传状态的表型后果还应该学习连接这两个尺度的原理。一个预测细胞表型的“黑箱”模型是不够的因为可解释性是必需的。挑战在于我们在生物学中对可解释性的理解主要存在于分子层面蛋白质和基因做事情它们是细胞中事实上的机制单元。在系统层面构建可解释的理解将需要新的概念框架来定义有意义的系统层面机制可以是什么样子。这样的框架需要利用基因调控网络的组织特征例如其层级性和模块性。与蛋白质折叠不同基因调控网络可能拥有一个表征层它不仅捕捉分子实现还捕捉这种实现如何组织以响应输入并产生输出的逻辑。解析这种表征逻辑有可能揭示新的设计原理、全新的机制形式以及关于信息如何在生物学中被控制的新视角。基因调控网络的这些特征——层级性、模块性、DNA规则和调控层次——为我们指明了如何学习基因调控网络模型的方向。层级性和模块性意味着基因调控网络是可约化的允许将分子复杂性抽象化。如果DNA序列中存在规则那么序列编辑可以重新设计规则从而允许探索广阔的重新工程化系统空间。不同调控层之间相互作用所产生的组织可以解释稳健的细胞命运决定是如何从看似嘈杂的分子过程中产生的。进化分析可以区分历史偶然性模式和调控逻辑的基本规则。结论我们目前对基因调控网络的看法——一个由线条和节点组成的静态图——对理解调控网络的细胞功能提供的见解有限。这一事实与基因调控网络最初作为因果分子解释的构想形成鲜明对比。然而我们完全有能力回归到机制性的观点单细胞基因组学可以大规模、高分辨率地测量生物表型机器学习可以将这些数据转换为更简单的表征通过将细胞和进化约束构建到这些表征中我们可以将基因调控系统的复杂性提炼为发育过程的核心逻辑。确保这些模型有意义需要实验上的进展来阐明分子机制的语法和结构既包括它们在不同背景下运作的原理也包括支配不同机制如何相互作用的规律。能够构建和操纵基因调控系统的合成生物学方法对于这项努力将具有变革性意义它能提供仅通过研究自然调控系统无法获得的深度理解。我们收集更详细数据集和构建更复杂模型的目标应该是解构基因调控网络的复杂性揭示发育形态和功能背后的设计原则。词汇表贝叶斯建模一种概率建模方法将先验概率先验分布与观察到的数据似然相结合以估计更新的概率后验分布允许在具有稳健不确定性量化的情况下进行推断和预测。粗粒化一种常用于统计力学和化学模拟方法的技术较低分辨率尺度例如原子级别的细节被移除或平均化使得只保留那些对于保留更高尺度例如生物分子级别的宏观行为至关重要的特征。降维一类用于减少数据集中变量数量同时保留数据主要变异来源的方法。主成分分析、统一流形逼近与投影和t-分布随机邻域嵌入等方法通常用于降低测序数据的维度。动力系统系统状态随时间演变的模型通常以微分方程的形式表达常用于描述生物系统如种群动态、生化反应和基因调控网络。真实情况现实世界的模型或系统的结果作为基准可以比较训练模型的性能。马尔的“分析三层次”由大卫·马尔提出的描述认知和计算系统的框架将这些系统分为三个层次计算层系统做什么以及为什么做、算法/表征层实现计算目的所需的系统组织和实现层用于构建算法组织的物理材料和基质。多视角认为现象的表征可能取决于观察者的视角或研究者的问题的观点。例如关于全局细胞类型控制的问题与关于特定基因调控的问题对基因调控系统最有用的表征可能不同。多尺度在时间、空间或组织的不同分辨率尺度上表示现象的模型或分析例如原子、分子、生物分子、遗传、细胞、生物体和种群等生物学尺度。表征学习与降维相关机器学习的一个领域专注于从数据中学习有意义的、紧凑的表征而不是仅使用原始数据中观察到的变量表征学习的一个例子是变分自编码器这是一种深度生成模型将数据编码为潜在表征。松散模型系统生物学模型对少数参数表现出极端敏感性而大多数参数对模型性能没有影响。结构不可识别性当模型参数的广泛变化对模型输出产生微小改变以至于将模型拟合到数据集时不存在唯一解。最全1000植物核基因组数据库IMP (点击图片直达)高颜值免费 SCI 在线绘图(点击图片直达)往期精品(点击图片直达文字对应教程)LinuxPythonR绘图NGS基础GEO高级生信自学生信书籍系列教程心得体会转录组经典宏基因组蛋白质组单细胞系列测序发展史免费在线画图色彩搭配图形排版图形解读ChIP-seqTCGAGSEAWGCNA海哥组学傻瓜系列文章写作CytoscapeExcelPPT机器学习公众号投稿联系陈同 chentong_biology163.com

更多文章