Enhancers: five essential questions
关于增强子的5个基本问题
王心怡
(2015级研究生5班)
Len A. Pennacchio, Wendy Bickmore, Ann Dean, Marcelo A. Nobrega and Gill Bejerano
摘要:据估计,在人类基因组中包含数十万增强子,所以了解这些基因调控元件是一个重要的目标。一些有关增强子根本性的问题需要解决,比如我们如何识别它们,它们是如何工作的,以及它们如何对疾病和进化发挥作用?五位著名的研究人员在这一领域进行研究,关于我们已经知道多少,还有什么需要做的事情来回答这些问题。
问题1:想要识别所有的增强子及其功能,我们将面临什么样的挑战?
Len A. Pennacchio: 增强子属于DNA顺式调控序列,可以增强基因的转录,其作用与其序列的方向无关。从历史上看,识别增强子面临以下几个挑战:首先,有增强子存在的人类基因组中98%是不编码蛋白质的,因此搜索范围很大;第二,尽管增强子属于顺式调控序列,但其相对于所调控的基因的位置是高度可变的,也即是说其位于被调控基因的上游或下游都可发挥作用,此外它们不仅可以调节邻近的基因序列还可以调节同一条染色体上距离较远的其他基因序列。在一些情况下,个别的增强子可以调控多个基因,增加了其作用的复杂性;第三,与编码蛋白质的基因序列相比较,对于增强子的基本序列我们知之甚少;最后,许多增强子在一个特定的组织或细胞类型,生命的某一时间点,或者是特定的生理,病理环境下才会表现活性。增强子的特异性准确的决定其什么时间,在哪里和在何种水平的基因表达,使其功能在基因中的发挥更加的复杂而难以被发现。 “增强子是否存在基本序列,对于此我们知之甚少”
面对这些挑战,过去十年我们通过基因诱导来识别增强子。首先,我们得利于在不同的脊椎动物与哺乳动物之间发现了大量的增强子序列,尤其是在早期的研究中。 值得注意的是,通过转基因小鼠测得的人类大量的保守的非编码DNA序列的实验显示其中大约一半的序列是增强子。这个结果是令人震惊的,因为测序的只是实验小鼠生命中的一个时间点(即,新生11.5天)原则上讲其存在其它许多功能来保守非编码DNA的稳定。这些发现表明增强子在基因组的非编码部分是一个主要类别,甚至可能是主要类型的功能性元素。
尽管我们成功的将比较基因组学应用于增强子的识别,但这种方法有一定的局限性。列如,在转基因测试中有成千上百的保守的基因序列是没有增强子功能的,这也许是目前局限性分析选择的时间点的原因,但非编码序列的稳定也有可能是因为它有比增强效应更重要的作用。此外,一个基因序列的稳定是因为增强子不能决定其什么时间和地点发生作用。作为额外的挑战,最近研究支持,相当大的一部分增强子表达适度且不在不同物种间同时存在,从而进一步限制了这种基于进化学的方法。
使用最近的一种增强子识别方法可以解决这些问题,利用先进的高通量测序的组蛋白修饰和其他细胞系或主要组织的表观遗传标志。这个所谓的“芯片–序列”的方法(对染色质免疫沉淀的高通量测序)是强大的,因为它是独立于脱氧核糖核酸保护和定义的增强目录而直接从细胞或组织进行的研究。标志通常用于识别假定增强包括P300(参考文献8),组蛋白H3乙酰化赖氨酸27(h3k27ac)和H3 K4甲基(H3K4me1)。DNA酶I超敏位点的映射是一个有用的方法。所有的这些标记已在各种哺乳动物中证明是有用的,与抗体蛋白标记
以及DNA酶I超敏反应在许多形式的真核生物中具有广泛的应用。这些分子工具主要是有用的增强子识别,通过他们的实验证实,增强子在体外或体内均可发挥作用。
从组织和不同的细胞系调查得出了我们的基因增强子的数量越来越多的证据,这是一个了不起的发现。据估计,在人类基因组中存在数以千计的增强子,远远超过我们的20000种蛋白编码的基因。这一观察点继续指出,调控基因表达的重要性,作为一个主要的控制基因组水平,并最终有机体的功能。
从这些表观遗传学方法中可以发现在特定的组织中,保守的增强子是如此之少。包括增强子识别脊椎动物肝组织中的基因,以及在老鼠和人类的心脏组织发现增强子。这些早期发现强调了研究某些组织直接从物种的调查(即,人类)与试图使用标准的动物模型,以获得他们的身份(即,小鼠)的重要性。预计,旨在增强子的识别的大的研究,如编码,将继续从动物模型和人类细胞系向主要人类组织转换。
尽管这种新一代的实验工具揭示增强子在基因组水平的杰出价值,但也有一定的局限性。例如,目前还没有单一的“增强子标记”可识别是可用于增强子所有基因组区域,也没有这样的“增强子标记”可以预测一个给定的增强子是否在给定的细胞类型或组织中。所有增强描述时间的预测方法,不管是保守的还是以表观基因组学为基础的,都是不完美的;这是因为,用实验验证序列表明,一些增强子区域会出现假阴性,而其他序列预测为活性增强子区域则会出现假阳性。因此,在使用这样以基因为中心的信息时,在进行较大的调查之前必须注意这些预测是有效的。尽管已经取得了进展,但是由于细胞类型和条件几乎是无限的,所有的增强子在基因组的表观基因接近完全研究清楚仍然是一个艰巨的任务,因此,我们仍需探索。随着进一步的发展,为了填补这一空白我们需要更快的计算量和更低的成本这样的策略来识别增强子,如在隔离和输入量较小的组织(包括单细胞)的能力并且要使对增强子的识别更有效率。事实上,识别增强子的大量工作最终将它的功能和人类的疾病联系起来。
问题二:增强子在复杂的三维结构的基因组中是如何发挥作用?
Wendy Bickmore:我认为这个问题我们应该分为两部分来回答。第一个是增强子与他们所调控的基因物理距离是?如果确定了,那么它是怎么发挥作用的?
通过对细菌(如大肠杆菌)的lac运营的监管结构的研究我们可以得出增强子在远距离也可能通过循环机制发挥其作用。而这些序列(即增强子)是存在于非编码序列的相对较短的(<100bp)的片段,这个概念被引用到哺乳动物的增强子上,其可位于其调控序列同一染色体但距离高达一百万个碱基对的位置发挥其功能和作用。
增强子与启动子距离远有两种证明方法。第一个是交联,由甲醛和连接在一起的增强子和启动子DNA序列中发现染色体构象捕获的方法。第二个是可视化,荧光原位杂交技术运用于增强子和启动子序列。在某些情况下,这两个实验确实支持循环机制,把远距离的顺式调控元件带到靠近目标基因(<200bp)通过竞争机制发挥作用。然而,在其他情况下,监控元件可以交联基因启动子发挥作用,但是视觉分析并没有在增强子与启动子间检测到大量的相同序列。这可能是由于染色质循环瞬态检测,因为产品3 c交联建立是通过间接交联增强子和启动子相对较大(300 - 400 nm)核子结构或超分子结构。在后一种情况下,我认为没有一个DNA循环可在增强子和启动子之间形成。在循环发生的情况下,循环形式如何?一般来说,假设是增强子与启动子间循环机制在正确的组织,正确的时间使启动子发挥作用(例如,RNA聚合酶,反式激活因子和转录因子)。由于染色质是一个非常大的多变的聚合物,默认的构象并不是一系列结构化的循环,必须有稳定的循环形成的具体机制。可在染色体上如此大的距离下实现循环作用需要相当大的能量输入,和我们不知道的活动机制在间期。然而,染色质的运动,扩散不断受到限制。这个约束条件是足够大的半径,在细胞核中任何两个序列距离大约
1 Mb,那么彼此就可可以随机遇到。如果有蛋白复合物存在于启动子和增强子间,那么染色质之间就可通过这种被动的机制形成稳定的循环。出现在启动子和增强子的蛋白质有这样的作用,包括那些二聚体或多聚体。关于循环机制激活转录的能力中,最引人注目的演示实验,是LDB1 β球蛋白在红细胞中释放轨迹。形成一个循环,这将由多个转录相关序列及染色质的修饰和重组因素参与,这些因素将增加局部基因的浓度,因此促进进一步的蛋白质—蛋白质和蛋白质-DNA复合物的形成。事实上,通过增加局部蛋白质含量影响抑制的阻遏物已被证明是一个关键机制。
“增强子——可以位于远离他们的目标基因高达一百万个碱基的位置发其功能”
那么在细胞核中增强子和基因目标之间的循环机制能不能可视化呢?在某些情况下,其间的染色质似乎在一个紧凑的状态,以便增强子和启动子仍相对较近(200 - 400 nm)。高浓度的转录因子和蛋白质复合物通过绑定增强子可以简单地通过这个转录受限的核体找到启动子并激活转录。转录也可以通过非特异性结合染色质促进,实际上这种类型在扫描阻遏物时已经被观察到。据报道在真核生物中也扫描到有蛋白质存在于增强子与启动子之间。相对于可观模型而言,连接模型认为在增强子和启动子之间存在功能活跃的有增强效应的染色质复合物,这一观点被增强子阻断序列的活性和在其间的染色质的组蛋白修饰所印证。
这是很难想象的增强子在距离其目标基因几十万个基因对的位置发挥作用,而对他们之间的基因没有发挥任何增强效应。也没有任何证据理由可以让我们认为所有的增强效应的发生机制是一样的。事实上,在大肠杆菌一维和三维的转录过程中已发现其阻遏物。
问题三:增强子如何增强基因的表达?
Ann Dean:增强子是DNA调控元件,激活目标基因的转录或是提高目标基因的转录水平。这些序列通过循环机制使增强剂与目标基因相互接近作用。它被认为是结合在启动子和增强该谱系特异性DNA结合的转录因子,或者与彼此交互或招募'循环'介导是由染色体构象捕获(3C)检测到的远程联系人因子或相关测定法。最近的数据还表明,绝缘子结合蛋白CTCF和黏合可便于增强子与启动子相互作用。
增强子如何影响转录?基因组分析显示,一般转录因子(基转移酶)和RNA多聚酶II的招募增强。因此,看来增强子是作为中心来组装的起始复合物(PIC)。循环形成可以增加转录因子在靶基因的附近的局部浓度,或者增强子可能提供启动子的片段。增强剂可能是被增强子 - 启动双核搬迁到目标基因附近的区域,有利于基因转录。有证据表明这些模型,但更重要的问题仍然是关于其物理构造详细信息,以及模型间有可能相互关联的方式。 在PIC的形成,是复杂的激活因子和Pol II在基因的上游合成的中介物。中介物可以结合远距离的增强子吗?的确,在胚胎干细胞(ESCs),介体亚基(MED1和MED12)定位及黏合在增强子和启动子,黏结对在它们之间形成线圈必要的。其他研究显示,MED1与GATA1(REF 26),所需的基因座控制区(LCR)循环到的β珠蛋白基因的红系关键转录因子相互作用,所述两个共同占有的LCR。因此,中介物可以协调增强效应使转录机制通过与增强子结合转录因子和聚合酶II发挥作用,并作为远处增强子转录调控的一个枢纽。另一个中介组件,TBP相关因子3(TAF3),直接作用于CTCF和被募集到由CTCF和黏合在ESCs29共享远端站点。尽管目前尚不清楚这些位点是否是真正的增强子,但至少一个示例中,末端位置环路,以在一个TAF3依赖性方式启动子,敲掉TAF3或CTCF可降低该基因的表达,这表明环式结构是有功能的。
增强子环状结构似乎也有聚合酶II的伸长作用。LCR的和β珠蛋白环状结构因子的LIM域结合1(LDB1)都需要从β珠蛋白基因内适当的暂聚合酶II的缓释放。最近,在胚胎干细胞中发现延伸因子ELL3可结合增强子。在发育时可适当促进聚合酶II的调控基
因ELL3的转录。两者黏合和中介被发现与许多ELL3结合的增强子和同源集群A(HOXA)位点的ELL3占用增强的黏合介导的长程相互作用有关。总之,这些研究表明,增强剂可以在通过转录部件直接参与影响聚合酶II启动和延伸。
与mRNA表达相关的另一个手段,其中增强子可以通过自己的eRNAs的转录影响它们的靶基因的转录。虽然反转录产生于某些增强剂这已被发现多年,但转录物的功能还不清楚。是RNA或本身转录重要呢,还是转录过程中附带一个环状基因的转录呢?现在,全基因组研究已经揭示,增强剂常常转录成各种长度的,多腺苷酸化的,特异性的非编码RNA。此外,增强子的RNA(eRNAs)已经被用于鉴定活性增强子,这表明增强子转录是增强子激活过程的一部分。在eRNAs转录与其附近的mRNA的合成相关,提示转录调控参与其转录。eRNA的转录是目标基因激活的副产品是不太可能的,因为敲掉eRNA的一个子集将导致基因转录减少。这表明,RNA本身是增强子发挥功能所必需的,而不是非编码RNA(ncRNA)基因简单的转录。一个有趣的可能性是,eRNAs可能是属于在增强子 - 启动子循环结构的一部分。事实上,新的数据为这一想法提供了支持。然而,在这一点上,非编码RNA增强子的功能还需要进一步研究和验证。
“这一发现表明,增强子基因决定了细胞的多样性表达”
最近的研究文献关于全基因组规模下增强子和启动子之间的相互作用。在研究不同类型的细胞的RNA聚合酶II远距离相互作用时发现实现细胞特异性的功能的多基因复合物与增强子 - 启动子结构相似。其他的研究证明CTCF基因与增强子大幅重叠,这与发现组织特异性CTCF部位与增强子(50%)在胚胎干细胞定位高度一致相呼应。研究报告表明eRAN与启动子-增强子循环和增强子的转录有显著的联系。这一发现表明,增强子基因决定了细胞的多样性表达。
这些多基因复合体是如何有序地工作的?活性增强子基因对及与其类似调节的基因非常符合与RNA聚合酶II相关的转录工厂的概念。协同调节α和β珠蛋白基因比其它有关基因更复杂是人们已经知道的。这个现在看来可能是一种普遍化的现象。增强子和启动子循环与转录工厂之间分辨清楚吗?增强的循环可能有助于实现激活基因转录工厂。在敲掉LCR或减少的循环因子LDB1后,β珠蛋白基因座无法迁移到工厂,从而影响增强效应环的形成。然而,可以设想其他方案,这个问题仍有待严格的解决。
未来的工作可能拓宽视角;然而,迄今为止,机械认识到增强子如何调节基因表达的所有过程还需要很长时间。在某些情况下,循环可直接影响转录组件。此外,循环也可以被增强子的转录影响。最后,在全基因组规模下增强循环可以组织基因组中活性序列,并且可以决定某些基因被转录。增强循环是否足以激活基因的转录?增强子基因循环在缺乏正常转录监管机构的β珠蛋白中激活基因转录至少部分基因的转录,证明了增强子循环是转录改变的基础。增强子循环如何影响转录工厂是个有趣的问题。一种使用FISH确定染色质位点之间的互动频率的单细胞技术,将对此有一个实质性的推进。对于未来揭示基因是如何在原子核中运动和表达的,明确增强子-启动子循环正确方式是必须的。
问题四:增强子的突变和变异如何影响人类疾病?
Marcelo A. Nobrega:人类基因组中约有85%是非编码序列,其中相当大的一部分是顺式调控元件,因此在这些监管序列的遗传变异是表型变异和人类疾病的病因的潜在的基础就不奇怪了,其实人类疾病的受基因调控的机制早在三年前就出现了,比如说在β-珠蛋白基因簇中珠蛋白基因突变会导致地中海贫血,疾病是由一个在珠蛋白基因和遥远的顺式调控元件之间的线性关系破裂导致的后果。

