14 芯片基因组技术在突变分析和微生物检测中的应用
周集中 Dorothae K.Thompson 张晓君译 朱晨光初校,张晓君校 14.1 前言
DNA和寡核苷酸芯片为复杂核酸的检测提供了强有力的工具。芯片应用的两个主要方面是基因表达谱(例如,DeRisi等,1997;Wodicka等,1997)和遗传突变分析(Hacia,1999)。芯片基因表达谱产生整个基因组的数据,这在十年前是不可能的。以芯片进行遗传突变分析仍处于完善阶段,因此还没有很多文献报道。尽管还有很多困难,在遗传突变中,单核苷酸多态性(SNP)最适合于做芯片的靶(Broude等,2001)。而用芯片技术分析多点突变、插入、缺失和重排时遇到很大问题。
最近,芯片基因组技术已被扩展到检测自然环境中的微生物(见Zhou和Thompson,2002;Zhou,2003的综述)。尽管DNA芯片技术已在纯培养物的基因表达分析中得到成功的应用,但它在复杂环境样品中的应用还没有被深入地测试和评价。理论上,芯片基因组技术具有对复杂环境样品进行全面的定量化描述的优势。然而,改进的芯片杂交用于环境研究仍在专一性、灵敏度和定量化方面面临挑战(Zhou和Thompson,2002;Zhou,2003)。
本章简述芯片技术的原理以及芯片技术分析遗传突变和检测自然环境中的微生物的最新进展。介绍了以芯片分析突变的各种方法,并描述了各类可用于分析环境样品的微生物群落结构的芯片。 14.2 寡核苷酸芯片用于突变分析
SNP是人类和其它自然或实验生物的基因组中最常见的一种类型的变异。据估计,每一千个染色体拷贝就有一个核苷酸的差异(Landegren等,1998)。SNP
是突变分析的重要标记,因为它们往往位于我们感兴趣的位点附近或就位于其中,并且许多SNP或直接影响蛋白质的结构或影响基因的表达水平。另外,SNP的遗传很稳定。适当样品中的大量SNP的基因分型有助于理解疾病易感性和抗性、复杂遗传特性的差异以及人类进化的遗传变异基础(Hacia,1999)。由SNP引起的序列差异的定位、鉴定和分类是正常和疾病状态下遗传变异和表型变异的首要工作。然而,这项研究需要对数千样本的成千上万的SNP位点进行快速廉价大规模的序列分析。
已经建立和使用了很多种传统方法对SNP分型,如微测序、分子信标、寡核苷酸连接和5’核酸内切酶测定(Landegren等,1998;Hirschhorn等,2000)。尽管这些方法已成功地应用于小数目的SNP的分型,它们难以满足高通量、大规模的序列比较和突变分析。为有效地进行大规模的遗传研究,需要有高通量基因分型的方法。已经建立并测试了可以对大量的SNP分型的基于芯片的实验策略,即等位基因专一性的寡核苷酸探针差异杂交和芯片引物延伸测定(Hacia,1999)。本节简要描述每个实验策略的原理及其应用。 14.2.1 等位基因专一性寡核苷酸芯片杂交测定
用于检测基因组SNP的好方法的主要要求是能够在二倍体基因组中准确地区分纯合体与杂合体等位变异。以等位专一的寡核苷酸(ASO)探针进行差异杂交被广泛地用于芯片测定中(Yershov等,1996;Wang等,1998;Hacia,1999)。这种杂交测定依赖于短寡核苷酸与完全匹配或有错配的靶序列突变体杂交的稳定性的差异。然而,ASO分型的专一性强烈依赖探针特性与杂交条件。探针的设计对于获得专一的检测至关重要。
探针与矩阵设计 对完全匹配和单碱基错配DNA二倍体的杂交的区分依赖于稳定性的差异,而稳定性受探针特性与杂交条件的影响。对于大规模分析,最理想的是确定一套杂交条件能够对所有感兴趣的SNP进行有效的区分。这可以通过选择合适的ASO探针使之具有相近的解链温度,解链温度受控于探针长度、碱基组成和错配碱基在ASO中的位置。
探针长度是影响双链稳定性的关键因素。一般地,要获得最大分辨力,希望探针序列要短并具有较低的双链稳定性。而长探针形成更稳定的双链,它们由于错配序列的百分比降低而使分辨力降低。另外,靶样品的单链DNA的二级结构也影响探针长度的选择。在高盐条件下,单链DNA可在链内形成二级结构。如果这个结构的稳定性高于靶DNA和ASO探针之间形成的双链的稳定性,靶DNA的单链的杂交区就不能与芯片上探针杂交。这个问题可以通过选择较长的探针序列得到部分消除,长探针可以使杂交在较高的温度下进行。较高温度下进行杂交可以使靶DNA的单链内部二级结构解链。考虑所有这些因子,ASO探针需要设计成15到25个碱基长度(Guo等,1994;Hacia和Collins,1999)。
用12、15和20碱基的ASO探针测定了探针长度对专一性的影响(Guo等,1994)。所有探针产生大致相当的信号,而15碱基ASO探针获得最好的单碱基区分效果。12碱基ASO由于解链温度低而难以应用,20碱基ASO探针不能得到重复的结果。尽管G+C含量对双链稳定性具有显著的影响,由于探针序列的限制在探针设计时并不能做太多的选择。研究表明探针的G+C含量低于50%时具有很好的单碱基分辨率。含65%的G+C的探针也可获得较好的单核苷酸分辨率。错配碱基的位点也对双链稳定性有明显的影响。当错配的碱基位于探针序列的中间部位时可以对错配进行最好的区分(Pease等1994;Haria,1999)。因此,错配碱基应该放在ASO探针序列靠近中心的部位以获得最大的分辨率。许多前人的研究已证明芯片杂交方法可以对单核苷酸进行区分。
为检测所有可能的单核苷酸替换,设计了分析基因型的芯片,以4个为一组的探针组来考察感兴趣的靶序列的每个核苷酸位点。其中每组的一个探针(PM)设计成与靶序列的短片段完全匹配,而其它三个探针(MM)除在特定位点被另三个碱基替换外与PM探针一样(图14.1)。例如,PM探针在中心位置有一个T,MM探针在PM的T碱基处分别为A、C和G碱基。一般对一个核苷酸位点要设计两套探针以分别与靶序列的正链和反义链互补。因此,要检测具有N个碱基对的靶序列共需要8N个探针(Hacia,1999)。这种方法被称为标准的Tiling设计。要发现两条链上所有的缺失和插入则需要更多的探针。因此以现在的技术要检测大量的缺失和插入就不大可能(Hacia,1999;Lipshutz等,1999)。
用冗余探针设计的芯片的优势在于可获得高专一性和灵敏度,而大量探针的使用使随机的错误源和杂交信号的波动降到最低程度。
信号增益方法 Gain-of-signal ) 这一方法是比较与突变体(试样)和野生型(对照)序列完全匹配的探针的杂交信号(图14.2)。当一个杂合子突变体样本用荧光染料(如Cy5)标记并与基因分型芯片杂交,与突变序列完全匹配的寡核苷酸探针可观察到杂交信号。这样,相对野生型样本,突变专一的探针杂交信号将获得增益。通过分析杂交信号增益模式即可以确定待测杂合子突变样本的序列变异。然而,以此方法只能测定与芯片上已有的探针互补的突变。另外,信号增益法由于野生型序列与突变体匹配的探针较强的交互杂交,对大片段的缺失和单碱基的插入不敏感。尽管突变探针的杂交可被用于确定序列变化的性质,有时却难获得明确的结果,因此需要能使用另外独立的方法来对序列加以确认(Hacia和Collins,1999)。
信号衰减方法(Loss-of-signal) 这一方法通过定量比较试样与野生型PM探针杂交信号相对于对照样品的杂交信号的衰减来检测序列的变异(图14.2)。理想状态下,完全匹配于野生型序列的探针信号最强,序列改变的杂合子有50%的信号衰减,而突变的纯合子信号将完全消失。
带内标的双色测定已被用于测定野生型PM探针的相对信号衰减(Hacia等,1999,1998)。这项工作中,已知的对照序列和未知的试样序列首次被两种染料标记,如荧光素(绿色)和生物素(红色),并与基因分型芯片共杂交。接下来把两种染料的信号强度标准化,计算对照序列(绿色)和试样序列(红色)与野生型PM探针杂交的信号强度的比值, 最后将这些比值以野生型对照的核酸位点作图来展示序列变异的存在(图14.3)。在相同序列的区域它们的比值应该接近1.0,在有序列变化的区域会观察到一个以突变位点为中心的峰(Hacia等,1996)。理想条件下,杂合子突变会产生一个比值为2.0的峰,因为对照样本中有两个野生型的等位基因而杂合子突变试样中只有一个。由于突变的等位基因与完全匹配于野生型对照序列的探针的交互杂交,它们的比值要低于2.0。实际上,1.2 是评价序列变异的合适的极值(Hacia等,1996)。对于纯合子变化,由于突变体中

