用大的空位罚分方法获得。Karlin-Altschul统计学为描述随机的HSP分值的分布提供了数学理论,概率密度函数形式被称为极值分布,这很值得注意,因为,更普遍更一般的分布的应用可能会夸大它的重要性,把一个已知得比对分值S同预期的分布相关联可能会计算出P值,从而给出这个分值的比对显著性的可能性。通常,P值越趋近于零,分值越有意义。
相关的变量E表示分值不低于S得可能的比对数量,而极值分布由两个参数表示,即K和λ,可以得到解析解,并且对于任何打分系统以及背景频率都是固定的。比对的显著性依赖于搜索空间的大小(就像在草堆中找针依赖于草堆的大小)。搜索空间的大小由序列长度计算出来,但由于统计的正确性,这个长度必须由局部比对的预期长度进行校正,以免出现边缘效应(Altschul and Gish,1996),需要进行这种校正还因为在搜索空间边缘开始的比对在达到一个有效分值之前就会超出序列的范围。
把比对局限于没有空位的基础之上,使问题大大简化,但是却脱离分子生物学的实际情况。实际上,要建立一个插入和缺失的精确模型需要空位,但如果空位相对较少,在这些空位之间仍然可以获得高分值区域,有代表性的是可能会获得紧密相邻的HSP,在这种情况下,从总体上去评估它的显著性是较为合理的,也许,每个片段并不显得很重要,但是几个片段同时出现就不太像是偶然事件了。Karlin-Altschul加和统计学可以计算N个HSP的统计值,这个方法的实质是把N个最佳片段的分值进行加总,从而计算事件偶然发生的可能性,其它一些论据也被用来确认这些分值只是在片段与比对一致的情况下进行加总。虽然加总的分值分布与HSP分值最大值有差异,仍然可以得到解析解。
最后,仍然有必要对局部排队的显著性进行合理评估,其中包括了模型中的空位。正如同传统的Smith-waterman比对,虽然没有先验的证据,人们仍然认为这些比对的分值也应该遵循极值分布,但是,分布参数K和λ的值不能通过计算获得,当然,通过模型获得这些值的方法已经被大大地发展了。
数据库中的相似性搜索
上述讨论主要集中于那些较为特别的匹配的序列,但是对于一个新发现的序列,我们无法得知用什么序列同它进行比对,数据库相似性搜索使我们能够从数据库中存在的数十万个序列中挑选出可能同感兴趣的序列有关联的序列,这个方法有时会导致意想不到的收获。用这种策略获得成功的第一个例子是人们因此发现病毒肿瘤基因v-sis是细胞中编码血小板派生生长因子的基因的一个变体形式(Doolittle et al., 1983; Waterfield et al., 1983)。那个时候,序列数据库还不大,因此这个发现足以另人感到万分惊奇。然而今天如果进行数据库搜索并且一无所获的话,那就更另人感到费解了。如同其它几个小的物种基因组一样,酵母saccharomyces cerevisiae的基因组全序列已经被测定出来。在脊椎动物中,大量的部分基因诸如人类和老鼠的基因都已经被测定并存入基因库(genebank)中,这也导致了表达序列标签(EST)工程。EST片段的主要用途是在数据库搜索中,用EST片段进行cDNA克隆可以分离出感兴趣的基因,包括其它模型生物中的同源基因。最近报导的多重内分泌腺肿瘤(MENI)基因就和人与老鼠的多个EST片段相匹配,其中之一在MENI发表前一年就已经入库保存了(Chandrasekharappa et al., 1997)。
在数据库搜索中,基本操作就是将查询序列和数据库中的主题序列作比对。比对结果是排列好的hit list,后面是一系列的单独的比对情况,以及不同的分值和统计值(如图7.9)。下文将会详细介绍选择不同的搜索程序、序列数据库和不同的参数都会对搜索产生影响,而且还有不同的界面,比如操作台命令、WWW形式和E-mail等。图7.10给出了一个使用Web界面进行数据库搜索的例子。这种形式的一个优点就是对任何一个感兴趣的比对,全部注解和文献应用都可以通过超文本简单方便地联接至原始的序列条目和相关的在线文献。
a
The best score are: initn initl opt z-sc E(59248)
gi|1706794|sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE 996 996 996 1350.4 0
gi|1703339|sp|P49776|APH1_SCHPO BIS(5’-NUCLEOSYL) 431 395 395 536.2 2.8e-23
gi|1723425|sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 290 171 316 428.1 2.9e-17
gi|1724021|sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 178 178 184 250.7 2.2e-07
gi|417124|sp|Q04344|HIT_YEAST HIT1 PROTEIN (ORF U 159 104 157 216.2 1.8e-05
gi|418447|sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 139 139 140 195.0 0.00028
gi|1351828|sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 132 132 133 183.9 0.0012
à gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHA 97 97 128 169.7 0.0072
gi|418446|sp|P32083|YHIT_MYCHR HYYPOTHETICAL 13.1 102 102 119 166.8 0.01
gi|1708543|sp|P49773|IPK1_HUMAN PROTEIN KINASE C 87 87 118 164.5 0.0014
gi|1724020|sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 131 82 117 161.5 0.02
gi|1724019|sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT- 98 98 116 161.5 0.02
gi|1170581|sp|P16436|IPK1_BOVIN PROTEIN KINASE C 86 86 115 160.4 0.023
gi|1730188|sp|Q03249|GAL7_MOUSE GALACTOSE-1-PHOSP 87 87 120 159.3 0.027
gi|1177047|sp|P42856|ZB14_MAIZE 14 KD ZINC-BIODIN 132 79 112 156.3 0.04
gi|1209081|sp|P07902|GAL7_HUMAN CALACTOSE-1-PHOSPH 78 78 117 154.8 0.048
gi|1177046|sp|P42855|ZB14_BRAJU 14 KD ZINC-BINDIN 115 76 110 154.5 0.05
gi|140775|sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 115 65 109 152.6 0.064
gi|1169852|sp|P31764|GAL7_HAEIN GALACTOSE-1-PHOSP 62 62 104 137.9 0.42
gi|113999|sp|P16550|APA1_YEAST 5’,5’’’-P-1,P-4-TE 108 66 103 137.1 0.47
b
>>gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHATE UR (379 aa) initn: 97 init1: 97 opt: 128 z-score: 169.7 E(): 0.0072 Smith-Waterman score: 128; 30.8% identity in 107 aa overlap 10 20 30
FHIT MSFRFG-QHLIKPSVVFLKTELSFALVNRKPV ...: X.:.. . : .: ..:: :
GAL7 VWASNFLPDIAQREERSQQTYHNQHGKPLLLEYGHQELLRKERLVLTSEYWIVLVPFWAV 190 200 210 220 230 240 40 50 60 70 80
FHIT VPGHVLVCPLRPVERFHDLRPDEVADLFQTTQRVGTVVEKHFHGTSLTFSM—QDGP--- : ..:. : : :.:. .: : : :: .: ... : .. X. ::. .:: . .:
GAL7 WPFQTLLLPRRHVQRLPELTPAERDDLASTMKKLLTKYDNLFE-TSFPYSMGWHGAPMGL 250 260 270 280 290 300 90 100 110 120 130 140
FHIT EAGQTVKH--VHVHVLPRKAGDFHRNDSIYEELQKHDKEDFPASWRSEEEMAAEAAALRV ..: : : .:.: :
GAL7 KTGATCDHWQLHAHYYPPLLRSATVRKFMVGYEMLAQAQRDLTPEQAAERLRVLPEVHYC 310 320 330 340 350 360
图7.9:进行FASTA搜索的输出:(a)用人类组氨酸三联体蛋白作为(Swiss-Prot P.49789)查询序列,以Swissprot数据库为基础,进行FASTA搜索所得到的命中结果,在这个操作中,参数ktup=1;(b).以数据库中的一个条款(在命中列表中以箭头标出)为查询序列(其中包含老鼠的1-磷酸-半乳糖尿苷酸转移酶序列)所得到的最佳局部比对结果。虽然在这里,序列的相似性不太好,但是这些蛋白在结构上都显示了很好的相似性。
7.10:在WWW上进行数据库相似性搜索:NCBI数据库搜索的高级BLAST形式,在Web网页上容易实现。查询序列应该由剪切板中粘贴到最大的文本框中,(在本图中,框中显示的是U43746序列)。搜索中另外一
些基本的元素包括搜索程序的名字以及数据库的名字,这两个元素都可以通过下拉框选择。如果需要的话,可以设定附加的选项参数。这里还有一个基本的BLAST形式,当然高级的选项参数被隐藏起来了。最后,简单地点击一下“Submit”键,提交请求后就可以开始搜索了。
如今的序列数据库非常之大,并且正以爆炸式的速度不断增长,在这种条件下,利用动态程序的方法直接进行数据库搜索已经变得不切实际。一个解决方法就是使用大型计算机和相关的特殊硬件,但是我们要讨论的目的是普通计算机能干些什么。当最佳方法不可行时,我们必须求助于那些启发式方法,这些方法充分利用了近似值以加快序列比较,但同时会在错过正确比对这一方面冒一点险。
有一种启发式方法建立在这样的策略之上,它将序列分解成由连续字母组成的短串(称为字串)。基于字的方法,在八十年代早期由Wilbur和Lipman提出,并且广泛使用于今天的搜索程序之中。其基本思想是这样的,一个能够揭示出正确的序列关系的比对至少包含一个两个序列都拥有的字串,把查询序列中的所有字串编成索引,并且在数据库扫描中查询这些索引,这些击中的字串就会很快被鉴定出来。
FASTA
FASTA程序是第一个广泛使用的数据库相似性搜索程序。为了达到较高的敏感程度,程序引用取代矩阵实行局部比对以获得最佳搜索。但众所周知,使用这种策略会非常耗费工作时,为了提高速度,在实施耗时的最佳搜索之前,程序使用已知的字串检索出可能的匹配。在速度和敏感度之间权衡选择依赖于ktup参数,它决定了字串的大小。增大ktup参数就会减少字串命中的数目,也就会减少所需要的最佳搜索的数目,提高搜索速度。缺省的ktup值在进行蛋白比较时选择2,但是在间距较大的情况下,将ktup值降为1较为理想。
FASTA程序并不会研究每一个遇到的字串命中,但在一开始会寻找包含若干个附近的命中的片段。使用启发式方法,这些片段会被赋予分值,最好的一个在输出时会显示为init1分值,这若干个片段会被组合起来,一个新的initn分值会从中计算出来。然后在最好的初始片段中局限于其对角线带上,会进行一次包含空位的局部比对以评估最可能的匹配。这个最佳比对的分值会在输出时显示为opt分值。对最后报导的比对来说,还要进行一次全程的Smith-Waterman比对。图7.9b显示了一个例子。对数据库中的每一个序列都只会由一个最佳的比对,但是,如果蛋白质中包含若干个模块,一些很有意义的比对就会被错过,匹配序列还必须由LALIGN程序作进一步分析。
从2.0版本开始,FASTA对每一个检索到的比对都提供一个统计学显著性的评估。程序为随机分值假定了一个极值分布,但是改写了概率密度函数的形式,其中预期的分值与数据库中的序列长度的自然对数呈线形关系,这样,可以使用简单的线形回归函数计算常规的比对的z值。最后,计算出预期的E值,从而给出那些z值不小于已知值的随机比对的预期数目。
BLAST
BLAST程序对数据库搜索进行了大量的改良,提高了搜索速度,同时把数据库搜索建立在了严格的统计学基础之上。但是,为了达到这一目的,仍然需要权衡选择,也就是说,局部比对的限制条件可能不包括空位。这个限制条件对应用Karlin-Altschul统计学极为有利,另一方面,既然空位没有明确地放在模型中,

