物大分子的三维结构数据库。
2. 直系同源(orthologous)与旁系同源(paralogous) 直系同源:不同物种中具有共同祖先的同源序列。 旁系同源:指单个种类中由于基因复制事件而产生的同源序列。 3. PAM 与 BLOSUM 的含义 PAM:可接受点突变。一个用于衡量蛋白质序列的进化突变程度的单位。1个PAM的进化距离表示蛋白质序列中平均1%的氨基酸残基发生突变的概率。
BLOSUM:模块替换矩阵。在替换矩阵中,每个位置的打分是在相关蛋白局部对比模块中观察到的替换的频率而获得的。
4. 全局序列比对和局域序列比对 全局比对:是指将参与比对的两条序列里面的所有字符进行比对。 全局比对主要被用来寻找关系密切的序列。由于这些序列也都很易通过本地比对方法找到,现在全局比对也有些被认为只是一种技巧。另外,全局比对在应用于分子进化时也有些问题(比如domain shuffling -见下),这也限制了这种方法的可用性。
局部比对:1981年,由F. Smith 和 M.Waterman首次提出局部比对算法,动态规划方法通过较少的改动便可以用来识别匹配的子序列, 并且忽略匹配区域之前或之后的失配和空位;局部比对时,表中小于零的位置用零代替。主要用来考察两序列的某些特殊片段。
5. Needleman-Wunsch 算法和 Smith-Waterman 算法 Needleman-Wunsch 中使用的回溯代码与 Smith-Waterman 中局部比对的回溯代码基本相同,区别只是开始的单元格以及如何知道何时结束回溯。
这导致 Smith-Waterman 算法与 Needleman-Wunsch 算法存在着三个区别。首先,在初始化阶段,第一行和第一列全填充为 0(而且第一行和第一列的指针均为空)。第二,在填充表格时,如果某个得分为负,那么就用 0 代替,只对得分为正的单元格添加返回指针。最后,在回溯的时候,从得分最高的单元格开始,回溯到得分为 0 的单元格为止。除此之外,回溯的方式与 Needleman-Wunsch 算法完全相同。
6. HSPs HSPs:高大分值片段。在一个给定的搜索中,没有空位的局部对比能得到最高的比对打分值。
7. PSI-BLAST 和 PHI-BLAST PSI-BLAST:特定位点迭代BLAST程序。使用BLAST算法进行迭代搜索。初始搜索产生的表达谱会在接下来的搜索中使用。这个过程会根据需要而一直重复,在每个循环中产生的新序列会用来重新定义表达谱。
PHI-BLAST:模式发现迭代BLAST,用蛋白查询来搜索蛋白数据库的一个程序。仅仅找出那些查询序列中含有的特殊模式的对齐。
8. 信号序列或模式 核糖体同内质网的结合受制于mRNA中特定的密码序列(可以翻译成信号肽),具有这种密码序列的新生肽才能连同核糖体一起附着到内质网膜的特定部位。信号序列的两个基本作用是:①通过与SRP的识别和结合, 引导核糖体与内质网结合; ②通过信号序列的疏水性,引导新生肽跨膜转运。
9. 敏感性与特异性 敏感性(sensitive)和特异性(specificity):假设待测序列中有M1条序列是基因序列,剩余的M2条为非基因序列。我们用程序对待测序列进行预测,N条序列被预测为基因,其中有N1条确实为基因,其余N2条不是基因的一部分。敏感性定义为 N1/M1,它表示程序预测的能力。特异性定义为 N1/N,它表示预测结果的可信度。敏感性和特异性往往是一对矛盾,一般以敏感性和特异性的平均值作为评判程序优劣的标准。
10.基因、开放阅读框、CpG 岛、启动子、操纵子、转录终止信号等
基因:有遗传效应的DNA片段,是控制生物性状的基本遗传单位。
开放阅读框(ORF):基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
CpG 岛: 基因组中长度为300~3000 bp的富含CpG二核苷酸的一些区域,主要存在于基因的5′区域。启动子区中CpG岛的未甲基化状态是基因转录所必需的,而CpG序列中的C的甲基化可导致基因转录被抑制。
启动子: RNA聚合酶特异性识别和结合的DNA序列。 启动子是基因(gene)的一个组成部分,控制基因表达(转录)的起始时间和表达的程度。
操纵子: 指启动基因、操纵基因和一系列紧密连锁的结构基因的总称。转录的功能单位。很多功能上相关的基因前后相连成串,由一个共同的控制区进行转录的控制,包括结构基因以及调节基因的整个DNA序列。主要见于原核生物的转录调控,如乳糖操纵子、阿拉伯糖操纵子、组氨酸操纵子、色氨酸操纵子等
转录终止信号: 特指转录过程产生RNA的一段序列所形成的茎-环结构,可特异性地被RNA聚合酶转录复合体识别而使转录终止。
11.推测统计方法与描述统计方法
描述统计学(Descriptive Statistics):研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。
推断统计学(1nferential Statistics):则是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。
12.Domain 、 Motif 、family
Domain:结构域。蛋白质在折叠式与其他部分相独立的一个不连续的部分,他有自己独特的功能。
Motif:序列模式。蛋白质序列中短的保守区域。他们是结构域中保守性很高的部分。
Family:是一系列同源序列的集合,既包括直系同源类似物又包括旁系同源类似物。
三、问答题
1. 有哪三大核酸数据库,它们各由什么机构主持? NCBI :美国国立生物技术信息中心,管理 GenBank 数据库; 日本的DNA数据库(DDBJ)
欧洲生物信息研究所主持的EMBL数据库
2. 分子生物学的中心法则和基因组中心法则? 分子生物学中心法则:DNA—RNA—蛋白质—细胞表型
基因组中心法则:基因组—转录组—蛋白质组--细胞表型
3. NCBI 中的 Blast 程序家族主要包含哪几种主要的程序、各自适用范围和进行 Blast 搜 索的步骤? 程序 查询序列 数据库种类 简述 Blastp 蛋白质 蛋白质 可以找到具有远源进化关系的匹配序列 Blastn 核苷酸 核苷酸 适合寻找分值较高的匹配,不适合远源关系 Blastx 核苷酸 蛋白质 适合新DNA序列和(已翻EST序列的分析 译) TBlastn 蛋白质 核苷酸 适合寻找数据库中(已翻译) 尚未标注的编码区 方法 待搜索蛋白序列与蛋白数据库比较 待搜索核酸序列与核酸数据库比较 将待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较 将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比 无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列 TBlastx 核苷酸 (已翻译) 核苷酸 适合分析EST序列 (已翻译) Blast 搜索的步骤:1.选定感兴趣的序列;2.选择Blast程序;3.选择数据库;4.选择参数。 4. PSI-BLAST 和 PHI-BLAST 搜索的大致步骤?说明 PSI-BLAST 崩溃的原因及防止的措施有 哪些? PSI:1.用常规的blastp在目标数据库中进行对比搜索;2、位点特异性反复比对从第一步得到的结果中构建多序列比对。然后为每个比对建立一个专门的搜索矩阵;3、用第二部得到的定点评分矩阵再一次搜索原来的数据库。4、位点特异性反复比对后永缺失比对的参数检验每个匹配的统计显著性;5、重复二至四步,一般重复5次。 PHI:
5. 如何用 BLAST 来发现一个新基因? 从一个蛋白序列开始,通过tBLASTn工具搜索一个DNA数据库,可以找到相应的匹配,如与DNA编码的已知蛋白质的匹配或者与DNA编码的相关蛋白质的匹配。然后通过BLASTx或BLASTp在蛋白质数据库中搜索DNA或蛋白质序列来“确定”一个新基因
6. 原核生物和真核生物的基因结构的联系与区别是什么? 联系:都是由生物基本单位中的所有核酸序列组成,都有重复序列和单一序列,都是生物的遗传物质等
区别:1、真核生物基因组指一个物种的单倍体染色体组(1n)所含有的一整套基因。还包括叶绿体、线粒体的基因组。
原核生物一般只有一个环状的DNA分子,其上所含有的基因为一个基因组。
2、原核生物的染色体分子量较小,基因组含有大量单一顺序(unique-sequences),DNA仅有少量的重复顺序和基因。
真核生物基因组存在大量的非编码序列。包括:.内含子和外显子、.基因家族和假基因、重复DNA序列。真核生物的基因组的重复顺序不但大量,而且存在复杂谱系。
3、原核生物的细胞中除了主染色体以外,还含有各种质粒和转座因子。质粒常为双链环状DNA,可独立复制,有的既可以游离于细胞质中,也可以整合到染色体上。转座因子一般都是整合在基因组中。
真核生物除了核染色体以外,还存在细胞器DNA,如线粒体和叶绿体的DNA,为双链环状,可自主复制。有的真核细胞中也存在质粒,如酵母和植物。 4、原核生物的DNA位于细胞的中央,称为模核(nucleoid)。 真核生物有细胞核,DNA序列压缩为染色体存在于细胞核中。
5、真核基因组都是由DNA序列组成,原核基因组还有可能由RNA组成,如RNA病毒。
7. 何谓信号肽?信号肽的主要作用是什么? 常指新合成多肽链中用于指导蛋白质的跨膜转移(定位)的N-末端的氨基酸序列(有时不一定在N端)。 作用:决定该蛋白质在内质网内部进入哪一条通路再被定位到合适的地方去。
6. 研究基因表达的传统的实验技术有哪些?高通量研究基因表达的方法又有哪些? 传统实验技术:RNA印迹法、反转录的聚合酶链式反应(RT-PCR)、核糖核酸酶保护分析
高通量研究基因表达方法:1、通过产生表达序列标记,可以构建cDNA文库,并可在UniGene中进行电子比较;2、基因表达序列分析;3、复杂的cDNA混合物可以被放射性或荧光标记,并在含有cDNA或对应于数千个基因的寡核苷酸的DNA微阵列上杂交。
7. cDNA 文库是如何构建的?进行 cDNA 文库的电子比较时的数学基础及需注意的事项是什 么? 构建:信使RNA在3端和oligo(dT)引物杂交,经过反转录得到一个mRNA:cDNA混合体。煮沸是RNA变性后,用DNA聚合酶合成cDNA双链。将接头(即可被限制性内切酶识别的核苷酸序列)加到cDNA上,于是对该cDNA(又称插入片段)和智力或者噬菌体(载体)一起进行合适的消化后,两者可以被连接起来。然后将大肠杆菌转化并经抗生素定抗性筛选,形成cDNA文库。 数学基础: 注意事项:1、注意需偏向较熟悉的组织;2、文库的被测序的程度影响其对原细胞或组织内容的代表能力。3、EST一般仅在双链中的一条链上被测序,而不对两条单链都测序。出错率会更高。4、嵌和序列可能污染cDNA文库
8. 试详细阐述微阵列实验的步骤。 微阵列实验的步骤分为:
该技术的原理是在固体表面上集成已知序列的基因探针,被测生物细胞或组织中大量标记的核酸序列与上述探针阵列进行杂交,通过检测相应位置杂交探针,实现基因信息的快速检测。 DNA微阵列技术的主要流程:
①芯片的制备:DNA芯片的制备方法有光引导原位合成法、化学喷射法、接触式点涂法、原位DNA控制合成、非接触微机械印刷法TOPSPOT和软光刻复制等。目前已能将40万种不同的DNA分子放在1 cm2的芯片上。
②样品的制备:包括样品DNA或RNA的分离提纯和用PCR技术对靶基因片段扩增以及对靶基因标记。
③杂交反应:选择合适的反应条件使生物分子间的反应处于最适反应条件。芯片杂交属固-液相杂交,影响杂交的有诸多因素,其中包括:靶标浓度、探针浓度、杂交双方的序列组成、盐浓度、温度及洗涤条件。
④芯片信号的检测与分析:样品中靶基因与固定在芯片上的探针发生特异性杂交而结合在芯片上的不同点,荧光素分子受特定波长的激发光照射出特定波长的荧光。通过特定的扫描仪获取杂交后的信号,目前用于芯片扫描的芯片扫描仪有:激光共聚焦扫描芯片和CCD芯片扫描仪,得到的数据用一个专门处理系统来对其进行处理,包括芯片数据的统计分析和生物学分析、芯片数据库积累和管理、芯片表达基因的国际互联网上检索和表达基因数据库分析等。
一、 微阵列的实验设计;主要可分为3步进行:1、选出生物样本以供比较,如经过和未经过
药物处理的细胞系。在选择实验对象进行处理时,合适的做法是对其随机分组。2、将RNA提取出来并作放射性或荧光标记。(一般以互补DNA为对象)。3、玻片上阵列元素按随机分布的原则排列。
二、 RNA的制备与探针的制备:运用RPIzol类试剂将RNA提纯;且其纯度、质量等都需要进
行进一步的监控;RNA在被放射性或者荧光染料标记后,可对其进行探测。
三、 将标记后的样本和DNA阵列杂交:即对两个样本中的基因表达模式进行比较。每个样本中
的RNA被施以荧光或放射性标记,形成“探针”。此后使探针在滤片或玻片上的杂交持续一整夜,然后清洗。
四、 图像分析:阵列通过激光激发,测量其荧光强度依次测得Cy5和Cy3通道的数据并得出基
因表达水平的比值。
五、 数据分析:利用微阵列实验最低限度信息计划提供的框架记录6方面信息:实验设计、微
阵列设计、样本(及其制备)、杂交过程、图像分析、为标准化做的调节。
9. 微阵列数据分析的主要步骤
10.蛋白质有哪几级结构?它们形成的原因各是什么? 蛋白质一共有四级结构。分别是初级结构:多肽链中线性的氨基酸残基序列。二级结构:如β折叠等都是由初级结构按一定的规律折叠组装而成。三级结构是有结构域在三维空间按一定的方式排列而成;四级结构则是有几条具有三级结构的肽链组成。
他们形成的原因:一级结构:有基因决定;二级结构:有氨基酸侧链的构象决定。三级结构四级结构书上都没有。。。
11.获得蛋白质三维结构的实验方法和理论预测方法有哪些?评判它们各自的优缺点 现阶段的实验方法是:
1、X射线衍射:蛋白质在足够高的浓度并在合适的条件下形成晶体才能进行(缺点),但他是用于测定蛋白质结构最精确的方法(优点),方法:晶体将X光衍射到探测装置,并通过衍射图像类型推到得到。
2、核磁共振技术:将蛋白质溶液置于磁场中,观察特征性的化学位移,从化学位移中推测蛋白结构。核磁共振优势:不需要复杂的结晶过程,劣势:不够准确 理论预测方法:
(1)同源建模,(1) 同源建模方法:对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型,序列相似性低于30%的蛋白质难以得到理想的结构模型;
(3)在找不到已知结构的蛋白质模板时使用从头预测法:根据序列本身从头预测蛋白质结构。可在没有明显同源时使用,但只能得到低分辨率的结构模型

