高通量数据处理的一些经验和建议

2026/4/29 7:05:16

这些是mothur H-Z的目前所有命令的说明的翻译，第二部分。（使用Ctrl+F搜索你所查命令）

参看http://www.mothur.org/wiki/Category:Commands 页面上查阅的所有命令我查了一下网上的中文教程，似乎没有。

现在国内使用Mothur的人还很少，不过国外有不少做生态的都用到mothur了。毕竟有很多都是命令行操作。

前天我还搜到了一个印度人在网上发的询问帖子，想问哪里有关于mothur的简单教程呢，他说mothur官方网站的教程有点难，看不太懂。

今天这些命令里有三个可能会比较常用，一个是help，就类似于Linux中的man命令，也就是你在windows中常见的帮助文件。

还有两个，sffinfo和pipeline.pds，在处理sff文件时会用上。

其中sffinfo就能将sff文件转化为fasta格式的文件，fasta是mothur处理的文件中最常见的格式。

由于最近我要处理一个sff文件，所以特别关注了与sff有关的命令，呵呵。

Hcluster

这个命令可以用来给OTUs分配序列，并输出一个.list, .rabund, .sabund和.sorted.dist文件。它不会像cluster命令那样把距离矩阵（distance matrix）保存在RAM(随机存储器)中，允许大距离文件被处理。Hcluster对小文件的处理比cluster要慢，但在大文件上更有竞争力。目前，hcluster实行4种成簇方式：

1.最近相邻：一个OTU内的每个序列与OTU中最相似的序列有最多X%的距离。 2.最远相邻：一个OTU内的所有序列与OTU内的其它序列有最多X%的距离。 3.平均相邻：这个方法介于其他两种方法之间的水平 4.重量相邻： Heatmap.bin

这个命令从一个*.list或*.shared文件提供的数据生成一个heat map。heatmap中的每一行呈现一个不同的OTU，每个组中的OTU的颜色根据那个组内那个OTU的丰富度在黑与红之间形成成比例。这个命令会生成一个SVG文件（图片格式），它可以在GIMP或Adobe Illustrator中被进一步修改。有一些选项用于为每个采取不同方法的OTU相对丰度按比例绘制或排列。 Heatmap.sim

这个命令将会产生一个表明多个样本之间成对相似性的heatmap，采用了多个对比群落成员和结构的calculators（http://www.mothur.org/wiki/Calculators） Help

help命令将会输出mothur中有效命令的表单。或者，如果你想要针对一个特定命令的帮助信息，用help作为选项，比如 mothur > read.list(help)，就会输出read.list的帮助信息。 Homova

分子方差的同质性（Homogeneity of molecular variance）是一个为方差同质的Bartlett's test的非参数模拟，这已经被用于种群遗传学，检测以下假设：两个或多个种群的基因多样性是同类的或同质的（Stewart and Excoffier，1996）;这个测试还没有用于微生物生态学文献。 Indicator

这个命令可以三种方式运行：

1.用一个shared或relabund文件和一个design文件

2.用一个shared或relabund文件和一个tree文件 3.用一个shared或relabund，tree文件和design文件

Indicator命令输出一个.indicator.summary文件和一个.indicator.tre文件，如果给了一个tree。新的tree在每个内部的节点包含了标签。标签是节点号码，所以你可以把tree关联到summary文件。Summary文件为每个OTU的每个节点列出了indicator的值。 Libshuff

这个命令像以前在s-libshuff和libshuff程序中那样实施libshuff方法。libshuff法是一个描述两个或更多群落是否拥有相同结构的通用测试，采用Cramer-von Mises检测统计。这个检测统计值的显著性表明了群落（偶然）拥有同样结构的可能性。因为每个成对的对比需要两个显著测试，所以为多个对比进行一个矫正（比如Bonferroni's correction）。 List.seqs

这个命令将会写出在一个fasta，name，group，list或align.report文件中发现的序列名字。这对于使用get.seqs，remove.seqs命令和生成group文件时有用。 Make.biom

make.biom命令让你把你的shared文件转换为一个biom文件。关于biom格式：http://biom-format.org/documentation/biom_format.html Make.fastq

这个命令读取一个fasta和一个quality文件并创建一个fastq文件。 Make.group

这个命令读取一个fasta文件或一系列fasta文件，并创建一个group文件。 Make.shared

这个命令读取一个list和group或biom文件，并为每个group创建一个.shared和一个rabund文件。 Mantel

Mantel命令计算两个矩阵的mantel相关系数。Sokal, R. R., & Rohlf, F. J. (1995). Biometry, 3rd edn. New York: Freeman. Merge.files

这个命令将把多个文件连结（使连续）起来并把结果输出到一个新文件。这对于合并多个fasta格式的序列文件，454 quality文件，group文件，name文件或其它等等是有用的。 Merge.groups

这个命令读取一个shared文件和一个design文件并把shared文件中同样也在design文件中分组的groups合并。 Metastats

这个命令基于White.J.R.，Nagarajan.N.和Pop.M.开发的Metastats程序。统计方法用来检测客观宏基因组样本的差异丰度特征。 Mgcluster

该命令解释暂无，需要blast参数，官方网站有使用方法。 http://www.mothur.org/wiki/Mgcluster Nmds

这个命令是Sarah Goslee在R（http://www.r-project.org/）中所写nmds代码的模型化。采用非矩阵多维尺度分析功能，使用的Borg & Groenen的优化算法。 Normalize.shared

这个命令创建一个.norm.shared文件。 Otu.association

这个命令计算一个shared/relabund文件中的OTUs的相关系数。 Otu.hierarchy

这个命令把不同距离上的OTUs关联起来。 Pairwise.seqs

这个命令将计算序列之间不正确的成对距离。这会生成一个列格式的距离矩阵，与read.dist中的列选项兼容。这个命令也能产生一个phylip格式的距离矩阵，关于如何操作gap对比和末端gaps有多个选项。 Parse.list

这个命令读取一个list文件和group文件，并为group文件中的每个group生成一个list。 Parsimony

这个命令采用parsimony方法（aka P-test），以前在TreeClimber中使用过，现在在MacClade和UniFac网站中也有。这个Parsimony方法是一个通用的检测，用来描述两个或更多群落是否拥有同样的结构。检测统计值的显著性只表明群落随机具有相同结构的可能性。这个值不表明相似度水平。 Pca

运行这个命令需要一个shared或relabund文件。 Pcoa

需要一个plylip格式的距离矩阵文件。 Pcr.seqs

这个命令将根据用户自定义的选项修剪输入的序列。 Phylo.diversity

这个命令需要输入一个tree文件。两个文件将被输出：phylo.diversity和（如果你设置rarefy=T）.rarefaction。 Phylotype

这个命令可根据他们的分类用于给OTUs分配序列，输出一个.list，.rabund和.sabund文件。 Pipeline.pds

这个命令被设计用于指导你使用mothur（完成）通过你的分析。为了展示这个命令的各种特性，我们将使用Pat's Pipeline Files(点击下载

http://www.mothur.org/w/images/0/0f/Pipeline.tutorial.zip) Pre.cluster

这个命令执行一个移除序列这个目标的假单链接算法，之所以移除这些序列，由于焦磷酸测序过程的错误。这个算法的一个版本是由Sue Huse开发，将在接下来的环境微生物学一篇论文中发表。基本的理念是丰富的序列比稀少序列更可能产生一些错误序列。考虑到这些，这个算法根据它们的丰富度给序列排名。然后大略读过序列表单在原始序列的一些阈值内以寻找更稀少的序列。在阈值内的那些序列与更大的序列合并。最初的Huse方法在一个距离矩阵上完成这个任务，然而现在我们基于原始序列做这个。我们的方法的优点是这个算法在排列的序列上完成而不是距离矩阵。因为通过pre-clustering你移除了大量的序列使距离计算更为快速。 Quit

quit 命令没有选项，可带或不带括号调用。 Rarefaction.shared

这个命令将产生使用，无需更换方法重新取样的样品间稀疏曲线。生态学家用稀薄

（rarefaction）的传统方式是没有内随机样本的抽样秩序，而样本之间。举例来说，如果我们想知道OTU在人类结肠癌的数量，我们可以从结肠内，不同地点取样和测定一堆16S

rRNA基因序列。通过确定个OTU在每个样品的数量，并比较这些样品的组成，就有可能确定你们在单个范围内的生物多样性的采样的好坏。 mothur有能力观察到的物种数量的样品间稀疏曲线生成数据。对于本教程，你应该下载并解压缩Patient70Data.zip（http://www.mothur.org/w/images/b/b2/Patient70Data.zip） Rarefaction.single

这个命令将会产生样本内的rarefaction曲线，采取无需更换方法的重新采样。Rarefaction曲线提供一个对比不同样品中的观察到的丰度的方法。大体来说，如果你没有采的许多个体作样本你将期望已经观察了你平均获得的OTUs的数目。尽管有一个公式可产生rarefaction曲线（参看http://www.mothur.org/wiki/Rarefaction），但mothur使用随机步骤。它也能帮你评估你的样本密度（强度）。如果一个rarefaction曲线变得与X轴平行，你可以合理相信你的采样工作做的很好，而且相信观察到的丰富度水平。否则，你需要继续采样。Rarefaction实际上对多样性的测量比它对丰度的测定更好。 Read.dist

注意：从mothur1.18.0开始，read.list命令不复存在。你可以直接输入你的距离矩阵文件的名称到命令行中来使用它们。 Read.tree

注意：从mothur1.18.0开始，这个命令不复存在，你可以直接输入文件名字到命令行来使用它们。

Remove.groups

这个命令从一个特定的group或一套groups中移除序列。你可以输入一下这些文件类型：fasta, name, group, list, taxonomy和shared。 Remove.lineage

这个命令读取一个taxonomy文件和一个taxon，并生成一个新的文件，只包含不在taxon中的序列。你也可以把一个fasta，name，group，list，或align.report文件包括到这个命令中，mothur将会为每个生成新的“只包含不在taxon中的序列”的文件。 Remove.otus

这个命令删除这样的OTUs，它们含有“来自特定group或一套groups的序列”。 Remove.rare

这个命令读取以下文件类型之一：list，rabund，sabund或者shared文件，它输出一个删除了稀有OTUs的新文件。 Remove.seqs

这个命令把一个list中的序列名称和一个fasta, name, group, list或align,report文件生成一个新的文件，不包含list中的序列。这个命令与list.seqs连结对于显示序列集群（collection）有帮助。 Reverse.seqs

提供一个fasta格式的文件，reverse.seqs将生成一个包含有它们互补序列的文件。 Screen.seqs

高通量数据处理的一些经验和建议.doc 将本文的Word文档下载到电脑

下载这篇word文档