Spark集群搭建与测试 - 图文

2026/4/25 16:11:17

注：Yarn是Hadoop推出整个分布式（大数据）集群的资源管理器，负责资源的管理和分配，基于Yarn我们可以在同一个大数据集群上同时运行多个计算框架，例如Spark、MapReduce、Storm。

10. 启动并验证hadoop集群：

a. 格式化hdfs文件系统：hadoopnamenode –format/hdfsnamenode -format

该命令会启动，格式化，然后关闭namenode。实际上格式化后，在namenode上会生成以下文件：

其中VERSION文件的内容如下：

该命令不会在datanode的dfs.datanode.data.dir对应的目录下生成任何文件：

有关该命令的细节请参考官方文档：

http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#namenode

b. 启动hdfs: start-dfs.sh

使用jps验证HDFS是否启动成功：

通过webui检查HDFS是否启动成功

http://master:50070

注1：实际上第一次启动hdfs后，在datanode的dfs.datanode.data.dir对应的目录下会生成current目录，该目录下的BP文件与namenode上

dfs.namenode.name.dir对应的目录下的current子目录的VERSION文件中的blockpoolID字段的值一致；在该目录下也会生成VERSION文件，该VERSION文件中的clusterID和namenode的dfs.namenode.name.dir对应的目录下的current子目录的VERSION文件中的clusterID一致：

实际上在后续执行了hdfsnamenode –format后，namenode的VERSION文件会改变：

而dananode的BP和VERSION文件都不会改变：

再次start-dfs.sh时，namenode可以成功启动，但在datanode上，因为version文件与namenode的不一致，datanode不能成功启动并成功注册到namenode！所以：每次执行hdfsnamenode–format前，必须清空datanode的data文件夹！(namenode的name文件夹不需要清空，namenode和datanode的tmp文件夹也不需要空。)

Spark集群搭建与测试 - 图文.doc 将本文的Word文档下载到电脑

下载这篇word文档