HADOOP安装与配置之安装配置篇

2024-11-13 20:15:04

1、环境变量配置设置正确的 JAVA_HOME 环境变量，比如export JAVA_HOME=JDKconf/hadoop-env.sh某些 Hadoop 版本在配置了 IPv6 的计算机上会监听错网络地址，所以需要增加如下一行以屏蔽 java 的 IPv6 功能：export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true

2、配置数据目录和namenode服务地址编辑 conf/core-site.xml<configuration> &造婷用痃lt;property> <name>hadoop.tmp.dir</name> <value>/hadoop/data/hadoop-${user.name}</value> </property> <property> <name>fs.default.name</name> <value>hdfs://192.168.0.10:9000</value> </property></configuration>第一段设置数据的储存位置（相应的目录当前用户应该有全权限），第二段设置 namenode 服务地址，用于跟其他计算机交流。

3、设置JobTracker 服务地址编辑 conf/mapred-site.xml<configuration> <property> <name>mapred.job.tracker</name> <value>192.168.0.10:9001</value> </property></configuration>

4、设置分布式数据备份数编辑 conf/hdfs-site.xml<configuration><propert烤恤鹇灭y> <name>dfs.replication</name> <value>3</value></property><property><name>dfs.http.address</name><value>namenode.host.address:50070</value><description>The address and the base port where the dfs namenode web ui will listen on.If the port is 0 then the server will start on a free port.</description></property></configuration>这段设置一个文件数据在 Hadoop 系统里冗余多少份，一般设置为3。这样一旦有新的文件数据写入 Hadoop，系统会随机将文件分别写入到3台datanode，这样一旦系统中的某一台 datanode 坏掉了（比如硬盘烧了）只需要将这台计算机整台卸下，再换上一台新的计算机到网络即可，数据会自动复制以保证始终有3份数据。这也是分布式储存系统维护方便的原因。

5、配置主机hosts编辑 /etc/hosts ，由于 Hadoop 有时会使用 hostname 访问系统中的其他计算机，而 hostname 有时会解析错误，所以比较笨的方法是在 /etc/hosts 里增加每一台计算机的名称和IP地址。比如：192.168.0.10 master192.168.0.100 data001192.168.0.101 data002192.168.0.102 data003