PIG之 Hadoop 2.7.4 + pig-0.17.0 安装-白红宇

PIG之 Hadoop 2.7.4 + pig-0.17.0 安装

阅读量：6478 次

发布时间：2019-06-23

本文共 1141 字，大约阅读时间需要 3 分钟。

首先: 参考 http://blog.csdn.net/zhang123456456/article/details/77621487 搭建好hadoop集群。然后，在master节点安装pig。

我们用MapReduce进行数据分析。当业务比较复杂的时候，使用MapReduce将会是一个很复杂的事情，比如你需要对数据进行很多预处理或转换，以便能够适应MapReduce的处理模式,另一方面，编写MapReduce程序，发布及运行作业都将是一个比较耗时的事情。

Pig的出现很好的弥补了这一不足。Pig能够让你专心于数据及业务本身，而不是纠结于数据的格式转换以及MapReduce程序的编写。本质是上来说，当你使用Pig进行处理时，Pig本身会在后台生成一系列的MapReduce操作来执行任务，但是这个过程对用户来说是透明的。

Pig的安装

Pig作为客户端程序运行，即使你准备在Hadoop集群上使用Pig，你也不需要在集群上做任何安装。Pig从本地提交作业，并和Hadoop进行交互。

1）下载Pig

前往http://mirror.bit.edu.cn/apache/pig/ 下载合适的版本，比如 pig-0.17.0.tar.gz

2）解压文件到合适的目录

[root@hadp-node1 hadoop]# tar -zxvf pig-0.17.0.tar.gz -C /usr/local/hadoop/

3）设置环境变量

export PIG_HOME=/usr/local/hadoop/pig-0.17.0

export PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop/ #显式设置HADOOP_HOME变量，确保库和你实际使用的HADOOP版本兼容

export PATH=$PATH:$PIG_HOME/bin

如果没有设置JAVA环境变量，此时还需要设置JAVA_HOME，比如：

export JAVA_HOME=/usr/local/jdk1.7.0_51

说明：

PIG_CLASSPATH变量是PIG配置MapReduce模式，让Pig软件找到Hadoop集群，这里是告诉pig软件hadoop的配置文件在哪里，通过一系列配置文件core_site.xml hdfs-site.xml mapred-site.xml 可以找到关键参数NameNode 和 JobTracker 的位置以及端口信息，有了这些信息就可以对整个集群进行控制了。

4）验证

执行以下命令，查看Pig是否可用：如图，可用

pig –help

转载于:https://www.cnblogs.com/andy6/p/8372440.html

你可能感兴趣的文章