非常有用。在Hadoop中运行第一个Pig脚本之前,需要掌握如何使用Pig服务器打包Pig程序。 Pig有两种运行脚本的模式:
本地模式:
-
所有的脚本都在一台机器上运行,不需要Hadoop MapReduce和HDFS。这可以用于开发和测试Pig逻辑。如果您使用一小部分数据来开发或测试您的代码,那么本地模式可能比通过MapReduce基础架构更快。 <! --1 - >
本地模式不需要Hadoop。在本地模式下运行时,Pig程序在本地Java虚拟机的上下文中运行,数据访问通过单个机器的本地文件系统访问。本地模式实际上是Hadoop的LocalJobRunner类中的MapReduce的本地模拟。 MapReduce模式(也称为Hadoop模式):Pig在Hadoop集群上执行。在这种情况下,Pig脚本被转换成一系列MapReduce作业,然后在Hadoop集群上运行。
-
<! - 2 - > 如果你有一个TB的数据要执行操作,并且你想交互式地开发一个程序,你很快就会发现事情变得非常缓慢,你可能会开始增长你的存储。本地模式允许您以更加交互的方式处理数据的一部分,以便您能够找出您的Pig程序的逻辑(并计算出错误)。
按照自己的意愿设置事项并且操作顺利进行之后,可以使用MapReduce模式针对完整的数据集运行脚本。