在Hadoop中运行猪脚本的本地和分布式模式 - 傻瓜

非常有用。在Hadoop中运行第一个Pig脚本之前，需要掌握如何使用Pig服务器打包Pig程序。 Pig有两种运行脚本的模式：

本地模式：

所有的脚本都在一台机器上运行，不需要Hadoop MapReduce和HDFS。这可以用于开发和测试Pig逻辑。如果您使用一小部分数据来开发或测试您的代码，那么本地模式可能比通过MapReduce基础架构更快。 <！ --1 - >
本地模式不需要Hadoop。在本地模式下运行时，Pig程序在本地Java虚拟机的上下文中运行，数据访问通过单个机器的本地文件系统访问。本地模式实际上是Hadoop的LocalJobRunner类中的MapReduce的本地模拟。 MapReduce模式（也称为Hadoop模式）：
Pig在Hadoop集群上执行。在这种情况下，Pig脚本被转换成一系列MapReduce作业，然后在Hadoop集群上运行。
<！ - 2 - > 如果你有一个TB的数据要执行操作，并且你想交互式地开发一个程序，你很快就会发现事情变得非常缓慢，你可能会开始增长你的存储。本地模式允许您以更加交互的方式处理数据的一部分，以便您能够找出您的Pig程序的逻辑（并计算出错误）。