个人理财 在Hadoop中运行猪脚本的本地和分布式模式 - 傻瓜

在Hadoop中运行猪脚本的本地和分布式模式 - 傻瓜

Anonim

非常有用。在Hadoop中运行第一个Pig脚本之前,需要掌握如何使用Pig服务器打包Pig程序。 Pig有两种运行脚本的模式:

本地模式:

  • 所有的脚本都在一台机器上运行,不需要Hadoop MapReduce和HDFS。这可以用于开发和测试Pig逻辑。如果您使用一小部分数据来开发或测试您的代码,那么本地模式可能比通过MapReduce基础架构更快。 <! --1 - >

    本地模式不需要Hadoop。在本地模式下运行时,Pig程序在本地Java虚拟机的上下文中运行,数据访问通过单个机器的本地文件系统访问。本地模式实际上是Hadoop的LocalJobRunner类中的MapReduce的本地模拟。 MapReduce模式(也称为Hadoop模式):

    Pig在Hadoop集群上执行。在这种情况下,Pig脚本被转换成一系列MapReduce作业,然后在Hadoop集群上运行。

  • <! - 2 - > 如果你有一个TB的数据要执行操作,并且你想交互式地开发一个程序,你很快就会发现事情变得非常缓慢,你可能会开始增长你的存储。本地模式允许您以更加交互的方式处理数据的一部分,以便您能够找出您的Pig程序的逻辑(并计算出错误)。

按照自己的意愿设置事项并且操作顺利进行之后,可以使用MapReduce模式针对完整的数据集运行脚本。

在Hadoop中运行猪脚本的本地和分布式模式 - 傻瓜

编辑的选择

记录您的思科网络配置与CDP - 傻瓜

记录您的思科网络配置与CDP - 傻瓜

记录思科网络配置有时没有思科发现协议)可能需要花费数小时在布线室跟踪电缆和记录端口。在某些情况下,配线室是一个真正的老鼠的电缆巢,并且可能需要几个小时的导航才能找出哪些交换机连接到哪个交换机,哪些路由器,...

以太网通道诊断信息收集 - 虚拟

以太网通道诊断信息收集 - 虚拟

诊断思科网络中的以太网通道问题,您首先必须能够收集您的交换机及其配置。为了执行这个任务,你一如既往地依靠Show和debug命令。首先,简要介绍一下show命令的内容。 Switch1> enable Switch1#configure terminal Switch2#show EtherChannel ...

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL)允许您允许拒绝来自特定IP地址的流量到特定的目标IP地址和端口。它还允许您指定不同类型的流量,如ICMP,TCP,UDP等。不用说,它非常细化,可以使您非常具体。如果...

编辑的选择

电子项目计划步骤1:设想您的电子项目 - 傻瓜

电子项目计划步骤1:设想您的电子项目 - 傻瓜

设计和建立你的电子项目的细节,你应该退后一步,看看大局。首先,你需要确保你有一个坚实的想法为您的项目。你为什么要建立它?它会做什么,谁来使用它,为什么? ...

电子项目计划步骤4:构建您的电路 - 傻瓜

电子项目计划步骤4:构建您的电路 - 傻瓜

而且你对它的操作感到满意,你可以建立一个永久版本的电路。虽然有几种方法可以做到这一点,但最常见的是在印刷电路板(也称为PCB)上构建电路。请注意,在PCB上组装电路...

电子项目计划步骤3:原型电路 - 假人

电子项目计划步骤3:原型电路 - 假人

永久的电路板,你会想确保它的工作。最简单的方法就是在无焊面包板上构建电路。无焊料面包板可以让您快速组装电路元件而不需要焊接任何东西。相反,您只需将其裸露在外...

编辑的选择

如何替换R中的文本 - 虚拟变量

如何替换R中的文本 - 虚拟变量

R中的sub()函数在文本模式,并用替换文本替换此模式。你使用sub()来替代文本文本,并使用其表兄gsub()来替换所有出现的模式。 (gsub()中的g表示全局。)假设你有句子He ...

中如何成功地遵循命名惯例在R - 傻瓜

中如何成功地遵循命名惯例在R - 傻瓜

R是非常自由的,对象和功能。这个自由是一个很大的祝福,同时也是一个很大的负担。没有人不得不遵循严格的规则,所以在R中编程的人基本上可以按照自己的意愿去做。如何选择一个正确的名字...

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

再次使用前面显示的Source()命令将其加载到控制台中。现在你看...什么也没有。 R并不让你知道它已经加载了这个函数,但它已经在工作空间中了,你可以检查一下...