个人理财 设置Hadoop环境如果您愿意使用VM和Linux,可以使用Apache Bigtop设置Hadoop环境 - 傻瓜

设置Hadoop环境如果您愿意使用VM和Linux,可以使用Apache Bigtop设置Hadoop环境 - 傻瓜

目录:

视频: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox 2025

视频: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox 2025
Anonim

如果您愿意使用虚拟机和Linux,请随意将Bigtop安装在不同于推荐的虚拟机上。如果你真的大胆并拥有硬件,请继续尝试以完全分布式模式将Bigtop安装在一组机器上!

步骤1:下载虚拟机​​

Hadoop在所有流行的Linux发行版上运行,因此您需要一个Linux虚拟机。有一个免费的(和合法!)可用的CentOS 6图像。

<! - 1 - >

为了运行这个虚拟机,你需要在你的笔记本电脑上安装一个64位的操作系统。 Hadoop需要一个64位的环境。

下载完虚拟机之后,将其从下载的Zip文件中提取到目标目录中。确保你有大约50GB的可用空间作为Hadoop,你的示例数据将需要它。

如果您还没有VM播放器,则可以免费下载一个。

设置完VM Player之后,打开播放器,进入文件→打开,然后进入解压缩Linux VM的目录。寻找一个叫做的文件并选择它。您将看到有关多少个处理器以及它将使用多少内存的信息。找出您的计算机有多少内存,并分配一半的虚拟机使用。 Hadoop需要大量的内存。

准备好后,点击Play按钮,你的Linux实例就会启动。在Linux启动的时候,你会看到很多消息,你会来到一个登录界面。用户名已被设置为“Tom”。 “将密码指定为”tomtom“并登录。

步骤2:下载Bigtop

在您的Linux VM中,右键单击屏幕并从出现的上下文菜单中选择在终端中打开。这将打开一个Linux终端,您可以在其中运行命令。在终端内单击以便您可以看到光标闪烁并输入以下命令:su -

你会被要求输入密码,所以像你之前输入的“tomtom”一样。此命令将用户切换到root用户,这是Linux计算机的主帐户 - 您需要安装Hadoop。

使用root访问权限(不要让权力到达您的头部)运行以下命令:

wget -O / etc / yum。回购。 d / Bigtop发送。 repo 

http:// www。阿帕奇。组织/ DIST / Bigtop发送/ bigtop-

0。 7. 0 / repos / centos6 / bigtop。 repo

该命令本质上是一个web请求,它会请求URL中的特定文件,并将其写入特定的路径 - 在这种情况下,就是/。

步骤3:安装Bigtop

对于需要安装像Hadoop这样的大型软件包的人来说,Linux背后的天才已经变得非常容易了。您在最后一步下载的内容不是整个Bigtop软件包及其所有依赖项。这只是一个 存储库文件 (带有扩展名),它告诉安装程序Bigtop安装需要哪些软件包。像任何大型软件产品一样,Hadoop有很多先决条件,但是您不必担心。一个精心设计的文件将指向任何依赖关系,安装程序是足够聪明,看看他们是否缺少您的计算机,然后下载并安装它们。

你在这里使用的安装程序被称为yum,你现在就可以看到:

yum install hadoop * mahout * oozie * hbase * hive * hue * pig * zookeeper *

选择并选择要安装的Hadoop组件。 Bigtop中还有其他一些组件,但这些是您在这里使用的唯一组件。由于虚拟机是新鲜的Linux安装,因此您需要很多依赖关系,所以您需要稍等一下。

yum安装程序非常冗长,所以您可以精确地观察下载和安装的内容以消磨时间。安装过程完成后,您应该看到一条消息“完成! “

第4步:启动Hadoop

在开始在Hadoop上运行应用程序之前,需要做一些基本的配置和设置工作。在这里他们是为了:

下载并安装Java:

  1. yum install java-1。 7. 0-openjdk-devel。 x86_64

    格式化NameNode:
    
  2. sudo / etc / init。 d / hadoop-hdfs-namenode init

    为您的伪分布式集群启动Hadoop服务:
    
  3. for hadoop-hdfs-namenode hadoop-hdfs-datanode;做sudo服务$我开始;完成

    在HDFS中创建一个子目录结构:
    
  4. sudo / usr / lib / hadoop / libexec / init-hdfs。 sh

    启动YARN守护进程:
    
  5. sudo service hadoop-yarn-resourcemanager startsudo service hadoop-yarn-nodemanager start

然后就完成了。恭喜!您已经安装了可用的Hadoop部署!

步骤5:下载样本数据集

要下载样本数据集,请从虚拟机内打开Firefox浏览器,然后进入dataexpo页面。

您不需要整个数据集,所以从1987年开始。当您要下载时,请选择“使用存档管理器打开”选项。

文件下载后,将文件解压缩到您的主目录,您可以轻松找到它。点击Extract按钮,然后选择桌面目录。

步骤6:将样本数据集复制到HDFS

请记住,您的Hadoop程序只能在HDFS中存储数据后才能使用。那么你现在要做的是把1987年的飞行数据文件复制到HDFS中。输入以下命令:

hdfs dfs -copyFromLocal 1987. csv / user / root

设置Hadoop环境如果您愿意使用VM和Linux,可以使用Apache Bigtop设置Hadoop环境 - 傻瓜

编辑的选择

记录您的思科网络配置与CDP - 傻瓜

记录您的思科网络配置与CDP - 傻瓜

记录思科网络配置有时没有思科发现协议)可能需要花费数小时在布线室跟踪电缆和记录端口。在某些情况下,配线室是一个真正的老鼠的电缆巢,并且可能需要几个小时的导航才能找出哪些交换机连接到哪个交换机,哪些路由器,...

以太网通道诊断信息收集 - 虚拟

以太网通道诊断信息收集 - 虚拟

诊断思科网络中的以太网通道问题,您首先必须能够收集您的交换机及其配置。为了执行这个任务,你一如既往地依靠Show和debug命令。首先,简要介绍一下show命令的内容。 Switch1> enable Switch1#configure terminal Switch2#show EtherChannel ...

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL)允许您允许拒绝来自特定IP地址的流量到特定的目标IP地址和端口。它还允许您指定不同类型的流量,如ICMP,TCP,UDP等。不用说,它非常细化,可以使您非常具体。如果...

编辑的选择

电子项目计划步骤1:设想您的电子项目 - 傻瓜

电子项目计划步骤1:设想您的电子项目 - 傻瓜

设计和建立你的电子项目的细节,你应该退后一步,看看大局。首先,你需要确保你有一个坚实的想法为您的项目。你为什么要建立它?它会做什么,谁来使用它,为什么? ...

电子项目计划步骤4:构建您的电路 - 傻瓜

电子项目计划步骤4:构建您的电路 - 傻瓜

而且你对它的操作感到满意,你可以建立一个永久版本的电路。虽然有几种方法可以做到这一点,但最常见的是在印刷电路板(也称为PCB)上构建电路。请注意,在PCB上组装电路...

电子项目计划步骤3:原型电路 - 假人

电子项目计划步骤3:原型电路 - 假人

永久的电路板,你会想确保它的工作。最简单的方法就是在无焊面包板上构建电路。无焊料面包板可以让您快速组装电路元件而不需要焊接任何东西。相反,您只需将其裸露在外...

编辑的选择

如何替换R中的文本 - 虚拟变量

如何替换R中的文本 - 虚拟变量

R中的sub()函数在文本模式,并用替换文本替换此模式。你使用sub()来替代文本文本,并使用其表兄gsub()来替换所有出现的模式。 (gsub()中的g表示全局。)假设你有句子He ...

中如何成功地遵循命名惯例在R - 傻瓜

中如何成功地遵循命名惯例在R - 傻瓜

R是非常自由的,对象和功能。这个自由是一个很大的祝福,同时也是一个很大的负担。没有人不得不遵循严格的规则,所以在R中编程的人基本上可以按照自己的意愿去做。如何选择一个正确的名字...

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

再次使用前面显示的Source()命令将其加载到控制台中。现在你看...什么也没有。 R并不让你知道它已经加载了这个函数,但它已经在工作空间中了,你可以检查一下...