目录:
- 步骤1:下载虚拟机
- 步骤2:下载Bigtop
- 步骤3:安装Bigtop
- 在开始在Hadoop上运行应用程序之前,需要做一些基本的配置和设置工作。在这里他们是为了:
- 要下载样本数据集,请从虚拟机内打开Firefox浏览器,然后进入dataexpo页面。
- 请记住,您的Hadoop程序只能在HDFS中存储数据后才能使用。那么你现在要做的是把1987年的飞行数据文件复制到HDFS中。输入以下命令:
视频: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox 2024
如果您愿意使用虚拟机和Linux,请随意将Bigtop安装在不同于推荐的虚拟机上。如果你真的大胆并拥有硬件,请继续尝试以完全分布式模式将Bigtop安装在一组机器上!
步骤1:下载虚拟机
Hadoop在所有流行的Linux发行版上运行,因此您需要一个Linux虚拟机。有一个免费的(和合法!)可用的CentOS 6图像。
<! - 1 - >为了运行这个虚拟机,你需要在你的笔记本电脑上安装一个64位的操作系统。 Hadoop需要一个64位的环境。
下载完虚拟机之后,将其从下载的Zip文件中提取到目标目录中。确保你有大约50GB的可用空间作为Hadoop,你的示例数据将需要它。
如果您还没有VM播放器,则可以免费下载一个。
设置完VM Player之后,打开播放器,进入文件→打开,然后进入解压缩Linux VM的目录。寻找一个叫做的文件并选择它。您将看到有关多少个处理器以及它将使用多少内存的信息。找出您的计算机有多少内存,并分配一半的虚拟机使用。 Hadoop需要大量的内存。
准备好后,点击Play按钮,你的Linux实例就会启动。在Linux启动的时候,你会看到很多消息,你会来到一个登录界面。用户名已被设置为“Tom”。 “将密码指定为”tomtom“并登录。
步骤2:下载Bigtop
在您的Linux VM中,右键单击屏幕并从出现的上下文菜单中选择在终端中打开。这将打开一个Linux终端,您可以在其中运行命令。在终端内单击以便您可以看到光标闪烁并输入以下命令:su -
你会被要求输入密码,所以像你之前输入的“tomtom”一样。此命令将用户切换到root用户,这是Linux计算机的主帐户 - 您需要安装Hadoop。
使用root访问权限(不要让权力到达您的头部)运行以下命令:
wget -O / etc / yum。回购。 d / Bigtop发送。 repohttp:// www。阿帕奇。组织/ DIST / Bigtop发送/ bigtop-
0。 7. 0 / repos / centos6 / bigtop。 repo
该命令本质上是一个web请求,它会请求URL中的特定文件,并将其写入特定的路径 - 在这种情况下,就是/。
步骤3:安装Bigtop
对于需要安装像Hadoop这样的大型软件包的人来说,Linux背后的天才已经变得非常容易了。您在最后一步下载的内容不是整个Bigtop软件包及其所有依赖项。这只是一个 存储库文件 (带有扩展名),它告诉安装程序Bigtop安装需要哪些软件包。像任何大型软件产品一样,Hadoop有很多先决条件,但是您不必担心。一个精心设计的文件将指向任何依赖关系,安装程序是足够聪明,看看他们是否缺少您的计算机,然后下载并安装它们。
你在这里使用的安装程序被称为yum,你现在就可以看到:
yum install hadoop * mahout * oozie * hbase * hive * hue * pig * zookeeper *
选择并选择要安装的Hadoop组件。 Bigtop中还有其他一些组件,但这些是您在这里使用的唯一组件。由于虚拟机是新鲜的Linux安装,因此您需要很多依赖关系,所以您需要稍等一下。
yum安装程序非常冗长,所以您可以精确地观察下载和安装的内容以消磨时间。安装过程完成后,您应该看到一条消息“完成! “
第4步:启动Hadoop
在开始在Hadoop上运行应用程序之前,需要做一些基本的配置和设置工作。在这里他们是为了:
下载并安装Java:
-
yum install java-1。 7. 0-openjdk-devel。 x86_64
格式化NameNode:
-
sudo / etc / init。 d / hadoop-hdfs-namenode init
为您的伪分布式集群启动Hadoop服务:
-
for hadoop-hdfs-namenode hadoop-hdfs-datanode;做sudo服务$我开始;完成
在HDFS中创建一个子目录结构:
-
sudo / usr / lib / hadoop / libexec / init-hdfs。 sh
启动YARN守护进程:
-
sudo service hadoop-yarn-resourcemanager startsudo service hadoop-yarn-nodemanager start
然后就完成了。恭喜!您已经安装了可用的Hadoop部署!
步骤5:下载样本数据集
要下载样本数据集,请从虚拟机内打开Firefox浏览器,然后进入dataexpo页面。
您不需要整个数据集,所以从1987年开始。当您要下载时,请选择“使用存档管理器打开”选项。
文件下载后,将文件解压缩到您的主目录,您可以轻松找到它。点击Extract按钮,然后选择桌面目录。
步骤6:将样本数据集复制到HDFS
请记住,您的Hadoop程序只能在HDFS中存储数据后才能使用。那么你现在要做的是把1987年的飞行数据文件复制到HDFS中。输入以下命令:
hdfs dfs -copyFromLocal 1987. csv / user / root