Apache Bigtop和Hadoop - 傻瓜
帮助您开始使用Hadoop,下面介绍如何快速下载和设置在您自己的笔记本电脑上安装Hadoop。您的集群将在虚拟机上以伪分布模式运行,因此您不需要特殊的硬件。虚拟机(VM)是您可以运行的模拟计算机...
10个Hadoop资源值得一个书签 - 傻瓜
下面是十个了不起的Hadoop资源,值得创建在您的浏览器书签。这些资源可以帮助您为Hadoop创建终身学习计划。中枢神经系统:阿帕奇。 org Apache软件基金会(ASF)是开源软件项目的中心社区。不只是任何项目都可以成为一个Apache项目 - ...
使用Sqoop导入数据 - 假人
准备好使用Sqoop导入数据?首先看一下这个图,它说明了从RDBMS或数据仓库系统进行典型的Sqoop导入操作的步骤。这里没有太复杂的东西 - 只是一个典型的虚拟公司的典型产品数据表被导入到一个典型的...
在Hadoop中运行猪脚本的本地和分布式模式 - 傻瓜
在Hadoop中使用Pig脚本,您需要掌握如何使用Pig服务器打包Pig程序。 Pig有两种运行脚本的模式:本地模式:所有脚本都在一台机器上运行,不需要Hadoop MapReduce和HDFS。这对于...
使用Hive <[SET:descriptioncn]连接表与Hive
连接表与Hive
网络和Hadoop集群 - 傻瓜
与任何分布式系统一样,网络可以建立或中断Hadoop集群: “去便宜。 “Hadoop集群中的主节点和从节点之间会产生大量的震荡,这对于保持集群运行至关重要,因此建议使用企业级交换机。对于群集中的每个机架,您都可以...
猪拉丁语在Hadoop的猪程序 - 傻瓜
猪拉丁语是猪程序的语言。 Pig将Pig Latin脚本翻译成可在Hadoop集群内执行的MapReduce作业。当想到Pig Latin时,开发团队遵循三个关键的设计原则:保持简单。 Pig Latin提供了一个与Java MapReduce交互的简化方法。这是...
使用Hadoop文件系统命令管理文件 - 虚拟人物
HDFS是这两个主要组件之一Hadoop框架;另一个是被称为MapReduce的计算范例。分布式文件系统是一种管理网络集群机器上的存储的文件系统。 HDFS以块为单位存储数据,默认大小为64MB。您需要存储在...
中调度和协调Oozie工作流,在Hadoop中协调Oozie工作流 - 傻瓜
创建了一组工作流后,您可以使用一系列Oozie协调员作业来安排执行时间。您有两个执行时间安排选项:一个特定的时间和数据的可用性以及一定的时间。 Oozie协调员作业的基于时间的计划Oozie协调员作业可以被安排为...
设置Hadoop环境如果您愿意使用VM和Linux,可以使用Apache Bigtop设置Hadoop环境 - 傻瓜
,请随意将Bigtop安装在不同于推荐的VM上。如果你真的大胆并拥有硬件,请继续尝试以完全分布式模式将Bigtop安装在一组机器上!步骤1:下载虚拟机Hadoop在所有流行的Linux上运行...
Sqoop使用更新和更新插入方法导出 - 傻瓜
插入模式,Sqoop导出的记录被追加到目标表的末尾。 Sqoop还提供了更新模式,您可以通过提供-update-key 命令行参数来使用它。此操作会导致Sqoop生成SQL UPDATE语句以在RDBMS或数据仓库上运行。假设您...
Hadoop dfsadmin命令选项 - 傻瓜
Dfsadmin工具是一组特定的工具,旨在帮助您根除信息关于您的Hadoop分布式文件系统(HDFS)。作为额外的好处,您也可以使用它们在HDFS上执行一些管理操作。选项功能 - 报告报告基本的文件系统信息和统计信息。 -safemode enter | ...
成功使用Hadoop - 傻瓜
的钥匙,您应该首先将IT与业务来自副总裁的领导下来,帮助解决您的业务的痛点 - 那些在每个人心中盛行的问题(真实的或感知的)。企业希望从他们的IT投资中看到价值,而使用Hadoop的产品可能会有多种不同...
Hive CLI客户端 - 虚拟客户端
第一个Hive客户端是Hive命令行界面(CLI)。要掌握Hive CLI客户端的更多细节,可能有助于查看(有点忙碌的)Hive体系结构。在第二个图中,体系结构被简化为只关注运行CLI时所需的组件。这些是组件...
Sqoop Design的原则 - 傻瓜
当涉及到Sqoop时,一张图片往往胜过千言万语,所以看看这个数字,让您可以俯瞰Sqoop架构。 Sqoop背后的想法是,它利用地图任务 - 执行关系数据库表的并行导入和导出的任务 - 从内部...
如何开发一个管理良好,安全的大数据环境 - 虚拟人物
而且管理得当的安全方法可以成功地减轻许多安全风险。您需要开发一个安全的大数据环境。你可以做的一件事是评估你现在的状态。在大数据环境中,安全从评估当前状态开始。一个好的开始是通过...
如何从Orange获取数据 - 虚拟人物
计算机与信息科学学院生物信息学实验室斯洛维尼亚卢布尔雅那与开源社区合作开发Orange。要以橙色打开示例数据,请执行以下步骤:
如何从Weka获得数据 - 假人
怀卡托大学的教职员工开发工具是他们工作的一部分,机器学习领域。这些工具用于科学家和工业界的教学。 Weka是其通用数据挖掘工具,提供可视化编程界面和广泛的分析功能。 MOA用于实时挖掘...
在Linux上安装Python以使用算法 - 傻瓜
使用命令行在Linux上安装Anaconda - 你没有任何图形安装选项。在您执行安装之前,您必须从Continuum Analytics网站下载Linux软件的副本。无论使用32位还是64位版本,以下步骤都可以在任何Linux系统上正常工作...
在MacOS上安装Python以使用算法 - 傻瓜
Mac OS X安装只有一种形式:64位。在执行安装之前,您必须从Continuum Analytics网站下载Mac软件的副本。安装文件有两种形式。第一个取决于图形安装程序;第二个依靠命令行。命令行版本...
在Windows上安装Python以使用算法 - 傻瓜
Anaconda附带Windows图形安装应用程序,所以得到一个好的安装意味着使用一个向导,就像其他任何安装一样。当然,在开始之前,您需要安装文件的副本。在任何Windows系统上,无论使用32位还是...
NoSQL中的键值存储 - 虚拟键值
键值存储NoSQL具有ID字段的记录 - 键值存储中的键和一组数据。这个数据可以是下列之一:应用程序开发人员解释的任意一段数据(与数据库相对)任何一组名称 - 值对(称为bin)想象一下...
标记数据 - 虚拟
使用数据代码减少了数据输入时间,防止了错误,并降低了存储数据的内存要求。但是,除非你有文档或标签来解释它们的含义,否则这些代码是没有意义的。一些数据格式使您能够享受使用代码的优点,同时保留有关数据的含义的信息。
管理数据挖掘项目的范围 - 傻瓜
这不仅仅是您自己的兴趣导致项目范围扩大。在你工作的时候,你会和同事讨论,他们都会有想法和问题来激发更多的探索。提出问题和探索数据可能很有趣。现在你是一个数据挖掘者,你会发现你可以问和...
管理NoSQL的数据 - 傻瓜
NoSQL,并确保它是安全的,并始终可以访问你需要做的工作。键值存储中的数据类型键值存储通常充当“水桶”的二进制数据。一些数据库确实提供了强大的内部数据输入,甚至...
用NoSQL管理用户信息 - 虚拟人物
存在任务关键型数据,并且有支持数据。如果您的任务关键型数据显得有点慢,因为您希望确保它的安全性和正确管理,那就没问题了。但是您不希望您的应用程序的支持数据妨碍整体交易和用户体验。虽然支持数据的价值可能较低,但是它的数据是有价值的。
NoSQL搜索要考虑的功能 - 傻瓜
许多NoSQL数据库都支持查询功能和某些搜索功能。选择合适的人往往归结为理解您需要支持的功能。尽管它们是相关的,但是查询和搜索是完全不同的。查询只返回匹配其中所有条款的结果。另一方面,搜索可以包含可选的...
10个杀手级NoSQL应用程序 - 傻瓜
由于运行杀手级应用程序,人们通常会购买特定的平台。许多基于NoSQL的应用程序都属于杀手级应用程序类别。使用现有的关系数据库技术,这些应用程序不可能成为现实。 Facebook的消息传递平台Apache Cassandra是由Facebook创建的。它是为了...
NoSQL术语和定义 - 傻瓜
如果你在学校学习过数据库,你可能已经以关系的思维方式进行了灌输。对大多数人说数据库,而他们认为关系数据库管理系统。这很自然,因为在过去的30年里,关系数据库已经占据了主导地位。要...
把你的大数据放在一起 - 傻瓜
你怎么知道如何把所有的数据放在一起?通过一个大数据项目,您想要对结构化和非结构化数据进行什么操作,可以说明为什么您可以选择一项技术而不是另一项技术。它也决定了理解入站数据结构以将这些数据放入...
当您进行数据挖掘时,筛选出需要的数据 - 假人
你需要一个给定的项目。以下是如何减少你所需要的。缩小字段当数据集中有许多变量时,可能很难找到或看到您感兴趣的变量。如果你的数据集是...
为什么排序数据对于算法很重要 - 傻瓜
试图在列表中找到一个项目而不排序第一。每个搜索都是一个耗时的顺序搜索。但是,可以为算法不排序数据做一个案例。毕竟,数据仍然可以访问,即使你不分类 - 排序也需要时间。当然,这个问题...
与高管谈话数据挖掘 - 虚拟人物
你并没有深入数据挖掘,只是为了玩数字。你想要行动。你希望看到事情做得对,而且你明白在数据的坚实证据基础上做出商业决策是很重要的。但是你不是有能力做决定的人。所以你需要...
三重存储和图形NoSQL数据库特性 - 虚拟
如果您使用三重存储或图形NoSQL数据库有一个相互关联的数据网络,或者您可以简单地标记您的数据,并根据共享相同标记的记录推断关系。这些数据库产品支持这些重要功能。功能区域AllegroGraph MarkLogic服务器Neo4j OrientDB ACID或BASE ACID,...
了解大数据和物联网 - 傻瓜
物联网如何与大数据相关?物联网描述的事实是,从尿布到自驾车的许多日常物品已经(或很快将具有)通过互联网发送和接收数据的能力。您可以了解更多关于物联网和...的信息。