视频: 【HadoopCon 2014】SQL on Hadoop: a Perspective of a Cloud-based, Managed Service Provider 2024
在预测分析中独一无二的开源工具是Apache Mahout。这个机器学习库包括大规模版本的聚类,分类,协作过滤和其他数据挖掘算法,可以支持大规模的预测分析模型。
强烈推荐处理这种模型所需数据的方法是在已经运行Hadoop的系统中运行Mahout。 Hadoop指定一个主控机器来协调分布式处理中使用的其他机器(如Map机器和Reduce机器)。 Mahout应该安装在主机上。
<! --1 - >想象一下,你有大量的流式数据 - Google新闻文章 - 并且你想用聚类算法之一来按主题进行聚类。在安装Hadoop和Mahout之后,您可以对数据执行其中一种算法(如K-means)。在Mahout下的K-means的实现使用了MapReduce方法,这与K-means的正常实现不同。 Mahout将K均值算法细分为以下子过程:
<! KmeansMapper
读取输入数据集,并将每个输入点分配给其最近的最初选择的方法(集群代表)。-
KmeansCombiner 过程将采用由KmeansMapper生成的所有记录对,并生成部分和来简化随后的集群代表的计算。 KmeansReducer
-
接收由所有子任务(组合器)产生的值,以计算作为K均值的最终输出的聚类的实际质心。 <! KmeansDriver
-
处理迭代过程,直到所有的聚类都收敛。一个给定迭代的输出,一个部分聚类输出,被用作下一次迭代的输入。映射和减少数据集的过程,直到记录和集群的分配显示没有进一步的变化。 Apache Mahout是最近开发的一个项目,其功能仍然有很大的空间来容纳扩展。与此同时,Mahout已经使用MapReduce来实现分类,聚类和其他机器学习技术 - 并且可以大规模地进行。