识别您的大数据需要的数据 - 虚拟数据

总结您在大数据项目中处理的数据类型。许多组织都认识到，很多内部生成的数据在过去并没有被充分利用。

通过利用新工具，组织正在从电子邮件，客户服务记录，传感器数据和安全日志中以前未利用的非结构化数据源中获得新的洞察力。此外，基于主要在组织外部的数据分析（例如社交媒体，手机位置，交通和天气）分析，寻找新的洞察力也非常有趣。

<！ --1 - >

大数据的探索阶段

在分析的早期阶段，您将需要搜索数据中的模式。只有通过检查非常大量的数据，新的和意想不到的关系和元素之间的相关性才会变得明显。例如，这些模式可以深入了解客户对新产品的偏好。你需要一个平台来组织你的大数据来寻找这些模式。

<！ Hadoop被广泛用作捕获和处理大数据的底层构建块。 Hadoop的设计具有加速处理大数据的能力，并能够在相对较短的时间内识别海量数据中的模式。 Hadoop的两个主要组件 - Hadoop分布式文件系统（HDFS）和MapReduce - 用于管理和处理您的大数据。

<！用于大数据集成的FlumeNG

通常需要收集，汇总和移动极大量的流数据以搜索大数据中的隐藏模式。传统的集成工具（如ETL）速度不够快，难以及时移动大量的数据流以提供分析结果，如实时欺诈检测。 FlumeNG通过将数据流式传输到Hadoop来实时加载数据。通常，Flume用于从分布式服务器收集大量日志数据。它跟踪Flume安装中的所有物理和逻辑节点。代理节点安装在服务器上，负责管理单个数据流从其开始点到目标点的传输和处理方式。另外，收集器用于将数据流组合成更大的数据流，可以将数据流写入Hadoop文件系统或其他大数据存储容器。 Flume专为可扩展性而设计，可以不断向系统中添加更多资源，以高效的方式处理大量的数据。Flume的输出可以与Hadoop和Hive集成，用于分析数据。 Flume还具有用于数据的转换元素，可将您的Hadoop基础架构转变为非结构化数据的流式源。

大数据模式

您会发现很多公司开始通过大数据分析实现竞争优势的例子。对于许多公司来说，社交媒体数据流正日益成为数字营销策略的一个组成部分。在探索阶段，这项技术可以用来快速搜索大量的流媒体数据，并拉出与特定产品或客户相关的趋势模式。

大数据的编纂阶段

数百家门店和数以千计的客户需要一个可重复的流程，才能从模式识别到新产品选择的实施以及更有针对性的营销。在您的大数据分析中发现一些有趣的内容后，将其编码并将其作为业务流程的一部分。为了对大数据分析与运营数据之间的关系进行编码，您需要整合数据。大数据整合与合并阶段大数据对于数据管理的许多方面（包括数据集成）都有重大影响。传统上，数据集成侧重于通过中间件传输数据，包括消息传递的规范和应用程序编程接口（API）的要求。这些数据集成的概念更适合于静态数据管理，而不是运动数据。进入非结构化数据和流数据的新世界，改变了数据集成的传统概念。如果您想将您的流数据分析整合到您的业务流程中，您需要足够快的先进技术，使您能够实时做出决策。

大数据分析完成后，您需要一种方法，使您能够将大数据分析的结果集成或整合到业务流程和实时业务操作中。