视频: 9/29 Live: 大比拼!数据科学家常用数据库(Database)哪家强? 2024
您将发现将数据仓库和大数据环境的功能整合在一起的价值。您需要创建一个混合环境,使大数据可以与数据仓库携手并进。首先,重要的是要认识到,现在设计的数据仓库在短期内不会改变。因此,将数据仓库用于其设计要做的事情是比较实际的 - 提供关于企业想要分析的主题的真实的版本。仓库可能包含有关特定公司产品线,客户,供应商以及一年交易价值的详细信息。
<! --1 - >
在数据仓库或部门数据集市中管理的信息经过精心构建,元数据准确无误。随着新的基于网络的信息的增长,在历史数据的背景下分析这些海量的数据是实用且经常需要的。这就是混合模型的出发点。
将数据仓库与大数据结合的某些方面可能相对容易。例如,许多大数据源来自包含自己精心设计的元数据的来源。复杂的电子商务网站包括定义明确的数据元素。因此,在对仓库和大数据源进行分析时,信息管理组织正在使用两个精心设计的元数据模型的数据集,这些数据集必须合理化。<!当然,在某些情况下,信息来源缺乏明确的元数据。在分析师能够将历史交易数据与较少结构化的大数据结合起来之前,必须做好工作。通常情况下,对PB级数据的初步分析将揭示有趣的模式,可以帮助预测业务的细微变化或对患者诊断的潜在解决方案。利用Hadoop分布式文件系统框架,MapReduce等工具可以完成初始分析。在这一点上,你可以开始了解它是否能够帮助评估正在解决的问题。
<!在分析过程中,消除不必要的数据与识别与业务环境相关的数据同等重要。当这个阶段完成时,剩下的数据需要被转换,以便元数据定义是精确的。这样,当大数据与仓库中的传统历史数据相结合时,结果将是准确和有意义的。大数据集成lynchpin
这个过程需要一个定义良好的数据集成策略。虽然数据集成是管理大数据的关键要素,但在与数据仓库进行混合分析时同样重要。实际上,在混合环境中提取数据和转换数据的过程与在传统数据仓库中执行此过程的过程非常相似。在数据仓库中,数据是从传统的源系统(如CRM或ERP系统)中提取的。来自这些不同系统的元素正确匹配至关重要。重新考虑数据仓库的提取,转换和加载
在数据仓库中,您经常会发现关系数据库表,平面文件和非关系源的组合。构建良好的数据仓库将被构建,以便将数据转换为通用格式,从而使查询得到精确和一致的处理。必须对提取的文件进行转换,以匹配数据仓库设计分析的主题领域的业务规则和流程。换句话说,数据必须从大数据源中提取,以便这些数据源可以安全地协同工作并产生有意义的结果。另外,还要对数据源进行转换,以便有助于分析历史数据与来自大数据源的更加动态和实时的数据之间的关系。在大数据模型中加载信息将与传统数据仓库中的信息不同。有了数据仓库,在数据被编纂之后,它永远不会改变。典型的数据仓库将根据分析需要监控的特定业务问题(如库存或销售)的需要为业务提供数据快照。大数据的分布式结构通常会导致组织首先将数据加载到一系列节点中,然后进行提取和转换。在创建传统数据仓库和大数据环境的混合体系时,大数据环境的分布式特性可能会极大地改变组织在业务上下文中分析海量数据的能力。