个人理财 大数据分析和数据仓库 - 虚拟化

大数据分析和数据仓库 - 虚拟化

视频: 9/29 Live: 大比拼!数据科学家常用数据库(Database)哪家强? 2025

视频: 9/29 Live: 大比拼!数据科学家常用数据库(Database)哪家强? 2025
Anonim

您将发现将数据仓库和大数据环境的功能整合在一起的价值。您需要创建一个混合环境,使大数据可以与数据仓库携手并进。首先,重要的是要认识到,现在设计的数据仓库在短期内不会改变。因此,将数据仓库用于其设计要做的事情是比较实际的 - 提供关于企业想要分析的主题的真实的版本。仓库可能包含有关特定公司产品线,客户,供应商以及一年交易价值的详细信息。

<! --1 - >

在数据仓库或部门数据集市中管理的信息经过精心构建,元数据准确无误。随着新的基于网络的信息的增长,在历史数据的背景下分析这些海量的数据是实用且经常需要的。这就是混合模型的出发点。

将数据仓库与大数据结合的某些方面可能相对容易。例如,许多大数据源来自包含自己精心设计的元数据的来源。复杂的电子商务网站包括定义明确的数据元素。因此,在对仓库和大数据源进行分析时,信息管理组织正在使用两个精心设计的元数据模型的数据集,这些数据集必须合理化。

<!当然,在某些情况下,信息来源缺乏明确的元数据。在分析师能够将历史交易数据与较少结构化的大数据结合起来之前,必须做好工作。通常情况下,对PB级数据的初步分析将揭示有趣的模式,可以帮助预测业务的细微变化或对患者诊断的潜在解决方案。利用Hadoop分布式文件系统框架,MapReduce等工具可以完成初始分析。在这一点上,你可以开始了解它是否能够帮助评估正在解决的问题。

<!在分析过程中,消除不必要的数据与识别与业务环境相关的数据同等重要。当这个阶段完成时,剩下的数据需要被转换,以便元数据定义是精确的。这样,当大数据与仓库中的传统历史数据相结合时,结果将是准确和有意义的。大数据集成lynchpin

这个过程需要一个定义良好的数据集成策略。虽然数据集成是管理大数据的关键要素,但在与数据仓库进行混合分析时同样重要。实际上,在混合环境中提取数据和转换数据的过程与在传统数据仓库中执行此过程的过程非常相似。在数据仓库中,数据是从传统的源系统(如CRM或ERP系统)中提取的。来自这些不同系统的元素正确匹配至关重要。

重新考虑数据仓库的提取,转换和加载

在数据仓库中,您经常会发现关系数据库表,平面文件和非关系源的组合。构建良好的数据仓库将被构建,以便将数据转换为通用格式,从而使查询得到精确和一致的处理。必须对提取的文件进行转换,以匹配数据仓库设计分析的主题领域的业务规则和流程。换句话说,数据必须从大数据源中提取,以便这些数据源可以安全地协同工作并产生有意义的结果。另外,还要对数据源进行转换,以便有助于分析历史数据与来自大数据源的更加动态和实时的数据之间的关系。在大数据模型中加载信息将与传统数据仓库中的信息不同。有了数据仓库,在数据被编纂之后,它永远不会改变。典型的数据仓库将根据分析需要监控的特定业务问题(如库存或销售)的需要为业务提供数据快照。大数据的分布式结构通常会导致组织首先将数据加载到一系列节点中,然后进行提取和转换。在创建传统数据仓库和大数据环境的混合体系时,大数据环境的分布式特性可能会极大地改变组织在业务上下文中分析海量数据的能力。

大数据分析和数据仓库 - 虚拟化

编辑的选择

记录您的思科网络配置与CDP - 傻瓜

记录您的思科网络配置与CDP - 傻瓜

记录思科网络配置有时没有思科发现协议)可能需要花费数小时在布线室跟踪电缆和记录端口。在某些情况下,配线室是一个真正的老鼠的电缆巢,并且可能需要几个小时的导航才能找出哪些交换机连接到哪个交换机,哪些路由器,...

以太网通道诊断信息收集 - 虚拟

以太网通道诊断信息收集 - 虚拟

诊断思科网络中的以太网通道问题,您首先必须能够收集您的交换机及其配置。为了执行这个任务,你一如既往地依靠Show和debug命令。首先,简要介绍一下show命令的内容。 Switch1> enable Switch1#configure terminal Switch2#show EtherChannel ...

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL)允许您允许拒绝来自特定IP地址的流量到特定的目标IP地址和端口。它还允许您指定不同类型的流量,如ICMP,TCP,UDP等。不用说,它非常细化,可以使您非常具体。如果...

编辑的选择

电子项目计划步骤1:设想您的电子项目 - 傻瓜

电子项目计划步骤1:设想您的电子项目 - 傻瓜

设计和建立你的电子项目的细节,你应该退后一步,看看大局。首先,你需要确保你有一个坚实的想法为您的项目。你为什么要建立它?它会做什么,谁来使用它,为什么? ...

电子项目计划步骤4:构建您的电路 - 傻瓜

电子项目计划步骤4:构建您的电路 - 傻瓜

而且你对它的操作感到满意,你可以建立一个永久版本的电路。虽然有几种方法可以做到这一点,但最常见的是在印刷电路板(也称为PCB)上构建电路。请注意,在PCB上组装电路...

电子项目计划步骤3:原型电路 - 假人

电子项目计划步骤3:原型电路 - 假人

永久的电路板,你会想确保它的工作。最简单的方法就是在无焊面包板上构建电路。无焊料面包板可以让您快速组装电路元件而不需要焊接任何东西。相反,您只需将其裸露在外...

编辑的选择

如何替换R中的文本 - 虚拟变量

如何替换R中的文本 - 虚拟变量

R中的sub()函数在文本模式,并用替换文本替换此模式。你使用sub()来替代文本文本,并使用其表兄gsub()来替换所有出现的模式。 (gsub()中的g表示全局。)假设你有句子He ...

中如何成功地遵循命名惯例在R - 傻瓜

中如何成功地遵循命名惯例在R - 傻瓜

R是非常自由的,对象和功能。这个自由是一个很大的祝福,同时也是一个很大的负担。没有人不得不遵循严格的规则,所以在R中编程的人基本上可以按照自己的意愿去做。如何选择一个正确的名字...

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

再次使用前面显示的Source()命令将其加载到控制台中。现在你看...什么也没有。 R并不让你知道它已经加载了这个函数,但它已经在工作空间中了,你可以检查一下...