目录:
视频: 【胡说#151】YouTube内容创业:如何在视频中正确请求订阅/转发/点赞?别把你的观众当傻瓜! 2024
您如何知道如何将所有数据放在一起?通过一个大数据项目,您想要对结构化和非结构化数据进行什么操作,可以说明为什么您可以选择一项技术而不是另一项技术。它也决定了理解入站数据结构以将这些数据放在正确位置的必要性。
管理大数据的不同数据类型
您需要考虑大数据的一些特征以及您可能希望用于处理每个数据的数据管理系统的类型。
<! - 1 - >将数据类型集成到大数据环境中
大数据的另一个重要方面是,您通常不需要拥有将要使用的所有数据。很多例子都说明了这一点。您可能会利用社交媒体数据,来自第三方行业统计的数据,甚至是来自卫星的数据。只要想想社交媒体,你就会明白。
<! - 2 - >经常需要整合不同的来源。这些数据可能来自内部和外部的所有内部系统,也可能来自外部。这些数据中的大部分可能以前都是孤立的。数据不需要实时来找你。你可能会有很多,它本质上是不同的。这仍然可以作为一个大数据问题。当然,你也可能面临一个场景,你看到大量的数据,高速运行,而且本质上是完全不同的。
您需要的组件包括连接器和元数据。
连接器
您希望有一些连接器使您能够从各种大数据源中提取数据。也许你想要一个Twitter连接器或Facebook的。也许你需要从你的数据仓库中集成一个远离你的前提的大数据源,以便你可以一起分析这两个数据源。
元数据
集成所有这些数据的关键组件是元数据。
元数据 是用于描述如何查找,访问和使用公司的数据(和软件)组件的定义,映射和其他特征。元数据的一个例子是关于账号的数据。这可能包括号码,说明,数据类型,姓名,地址,电话号码和隐私级别。元数据可用于帮助您组织数据存储并处理新的和不断变化的数据源。尽管元数据的概念并不新鲜,但在大数据背景下正在发生变化和演变。在传统的元数据世界中,有一个提供所有数据源的单一视图的目录是很重要的。 但是当你不控制所有这些数据源时,这个目录必须有所不同。您可能需要一个分析工具来帮助您了解底层的元数据。