目录:
视频: 9/29 Live: 大比拼!数据科学家常用数据库(Database)哪家强? 2024
非结构化数据 是不符合大数据指定格式的数据。如果企业可用数据的20%是结构化数据,另外80%是非结构化数据。非结构化数据实际上是您将遇到的大部分数据。然而,直到最近,这项技术并没有真正支持它,除了存储或手动分析。
非结构化大数据的来源
<! --1 - >非结构化数据无处不在。实际上,大多数个人和组织都是围绕非结构化数据开展活动。就像结构化数据一样,非结构化数据是机器生成的或人为生成的。
以下是机器生成的非结构化数据的一些示例:
-
卫星图像: 这包括天气数据或政府在卫星监视图像中捕获的数据。只要想一下Google地球,你就可以得到照片。
<!科学数据: -
这包括地震图像,大气数据和高能物理。 照片和视频:
-
这包括安全,监视和交通视频。 雷达或声纳数据:
-
这包括车辆,气象和海洋地震剖面。 以下列表显示了一些人为生成的非结构化数据的示例:
-
考虑文档,日志,调查结果和电子邮件中的所有文本。企业信息实际上代表了当今世界上大量的文本信息。 社交媒体数据:
-
这些数据来自社交媒体平台,如YouTube,Facebook,Twitter,LinkedIn和Flickr。 移动数据:
-
这包括诸如短信和位置信息之类的数据。 网站内容:
-
来自任何提供非结构化内容的网站,例如YouTube,Flickr或Instagram。 名单继续。
有些人认为,
非结构化数据 是误导性的,因为每个文档都可能包含自己特定的结构或基于创建它的软件的格式。但是,文件的内部是真正的非结构化的。到目前为止,非结构化数据是数据方程中最大的一部分,非结构化数据的用例正在迅速扩大。仅在文本方面,文本分析可用于分析非结构化文本并提取相关数据并将数据转换为可用于各种方式的结构化信息。例如,一个受欢迎的大数据使用案例是用于大量客户对话的社交媒体分析。此外,还会分析来自呼叫中心票据,电子邮件,调查中的书面评论以及其他文档的非结构化数据,以便了解客户的行为。这可以结合数千万来源的社交媒体来了解客户体验。 CMS在大数据管理中的作用
组织在数据库中存储一些非结构化数据。但是,他们也利用企业内容管理系统(CMS)来管理内容的整个生命周期。这可以包括网页内容,文档内容和其他表单媒体。根据信息和图像管理协会(AIIM)(一个提供教育,研究和最佳实践的非营利组织),企业内容管理(ECM)包括“用于捕获,管理,存储,保存和交付与组织流程相关的内容和文档。 “ECM中包含的技术包括文档管理,记录管理,成像,工作流程管理,网站内容管理和协作。整个行业已经围绕管理内容而成长,许多内容管理供应商正在扩大其解决方案以处理大量的非结构化数据。然而,新技术也在不断发展,以帮助支持非结构化数据和非结构化数据的分析。其中一些支持结构化和非结构化数据。有些支持实时流。这些包括Hadoop,MapReduce和流媒体等技术。设计用于以内容管理系统的形式存储内容的系统不再是独立的解决方案。相反,它们可能是整体数据管理解决方案的一部分。例如,您的组织可能会监控Twitter供稿,然后可以通过编程方式触发CMS搜索。
现在,触发推特的人得到一个答案,提供了一个位置,个人可以找到他或她可能正在寻找的产品。最大的好处是这种交互可以实时发生。它还说明了利用实时非结构化,结构化(客户关于推特人的数据)和半结构化(CMS中的实际内容)数据的价值。实际情况是,您可能会使用混合方法来解决您的大数据问题。例如,将您的所有新闻内容(例如,移动到您的场所中的Hadoop)是没有意义的,因为它应该有助于管理非结构化数据。