个人理财 大数据环境中的非结构化数据 - 虚拟

大数据环境中的非结构化数据 - 虚拟

目录:

视频: 9/29 Live: 大比拼!数据科学家常用数据库(Database)哪家强? 2025

视频: 9/29 Live: 大比拼!数据科学家常用数据库(Database)哪家强? 2025
Anonim

非结构化数据 是不符合大数据指定格式的数据。如果企业可用数据的20%是结构化数据,另外80%是非结构化数据。非结构化数据实际上是您将遇到的大部分数据。然而,直到最近,这项技术并没有真正支持它,除了存储或手动分析。

非结构化大数据的来源

<! --1 - >

非结构化数据无处不在。实际上,大多数个人和组织都是围绕非结构化数据开展活动。就像结构化数据一样,非结构化数据是机器生成的或人为生成的。

以下是机器生成的非结构化数据的一些示例:

  • 卫星图像: 这包括天气数据或政府在卫星监视图像中捕获的数据。只要想一下Google地球,你就可以得到照片。

    <!科学数据:
  • 这包括地震图像,大气数据和高能物理。 照片和视频:

  • 这包括安全,监视和交通视频。 雷达或声纳数据:

  • 这包括车辆,气象和海洋地震剖面。 以下列表显示了一些人为生成的非结构化数据的示例:

公司内部文本:
  • 考虑文档,日志,调查结果和电子邮件中的所有文本。企业信息实际上代表了当今世界上大量的文本信息。 社交媒体数据:

  • 这些数据来自社交媒体平台,如YouTube,Facebook,Twitter,LinkedIn和Flickr。 移动数据:

  • 这包括诸如短信和位置信息之类的数据。 网站内容:

  • 来自任何提供非结构化内容的网站,例如YouTube,Flickr或Instagram。 名单继续。

有些人认为,

非结构化数据 是误导性的,因为每个文档都可能包含自己特定的结构或基于创建它的软件的格式。但是,文件的内部是真正的非结构化的。到目前为止,非结构化数据是数据方程中最大的一部分,非结构化数据的用例正在迅速扩大。仅在文本方面,文本分析可用于分析非结构化文本并提取相关数据并将数据转换为可用于各种方式的结构化信息。例如,一个受欢迎的大数据使用案例是用于大量客户对话的社交媒体分析。此外,还会分析来自呼叫中心票据,电子邮件,调查中的书面评论以及其他文档的非结构化数据,以便了解客户的行为。这可以结合数千万来源的社交媒体来了解客户体验。 CMS在大数据管理中的作用

组织在数据库中存储一些非结构化数据。但是,他们也利用企业内容管理系统(CMS)来管理内容的整个生命周期。这可以包括网页内容,文档内容和其他表单媒体。根据信息和图像管理协会(AIIM)(一个提供教育,研究和最佳实践的非营利组织),企业内容管理(ECM)包括“用于捕获,管理,存储,保存和交付与组织流程相关的内容和文档。 “ECM中包含的技术包括文档管理,记录管理,成像,工作流程管理,网站内容管理和协作。整个行业已经围绕管理内容而成长,许多内容管理供应商正在扩大其解决方案以处理大量的非结构化数据。然而,新技术也在不断发展,以帮助支持非结构化数据和非结构化数据的分析。其中一些支持结构化和非结构化数据。有些支持实时流。这些包括Hadoop,MapReduce和流媒体等技术。设计用于以内容管理系统的形式存储内容的系统不再是独立的解决方案。相反,它们可能是整体数据管理解决方案的一部分。例如,您的组织可能会监控Twitter供稿,然后可以通过编程方式触发CMS搜索。

现在,触发推特的人得到一个答案,提供了一个位置,个人可以找到他或她可能正在寻找的产品。最大的好处是这种交互可以实时发生。它还说明了利用实时非结构化,结构化(客户关于推特人的数据)和半结构化(CMS中的实际内容)数据的价值。实际情况是,您可能会使用混合方法来解决您的大数据问题。例如,将您的所有新闻内容(例如,移动到您的场所中的Hadoop)是没有意义的,因为它应该有助于管理非结构化数据。

大数据环境中的非结构化数据 - 虚拟

编辑的选择

记录您的思科网络配置与CDP - 傻瓜

记录您的思科网络配置与CDP - 傻瓜

记录思科网络配置有时没有思科发现协议)可能需要花费数小时在布线室跟踪电缆和记录端口。在某些情况下,配线室是一个真正的老鼠的电缆巢,并且可能需要几个小时的导航才能找出哪些交换机连接到哪个交换机,哪些路由器,...

以太网通道诊断信息收集 - 虚拟

以太网通道诊断信息收集 - 虚拟

诊断思科网络中的以太网通道问题,您首先必须能够收集您的交换机及其配置。为了执行这个任务,你一如既往地依靠Show和debug命令。首先,简要介绍一下show命令的内容。 Switch1> enable Switch1#configure terminal Switch2#show EtherChannel ...

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL)允许您允许拒绝来自特定IP地址的流量到特定的目标IP地址和端口。它还允许您指定不同类型的流量,如ICMP,TCP,UDP等。不用说,它非常细化,可以使您非常具体。如果...

编辑的选择

电子项目计划步骤1:设想您的电子项目 - 傻瓜

电子项目计划步骤1:设想您的电子项目 - 傻瓜

设计和建立你的电子项目的细节,你应该退后一步,看看大局。首先,你需要确保你有一个坚实的想法为您的项目。你为什么要建立它?它会做什么,谁来使用它,为什么? ...

电子项目计划步骤4:构建您的电路 - 傻瓜

电子项目计划步骤4:构建您的电路 - 傻瓜

而且你对它的操作感到满意,你可以建立一个永久版本的电路。虽然有几种方法可以做到这一点,但最常见的是在印刷电路板(也称为PCB)上构建电路。请注意,在PCB上组装电路...

电子项目计划步骤3:原型电路 - 假人

电子项目计划步骤3:原型电路 - 假人

永久的电路板,你会想确保它的工作。最简单的方法就是在无焊面包板上构建电路。无焊料面包板可以让您快速组装电路元件而不需要焊接任何东西。相反,您只需将其裸露在外...

编辑的选择

如何替换R中的文本 - 虚拟变量

如何替换R中的文本 - 虚拟变量

R中的sub()函数在文本模式,并用替换文本替换此模式。你使用sub()来替代文本文本,并使用其表兄gsub()来替换所有出现的模式。 (gsub()中的g表示全局。)假设你有句子He ...

中如何成功地遵循命名惯例在R - 傻瓜

中如何成功地遵循命名惯例在R - 傻瓜

R是非常自由的,对象和功能。这个自由是一个很大的祝福,同时也是一个很大的负担。没有人不得不遵循严格的规则,所以在R中编程的人基本上可以按照自己的意愿去做。如何选择一个正确的名字...

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

再次使用前面显示的Source()命令将其加载到控制台中。现在你看...什么也没有。 R并不让你知道它已经加载了这个函数,但它已经在工作空间中了,你可以检查一下...