目录:
视频: 最新数据出炉!2019年中国经济巨变,城市经济差距在哪里? 2024
您的预测分析数据,您需要知道如何找到您想要查找的信息。有两个主要的概念来搜索你的数据,准备在预测分析中使用它:
-
准备超越基本的关键字搜索
-
使你的数据在语义上可搜索
如何在预测中使用基于关键字的搜索分析
<! --1 - >想象一下,如果你的任务是搜索大量的数据。解决这个问题的一种方法是发出一个由(明显)单词组成的搜索查询。搜索工具在数据库,数据仓库中查找匹配的单词,或者搜索数据所在的任何文本。
假设您正在发出以下搜索查询: 美国总统访问非洲 。搜索结果将由文本组成,其中包含正确的一个或组合 总统,美国,访问,非洲 。你可能会得到你正在寻找的确切信息,但并不总是。
<! - 2 - >不包含前面提到的任何单词的文件如何,但以下的一些组合: 奥巴马访问肯尼亚 。
您最初搜索的单词都不在其中 - 但是搜索结果是 在语义上 (有意义的)有用。你如何准备你的数据可以在语义上检索?你怎么能超越传统的关键字搜索?如果你继续阅读,你的答案可以找到。
<!如何在预测分析中使用基于语义的搜索基于语义的搜索是一个以Anasse Bari为首的世界银行集团主导的项目的例子,世行集团的主要任务就是要与世界各地的贫困作斗争。
该项目旨在调查现有的大型企业搜索和分析市场,并建立一个组织世界银行数据的尖端框架的原型 - 其中大部分是非结构化的文件,出版物,项目报告,简介和案例研究。
这个庞大的宝贵知识是世行减少世界贫困的主要使命之一。但是非结构化的事实使得访问,捕获,共享,理解,搜索,数据挖掘和可视化变得非常困难。世界银行是一个庞大的组织,在世界各地有许多分支机构。其中一个主要部门是争取建立一个框架,并准备拨出资源协助巴里团队成为世界银行内部的人类发展网络。
人类发展网络的副总裁列出了一个模棱两可的问题:他的部门使用了几个术语和概念,这些术语和概念具有相同的整体含义,但有不同的细微差别。例如,诸如
气候学,气候变化,气体臭氧消耗,
和
温室气体排放 等术语在含义上都是语义上相关但不完全相同的。他希望有一个足够聪明的搜索能力来提取包含相关概念的文档,当有人搜索这些术语时。 Bari团队选择的原型框架是非结构化信息管理架构(UIMA),这是一个基于软件的解决方案。 IBM最初由IBM Research设计,UIMA可用于IBM软件,例如IBM Content Analytics,这是IBM Watson(赢得Jeopardy游戏的着名计算机)的工具之一。巴里团队与来自IBM内容管理和企业搜索的一个非常有才华的团队,后来与IBM沃森团队合作,在这个项目上进行合作。 非结构化信息管理(UIM) 解决方案是一种分析大量非结构化信息(文本,音频,视频,图像等)以发现,组织和传递相关知识的软件系统客户端或应用程序最终用户。 域的
本体
是特定于域的概念和相关术语的数组。基于UIMA的解决方案使用本体来提供语义标记,从而可以独立于数据格式(文本,语音,PowerPoint演示,电子邮件,视频等)进行丰富的搜索。 UIMA将另一图层附加到捕获的数据,然后添加
元数据 以标识可以进行结构化和语义搜索的数据。 语义搜索
基于搜索项的上下文含义,因为它们出现在UIMA构建的可搜索数据空间中。语义搜索比通常的基于关键字的搜索更准确,因为用户查询不仅返回包含搜索条件的文档的搜索结果,而且返回与查询语义相关的文档的搜索结果。 如果您在非洲搜索 生物多样性 ,典型的(基于关键词)搜索将返回具有 生物多样性
和 非洲
。基于UIMA的语义搜索不仅会返回具有这两个词的文档,还会返回与“非洲生物多样性”文档中语义相关的任何文档,这些文档包含“非洲植物资源”,“摩洛哥“,或”津巴布韦的遗传资源“。 “ 通过语义标记和使用本体,信息变得语义上可检索,独立于语言或创建信息的媒介(Word,PowerPoint,电子邮件,视频等)。该解决方案提供了一个单一的集线器,可以捕获,组织,交换和呈现语义检索数据。同义词和相关术语的字典是开放源代码的(免费提供的),或者您可以开发自己的特定于您的域或数据的字典。您可以使用根词及其相应的词,同义词和更广泛的术语来构建电子表格。电子表格可以上传到IBM Content Analytics(ICA)等搜索工具中,为企业搜索和内容分析提供支持。