如何搜索您的预测分析数据 - 假人

您的预测分析数据，您需要知道如何找到您想要查找的信息。有两个主要的概念来搜索你的数据，准备在预测分析中使用它：

准备超越基本的关键字搜索
使你的数据在语义上可搜索

如何在预测中使用基于关键字的搜索分析

<！ --1 - >

想象一下，如果你的任务是搜索大量的数据。解决这个问题的一种方法是发出一个由（明显）单词组成的搜索查询。搜索工具在数据库，数据仓库中查找匹配的单词，或者搜索数据所在的任何文本。

假设您正在发出以下搜索查询：美国总统访问非洲。搜索结果将由文本组成，其中包含正确的一个或组合总统，美国，访问，非洲。你可能会得到你正在寻找的确切信息，但并不总是。

<！ - 2 - >

不包含前面提到的任何单词的文件如何，但以下的一些组合：奥巴马访问肯尼亚。

您最初搜索的单词都不在其中 - 但是搜索结果是在语义上（有意义的）有用。你如何准备你的数据可以在语义上检索？你怎么能超越传统的关键字搜索？如果你继续阅读，你的答案可以找到。

<！如何在预测分析中使用基于语义的搜索

基于语义的搜索是一个以Anasse Bari为首的世界银行集团主导的项目的例子，世行集团的主要任务就是要与世界各地的贫困作斗争。

该项目旨在调查现有的大型企业搜索和分析市场，并建立一个组织世界银行数据的尖端框架的原型 - 其中大部分是非结构化的文件，出版物，项目报告，简介和案例研究。

这个庞大的宝贵知识是世行减少世界贫困的主要使命之一。但是非结构化的事实使得访问，捕获，共享，理解，搜索，数据挖掘和可视化变得非常困难。世界银行是一个庞大的组织，在世界各地有许多分支机构。其中一个主要部门是争取建立一个框架，并准备拨出资源协助巴里团队成为世界银行内部的人类发展网络。

人类发展网络的副总裁列出了一个模棱两可的问题：他的部门使用了几个术语和概念，这些术语和概念具有相同的整体含义，但有不同的细微差别。例如，诸如

气候学，气候变化，气体臭氧消耗，

和

温室气体排放等术语在含义上都是语义上相关但不完全相同的。他希望有一个足够聪明的搜索能力来提取包含相关概念的文档，当有人搜索这些术语时。 Bari团队选择的原型框架是非结构化信息管理架构（UIMA），这是一个基于软件的解决方案。 IBM最初由IBM Research设计，UIMA可用于IBM软件，例如IBM Content Analytics，这是IBM Watson（赢得Jeopardy游戏的着名计算机）的工具之一。巴里团队与来自IBM内容管理和企业搜索的一个非常有才华的团队，后来与IBM沃森团队合作，在这个项目上进行合作。非结构化信息管理（UIM）解决方案是一种分析大量非结构化信息（文本，音频，视频，图像等）以发现，组织和传递相关知识的软件系统客户端或应用程序最终用户。域的

本体

是特定于域的概念和相关术语的数组。基于UIMA的解决方案使用本体来提供语义标记，从而可以独立于数据格式（文本，语音，PowerPoint演示，电子邮件，视频等）进行丰富的搜索。 UIMA将另一图层附加到捕获的数据，然后添加

元数据以标识可以进行结构化和语义搜索的数据。语义搜索

基于搜索项的上下文含义，因为它们出现在UIMA构建的可搜索数据空间中。语义搜索比通常的基于关键字的搜索更准确，因为用户查询不仅返回包含搜索条件的文档的搜索结果，而且返回与查询语义相关的文档的搜索结果。如果您在非洲搜索生物多样性，典型的（基于关键词）搜索将返回具有生物多样性

和非洲

。基于UIMA的语义搜索不仅会返回具有这两个词的文档，还会返回与“非洲生物多样性”文档中语义相关的任何文档，这些文档包含“非洲植物资源”，“摩洛哥“，或”津巴布韦的遗传资源“。 “ 通过语义标记和使用本体，信息变得语义上可检索，独立于语言或创建信息的媒介（Word，PowerPoint，电子邮件，视频等）。该解决方案提供了一个单一的集线器，可以捕获，组织，交换和呈现语义检索数据。同义词和相关术语的字典是开放源代码的（免费提供的），或者您可以开发自己的特定于您的域或数据的字典。您可以使用根词及其相应的词，同义词和更广泛的术语来构建电子表格。电子表格可以上传到IBM Content Analytics（ICA）等搜索工具中，为企业搜索和内容分析提供支持。