个人理财 如何将原始数据转换为预测分析矩阵

如何将原始数据转换为预测分析矩阵

目录:

视频: 丘成桐对人工智能、大数据、量子计算的权威点评 2025

视频: 丘成桐对人工智能、大数据、量子计算的权威点评 2025
Anonim

在从预测分析项目的数据集中提取相似数据项的组之前,可能需要在表格中表示数据格式称为 数据矩阵 。这是数据聚类之前的预处理步骤。

如何在文档

中创建术语的预测分析矩阵假设您即将分析的数据集包含在一组Microsoft Word文档中。您需要做的第一件事是将文档集合转换为数据矩阵。一些商业和开源工具可以处理这个任务,产生一个矩阵,其中每一行对应于数据集中的一个文档。这些工具的例子包括RapidMiner和R文本挖掘软件包。

<! - 1 - >

一个 文档 本质上是一组单词。一个 词条 是一个单词或多个单词的集合。

文档中包含的每个术语在同一个文档中被提及一次或几次。文档中提到的术语次数可以用数字值 术语频率 (TF)表示。

我们在文档中构建术语矩阵,如下所示:

  • 出现在所有文档中的术语在顶部行中列出。

  • 文档标题列在最左边的列

  • 中矩阵单元格内出现的数字对应于每个词的频率。例如,文档A被表示为一组数字(5,16,0,19,0,0),其中5对应于重复术语

预测分析 的次数,16对应于 计算机科学 重复的次数,等等。这是将一组文档转换为矩阵的最简单方法。 <!

预测分析
如何将原始数据转换为预测分析矩阵

编辑的选择

如何在Dreamweaver中创建HTML站点地图 - 虚拟人物

如何在Dreamweaver中创建HTML站点地图 - 虚拟人物

创建视觉站点地图,您可以创建网站上所有页面的图表,包括通过导航和子导航的主要页面的互联性。然后,您可以使用这些信息来帮助收集和定义网站内容,并在生成模型时用作指导。

如何创建一个单一的图像CSS3背景 - 傻瓜

如何创建一个单一的图像CSS3背景 - 傻瓜

最简单,最兼容的方式创建一个CSS3的背景,至少有一点点漂亮是使用单个图像。正确的图像说了很多关于您的网站,并提供页面之间的连续性。因为这种方法是标准的,所以你会看到它在很多网站上使用。所有你真正需要的...

如何在CSS3中创建可排序接口 - 傻瓜

如何在CSS3中创建可排序接口 - 傻瓜

电脑要做的,你想要你的CSS3编码来创造这种情况。例如,一台计算机可以按字母顺序将项目比人类可以更快,特别是当列表很长时。但是,排序并不总是合乎逻辑的。您可能希望用户排序...

编辑的选择

尼康D5000数码相机布局 - 傻瓜

尼康D5000数码相机布局 - 傻瓜

这里是一个方便的指针,拨号,按钮和其他外部控制尼康D5000上。 (此数码相机上显示的镜头是与D5000套件一起出售的Nikkor 18-55mm AF-S VR(减震)型号;其他镜头可能不同,标有星号的相机控制具有多种功能。 ...

GoPro相机可以做什么? - 傻瓜

GoPro相机可以做什么? - 傻瓜

GoPro相机可以做什么?这里有一个更相关的问题:你想要做什么?提出这个问题更像是问自己关于自己的愿望和渴望的独特的录像。当你确定你想要捕捉什么时,你所要做的就是将相机连接到...

使用现有的电影为您的GoPro电影 - 傻瓜

使用现有的电影为您的GoPro电影 - 傻瓜

如果你不想创建你自己的GoPro电影照明,你可以尝试使用现有的灯光。以下是在电影中使用可用光源的一些提示。使用白炽灯泡可以使用白炽灯泡来点亮你的电影,但是它们的效果取决于...

编辑的选择

中创建新图像如何在Photoshop CS6中创建新图像 - 傻瓜

中创建新图像如何在Photoshop CS6中创建新图像 - 傻瓜

在Photoshop CS6中从头开始创建一个新的图像。请按照以下步骤使用“新建”功能创建新图像:选择“文件”→“新建”。或者按Ctrl + N(Mac上的Command + N)。输入新文件的名称。如果您不指定名称,Photoshop会为您创建一个名称。 ...

如何在Photoshop CS6中创建新图层 - 虚拟人物

如何在Photoshop CS6中创建新图层 - 虚拟人物

有多种方法可以使用和创建Adobe Photoshop Creative Suite 6中的图层。这些不同的技术可以让您根据您的需求量身定制流程。在打开的图像中创建新的空白图层:单击“图层”面板底部的“创建新图层”图标。您也可以...

如何在Photoshop CS6中创建云 - 虚拟人物

如何在Photoshop CS6中创建云 - 虚拟人物

Photoshop CS6中的云过滤器可以鼓起一片满天的只需点击鼠标即可从头开始。此过滤器使用来自前景和背景颜色的随机值创建云。事实上,大多数Photoshop老手使用这个过滤器太多,他们的图像中有一个惊人的云数量。 ...

计算机科学 学习 群集 2013 人类学 文档A
5 16 0 <文档B 8 6 2 3
0 0 文档C 0 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 99999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999 >文件E 2 16
16 0 2 13 文件F 13 0
19 16 > 4 2 预测分析术语选择的基础 对文本文档进行分组的一个挑战是确定如何选择最佳术语来表示集合中的所有文档。术语在一组文档中的重要性可以通过不同的方式进行计算。 例如,如果您计算文档中重复出现词条的次数,并将该总数与整个集合中出现的频率进行比较,则可以了解该词语相对于其他词条的重要性。在一个集合中,根据一个词的频率的相对重要性,通常称为 加权
。您分配的重量可以基于两个原则: 在文档中出现多次的术语比仅出现一次的术语更受欢迎。 在相对较少的文件中使用的术语比所有文件中提到的术语更受欢迎。 如果(例如)在数据集的所有文档中提及了 世纪 这个术语,那么您可能不会考虑为其分配足够的权重以在矩阵中拥有自己的列。同样,如果您正在处理在线社交网络用户的数据集,则可以轻松地将该数据集转换为矩阵。用户ID或名称将占用行;列将列出最能描述这些用户的功能。