个人理财 如何将原始数据转换为预测分析矩阵

如何将原始数据转换为预测分析矩阵

目录:

视频: 丘成桐对人工智能、大数据、量子计算的权威点评 2024

视频: 丘成桐对人工智能、大数据、量子计算的权威点评 2024
Anonim

在从预测分析项目的数据集中提取相似数据项的组之前,可能需要在表格中表示数据格式称为 数据矩阵 。这是数据聚类之前的预处理步骤。

如何在文档

中创建术语的预测分析矩阵假设您即将分析的数据集包含在一组Microsoft Word文档中。您需要做的第一件事是将文档集合转换为数据矩阵。一些商业和开源工具可以处理这个任务,产生一个矩阵,其中每一行对应于数据集中的一个文档。这些工具的例子包括RapidMiner和R文本挖掘软件包。

<! - 1 - >

一个 文档 本质上是一组单词。一个 词条 是一个单词或多个单词的集合。

文档中包含的每个术语在同一个文档中被提及一次或几次。文档中提到的术语次数可以用数字值 术语频率 (TF)表示。

我们在文档中构建术语矩阵,如下所示:

  • 出现在所有文档中的术语在顶部行中列出。

  • 文档标题列在最左边的列

  • 中矩阵单元格内出现的数字对应于每个词的频率。例如,文档A被表示为一组数字(5,16,0,19,0,0),其中5对应于重复术语

预测分析 的次数,16对应于 计算机科学 重复的次数,等等。这是将一组文档转换为矩阵的最简单方法。 <!

预测分析
如何将原始数据转换为预测分析矩阵

编辑的选择

在Flash中使用活动文本 - 虚拟人物

在Flash中使用活动文本 - 虚拟人物

静态文本完成工作,为您提供信息网站访问者。但是Flash可以用文本来做更多的事情。有时候,你不希望自己的文本是文本,而是喜欢一堆可以弯曲,扭曲,移动,或者不能混合的独立字母形状。 Flash的分离命令...

移动网站质量保证测试 - 傻瓜

移动网站质量保证测试 - 傻瓜

在为IPhone推出新网站之前, iPad,始终在iPhone或iPad上全面测试其设计和功能,确保网站的外观和工作方式与您的想法完全相同。使用模拟器不能替代完成物理设备上的最终检查表。 As ...

QuarkXPress 5基本任务的快捷方式 - 虚拟人物

QuarkXPress 5基本任务的快捷方式 - 虚拟人物

QuarkXPress 5具有数吨和数吨的快捷方式。你大概不会记住他们中的大多数,但是你一定会发现自己一直在使用一两个。这里有一些有用的视图,调色板和对象选择任务的快捷键。 QuarkXPress查看快捷方式操作Mac Windows 100%命令+ 1 Ctrl + 1在窗口中装入Command + 0 Ctrl + 0 200%...

编辑的选择

如何将尼康D5300照片下载到计算机 - 傻瓜

如何将尼康D5300照片下载到计算机 - 傻瓜

你的尼康D5300,你可能会想用他们的照片编辑软件。您可以用两种方法将照相机中的照片和电影文件移到电脑上:通过USB电缆将照相机连接到电脑。您需要的电缆是随附的。

如何在播放期间放大尼康D7100照片 - 虚拟人物

如何在播放期间放大尼康D7100照片 - 虚拟人物

您的尼康D7100,如左图所示,您可以放大它,如右图所示。但是,您只能放大静止照片。此功能不适用于电影。以下是如何使用放大功能:放大。按Qual按钮。您可以...

如何在尼康D7100上播放时隐藏照片 - 虚拟人物

如何在尼康D7100上播放时隐藏照片 - 虚拟人物

可以使用隐藏图像选项在尼康D7100的播放菜单上隐藏一些照片,同时在播放过程中显示其他照片。假设你拍了100张照片--50次在商务会议上,50次在野外会议后。您想向您的老板展示您和您的同事的照片...

编辑的选择

IBS受害者如何制作草莓和奶油燕麦 - 假人

IBS受害者如何制作草莓和奶油燕麦 - 假人

您可以享用燕麦片如果你患有IBS。当快燕麦烹饪时,切碎草莓和香蕉(IBS主食),并从冰箱中取出椰奶。一旦这样做,燕麦片通常是准备倒。你可以添加不同的水果,甚至坚果作为你的...

如何为IBS患者制作绿鸡蛋烘焙者 - 假人

如何为IBS患者制作绿鸡蛋烘焙者 - 假人

使用自由放养的鸡,因为它们是谷物喂养,没有生长激素和抗生素,因此,IBS的肚子更健康。用任何鸡肉菜肴,一定要煮好你使用的任何一种鸡肉。当你对这道菜更加熟悉的时候,你可能会发现你并不需要...

计算机科学 学习 群集 2013 人类学 文档A
5 16 0 <文档B 8 6 2 3
0 0 文档C 0 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 99999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999 >文件E 2 16
16 0 2 13 文件F 13 0
19 16 > 4 2 预测分析术语选择的基础 对文本文档进行分组的一个挑战是确定如何选择最佳术语来表示集合中的所有文档。术语在一组文档中的重要性可以通过不同的方式进行计算。 例如,如果您计算文档中重复出现词条的次数,并将该总数与整个集合中出现的频率进行比较,则可以了解该词语相对于其他词条的重要性。在一个集合中,根据一个词的频率的相对重要性,通常称为 加权
。您分配的重量可以基于两个原则: 在文档中出现多次的术语比仅出现一次的术语更受欢迎。 在相对较少的文件中使用的术语比所有文件中提到的术语更受欢迎。 如果(例如)在数据集的所有文档中提及了 世纪 这个术语,那么您可能不会考虑为其分配足够的权重以在矩阵中拥有自己的列。同样,如果您正在处理在线社交网络用户的数据集,则可以轻松地将该数据集转换为矩阵。用户ID或名称将占用行;列将列出最能描述这些用户的功能。