目录:
视频: 丘成桐对人工智能、大数据、量子计算的权威点评 2024
在从预测分析项目的数据集中提取相似数据项的组之前,可能需要在表格中表示数据格式称为 数据矩阵 。这是数据聚类之前的预处理步骤。
如何在文档
中创建术语的预测分析矩阵假设您即将分析的数据集包含在一组Microsoft Word文档中。您需要做的第一件事是将文档集合转换为数据矩阵。一些商业和开源工具可以处理这个任务,产生一个矩阵,其中每一行对应于数据集中的一个文档。这些工具的例子包括RapidMiner和R文本挖掘软件包。
<! - 1 - >一个 文档 本质上是一组单词。一个 词条 是一个单词或多个单词的集合。
文档中包含的每个术语在同一个文档中被提及一次或几次。文档中提到的术语次数可以用数字值 术语频率 (TF)表示。
我们在文档中构建术语矩阵,如下所示:
-
出现在所有文档中的术语在顶部行中列出。
-
文档标题列在最左边的列
-
中矩阵单元格内出现的数字对应于每个词的频率。例如,文档A被表示为一组数字(5,16,0,19,0,0),其中5对应于重复术语
预测分析 的次数,16对应于 计算机科学 重复的次数,等等。这是将一组文档转换为矩阵的最简单方法。 <!
预测分析计算机科学 | 学习 | 群集 | 2013 | 人类学 | 文档A | |
---|---|---|---|---|---|---|
5 | 16 | 0 <文档B | 8 | 6 | 2 | 3 |
0 | 0 | 文档C | 0 | 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 99999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999999 999 >文件E | 2 | 16 |
16 | 0 | 2 | 13 | 文件F | 13 | 0 |
19 | 16 > 4 | 2 | 预测分析术语选择的基础 | 对文本文档进行分组的一个挑战是确定如何选择最佳术语来表示集合中的所有文档。术语在一组文档中的重要性可以通过不同的方式进行计算。 | 例如,如果您计算文档中重复出现词条的次数,并将该总数与整个集合中出现的频率进行比较,则可以了解该词语相对于其他词条的重要性。在一个集合中,根据一个词的频率的相对重要性,通常称为 | 加权 |
。您分配的重量可以基于两个原则: | 在文档中出现多次的术语比仅出现一次的术语更受欢迎。 | 在相对较少的文件中使用的术语比所有文件中提到的术语更受欢迎。 | 如果(例如)在数据集的所有文档中提及了 | 世纪 | 这个术语,那么您可能不会考虑为其分配足够的权重以在矩阵中拥有自己的列。同样,如果您正在处理在线社交网络用户的数据集,则可以轻松地将该数据集转换为矩阵。用户ID或名称将占用行;列将列出最能描述这些用户的功能。 |