数据科学中使用的算法 - 虚拟

视频: 9 3 虚拟遗憾最小化算法 2025

您可以使用聚类算法将数据集细分为与预定义属性最相似的数据点群集。如果您有一个描述关于特定特征的多个属性的数据集，并且想根据它们的属性相似性对您的数据点进行分组，则使用聚类算法。

一个简单的国家收入和教育数据集的散点图可以得出您在这里看到的图表。

<！ --1 - >

在无监督聚类中，从这个数据开始，然后继续将它分成子集。这些子集被称为簇，并且由彼此最相似的数据点组成。看起来，至少有两个集群，大概是三分之一低收入和低收入国家，然后高教国家看起来可能分成低收入和高收入。

<！ - 2 - >

下图显示目测的结果 - 对此数据集中的聚类进行目测估计。尽管您可以生成聚类的可视化估计，但是通过使用算法为您生成聚类来处理更大的数据集时，可以获得更准确的结果。视觉估计是一个粗略的方法，只对最小复杂度较小的数据集有用。算法 - 生成确切的，可重复的结果，并且可以使用算法为数据集中的多维数据生成聚类。