视频: 9 3 虚拟遗憾最小化算法 2024
您可以使用聚类算法将数据集细分为与预定义属性最相似的数据点群集。如果您有一个描述关于特定特征的多个属性的数据集,并且想根据它们的属性相似性对您的数据点进行分组,则使用聚类算法。
一个简单的国家收入和教育数据集的散点图可以得出您在这里看到的图表。
<! --1 - >在无监督聚类中,从这个数据开始,然后继续将它分成子集。这些子集被称为 簇 ,并且由彼此最相似的数据点组成。看起来,至少有两个集群,大概是三分之一低收入和低收入国家,然后高教国家看起来可能分成低收入和高收入。
<! - 2 - >下图显示 目测 的结果 - 对此数据集中的聚类进行目测估计。尽管您可以生成聚类的可视化估计,但是通过使用算法为您生成聚类来处理更大的数据集时,可以获得更准确的结果。视觉估计是一个粗略的方法,只对最小复杂度较小的数据集有用。算法 - 生成确切的,可重复的结果,并且可以使用算法为数据集中的多维数据生成聚类。
<!聚类算法是无监督机器学习中的一种方法 - 其他方法包括用于降维的马尔科夫方法和方法。在以下特征为真的情况下,聚类算法是适当的:
您知道并理解您正在分析的数据集。在运行聚类算法之前,您对子集(集群)的性质没有确切的想法。通常,在运行算法之前,您甚至不知道数据集中有多少个子集。
-
子集(集群)仅由您正在分析的一个数据集确定。
-
您的目标是确定一个描述单个数据集中子集的模型,并仅确定这个数据集。
-
如果添加更多数据,则应重新从头开始分析以获取完整和准确的模型结果。