基于k均值聚类的数据挖掘 - 乐动体育投注备用网址

的k -均值聚类算法是一种数据挖掘机器学习工具用于将观测数据聚类为相关观测数据组，而不需要事先了解这些关系。通过抽样，算法试图显示数据属于哪个类别或聚类，聚类的数量由值定义k。

的k -均值算法是最简单的聚类技术之一，广泛应用于医学影像、生物识别等领域。的优势k -聚类意味着它告诉你的数据(使用它的无监督形式)，而不是你必须在一开始就告诉算法关于数据的信息(使用算法的监督形式)。

它有时被称为劳埃德算法尤其是在计算机科学领域，因为标准算法是由斯图亚特·劳埃德在1957年首次提出的。“k-means”一词是由詹姆斯·麦昆在1967年创造的。

K-Means算法如何发挥作用

的k -均值算法是一种进化算法，因其运算方法而得名。该算法将观测数据聚类为k组,k作为输入参数提供。然后，它根据观测值与聚类均值的接近度将每个观测值分配给聚类。然后重新计算集群的平均值，这个过程再次开始。以下是该算法的工作原理:

算法任意选择k点作为初始聚类中心(均值)。
数据集中的每个点都根据每个点与每个聚类中心之间的欧氏距离分配给封闭聚类。
每个聚类中心被重新计算为该聚类中点的平均值。
重复步骤2和3，直到集群收敛。收敛性可能根据实现的不同而有不同的定义，但它通常意味着当重复步骤2和3时，没有观测值改变聚类，或者这些变化对聚类的定义没有实质性的影响。