什么是k均值聚类?

数据挖掘与K-Means算法

k -均值聚类算法是一种数据挖掘机器学习工具用于将观测数据聚类为相关观测数据组,而不需要事先了解这些关系。通过抽样,算法试图显示数据属于哪个类别或聚类,聚类的数量由值定义k。

k -均值算法是最简单的聚类技术之一,广泛应用于医学影像、生物识别等领域。的优势k -聚类意味着它告诉你的数据(使用它的无监督形式),而不是你必须在一开始就告诉算法关于数据的信息(使用算法的监督形式)。

它有时被称为劳埃德算法尤其是在计算机科学领域,因为标准算法是由斯图亚特·劳埃德在1957年首次提出的。“k-means”一词是由詹姆斯·麦昆在1967年创造的。

K-Means算法如何发挥作用

k -均值算法是一种进化算法,因其运算方法而得名。该算法将观测数据聚类为k组,k作为输入参数提供。然后,它根据观测值与聚类均值的接近度将每个观测值分配给聚类。然后重新计算集群的平均值,这个过程再次开始。以下是该算法的工作原理:

  1. 算法任意选择k点作为初始聚类中心(均值)。
  2. 数据集中的每个点都根据每个点与每个聚类中心之间的欧氏距离分配给封闭聚类。
  3. 每个聚类中心被重新计算为该聚类中点的平均值。
  4. 重复步骤2和3,直到集群收敛。收敛性可能根据实现的不同而有不同的定义,但它通常意味着当重复步骤2和3时,没有观测值改变聚类,或者这些变化对聚类的定义没有实质性的影响。

选择集群数量

的主要缺点之一k -均值聚类是指必须指定聚类的数量作为算法的输入。根据设计,该算法无法确定适当的聚类数量,并依赖于用户提前识别。

例如,如果你有一群人,他们将根据男性或女性的二元性别身份聚集在一起,称为k -表示使用输入的算法k = 3当只有两个或一个输入时,会迫使人们分成三个群集吗k = 2,会更适合你。

类似地,如果一组个人很容易根据所在州聚集在一起,并且您调用k -均值算法与输入k = 20,这个结果可能太笼统而不有效。

出于这个原因,尝试不同的值通常是一个好主意k以确定最适合您的数据的值。您也可能希望探索的使用其他数据挖掘算法在你对机器学习知识的探索中。

这个页面有用吗?