聚类是观察式学习,在聚类前可以不知道类别甚至不给定类别数量,是无监督学习的一种。k均值k-mes算法是一种迭代求解的聚类分析算法,所谓聚类问题,就是给定一个元素集合D,其中每个元素具有个可观察属性,使用某种算法将D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不同子集的元素相异度尽可能高,其中每个子集叫做一个簇。 .、相异度计算 用通俗的话说,相异度就是两个东西差别有多大。
在数学上对相异度的定义指的
是:设,其中X,Y是两个元素项,各自具 99 英亩数据库 有个可度量特征属性,那么X和Y的相异度定义为:,其中R为实数域,也就是说相异度是两个元素对实数域的一个映射,所映射的实数定量表示两个元素的相异度。 在计算不同元素的相异度上我们采用欧几里得距离来作为相异度,其意义就是两个元素在欧氏空间中的集合距离,因为其直观易懂且可解释性强,被广泛用于标识两个标量元素的相异度。
欧几里得距离的定义如下
在真实应用中,经常会出现元素项的取值问题,取值范围 品牌在潜在客户中的曝光率 大的属性对距离的影响高于取值范围小的属性,比如在RFM模型的属性中,M的取值往往要远大于F的取值,这样不利于真实反映真实的相异度,为了解决这个问题,一般要对属性值进行规格化。 规格化的意思就是将各个属性值按比例映射到相同的取值区间通常将各个属性均映射到[,]区间,这样是为了平衡各个属性对距离的影响。 映射公式为: 表示所有元素项中个属性的最大值和最小值,x是集合中的一个属性指标。
聚类算法 把近两年内还有订
购记录的客户设定为一个元素集合D,其中每个 AGB目录 元素有个具有可观察的属性:R近度、F频度、M值度。 元素集合D按照K-mes聚类算法把他分为个聚类子集: 把集合D中每一个元素客户的RFM属性进行规格化,是基于按照映射公式把各个属性均映射到[,]区间的结果; 对集合的各个属性进行加权处理,加权属性权重H法确定的权向量中对应的权重,加权后的集合; 从集合中随机选取K个元素k ,作为作为k个簇的各自的中心; 分别计算剩下的元素到k个簇中心的相异度按照欧几里得距离度量,将这些元素分别划归到相异度最低的簇; 根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数; 心重新聚类; 重复第步,直到聚类结果跟最近一次的聚类结果一致,不再变化; 输出最终的聚类结果; .、划分客户类别 不同的层级聚合揭示不同层级的客户在行为上的特性以及变化倾向