Data Cluster

    @noneface  22 Jul 2017


(2)  Data Cluster, 一种用以寻找紧密相关的事、人或观点,并将其可视化的方法。

Supervisesd versus Unsupervised Learning

监督学习 Supervisesd Learning

利用样本输入和期望输出来学习如何预测的技术被成为监督学习法(Supervisesd Learning methods)。

其中包括:神经网络、决策树、向量支持机,以及贝叶斯过滤。

这类方法,会通过检查一组输入和期望的输出来进行学习。

无监督学习 Unsupervised Learning

在一组数据中找寻某种结构。

Data Cluster

聚类(Data Cluster)的目标就是采集数据,然后从中找到不同的群组。

聚类也是一种无监督学习。

聚类方法

分级聚类 Hierarchical Clustering

分级聚类通过连续不断地将最为相似的群组两两合并,并且构造一个群组的层级结构。其中的每个群组都是从单一元素开始的。

所以,分级聚类的过程,可以大致总结为:

1. 初始状态,将每个单一元素看作一个独立的群组。
2. 合并状态,计算每个群组之间的距离,将距离最近的两个群组进行合并。(新的群组,取原来两个群组的均值)
3. 重复2,继续计算每个群组之间的距离,进行最近距离群组的合并。
4. 直到最后剩下 1 个群组,既终止。

最后的聚类结果,会成为树状结构。有点像(哈夫曼树/最优二叉树)

K-均值聚类 K-Means Clustering

预先设定希望生成的聚类数量,算法根据数据的结构状况来确定聚类的大小。

K-Means Clustering 算法首先会随机确定 k 个中心的位置,然后将各个数据项分配给最临近的中心点。

过程大致总结为:

1. 初始状态,随机生成 K 个中心点。
2. 计算每个数据元素与各个中心点的距离,将每个数据元素分配给与之最近的中心点。
3. 根据与中心点相关的数据元素,计算均值,修改中心点位置。
4. 重复 2 ,再进行修改中心点位置。
5. 直到中心点位置不再变化。

EOF


Follow your heart  |   nonefacesay@gmail.com