📄 829.txt
字号:
发信人: francois (断玉), 信区: DataMining
标 题: Re: 关于聚类
发信站: 南京大学小百合站 (Thu Nov 14 11:59:22 2002)
首先引用《数据挖掘:概念与技术》第8.1节的一段话:
“聚类的典型应用是什么?”在商业上,聚类能帮助市场分析人员从客户基本库中发现不
同的客户群,并且用购买模式来刻画不同的客户群的特征。在生物学上,聚类能用于推导
植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。聚类在地球观测数
据库中相似地区的确定,汽车保险持有者的分组,及根据房子的类型,价值,和地理位置
对一个城市中房屋的分组上也可以发挥作用。聚类也能用于对Web上的文档进行分类,以发
现信息。作为一个数据挖掘的功能,聚类分析能作为一个独立的工具来获得数据分布的情
况,观察每个簇的特点,集中对特定的某些簇作进一步的分析。此外,聚类分析可以作为
其他算法(如分类等)的预处理步骤,这些算法再在生成的簇上进行处理。
我的感觉是聚类应该基本上算是一种预处理,聚类的结果则是为进一步分析或分类作准备
。因为聚类本身是一种Unsupervised Learning,实例被聚到哪一个类完全取决于你给定的
距离函数,聚类的结果是否符合应用的期望或者客观的事实都无法确定,因此直接用聚类
的结果(类中心、类的特征等)来进行分类和预测是不合适的,中间应该加上人的参与才
是比较合理的做法。
【 在 GzLi 的大作中提到: 】
: 比如 一篮子水果,有两种不知名的水果,比如是苹果和梨子,而你不认识,
: 你通过聚类分为两类
: 发现一类(苹果)有这种特性,比如红色的、形状象饼、中间是大的、等等
: 而另一类(梨子)具有这种特性,黄色、下大上小、等等。
: 那么一个未知数据来了,看看他们的这些特性,就可以分类了。
: in a word, clustering can make you know the characteristic of the
: research object.
: 【 在 carayang (管理很重要) 的大作中提到: 】
: : 聚类的算法看了一些,我的问题在于:聚类完成后,怎样应用聚类的结果对未来的数
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -