📄 19.txt
字号:
发信人: yaomc (白头翁&山东大汉), 信区: DataMining
标 题: [合集]*******请教**************
发信站: 南京大学小百合站 (Sat Jan 5 16:51:46 2002), 站内信件
highso (漫步者) 于Fri Nov 23 11:38:53 2001提到:
现在有一批预处理过的数据,其中每一个数据都是属性集,共有40个左右的
属性,属性值有连续值、离散值、符号集三种;每条数据要么是正常的,要么
是异常的,但是数据中不标明,现在要对这批数据处理,分析出其中正常模式和异常模式
,也就是要二分这批数据,请问该如何作?
请各位大侠支招!3x!
ssos (存在与虚无) 于Fri Nov 23 12:31:42 2001提到:
定义一个数据之间的距离
然后做聚集
自成聚集的就是异常数据
highso (漫步者) 于Fri Nov 23 13:35:20 2001提到:
多谢!请问你说的就是自聚类吧?
这种距离该如何定义?你能详细解释一下吗?我不是搞DM的,应该看
什么书呀?
bow~
ssos (存在与虚无) 于Fri Nov 23 14:11:02 2001提到:
距离的定义就看你的需要了
可以把每一维的数据单独计算,然后加权平均
也有其他的方法,这和数据的具体情况有关
今年的sigmod论文中又一篇是关于利用cluster
寻找高维数据中的特殊点的,你不妨找来看看
highso (漫步者) 于Fri Nov 23 14:33:18 2001提到:
sigmod的论文在那里?请指点
ssos (存在与虚无) 于Fri Nov 23 14:37:40 2001提到:
www.acm.org
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -