📄 240.txt
字号:
发信人: fpzh (fpzh), 信区: DataMining
标 题: Re: 偶的方向是海量数据挖掘
发信站: 南京大学小百合站 (Tue Dec 10 22:35:24 2002), 站内信件
你要做哪方面挖掘?关联,分类,聚类,还是其他?
其他的算法当然有,决策树其实有不少问题的,比如过学习(Overfitting)。决策树的
属性选择和剪枝策略各自都有十几种了,正向GzLi以前说的,大的改进是不太好做了。
自己感觉顶多是在大规模数据处理方面,在现有的SLIQ等算法的基础上,能否再有所改
进?
当前分类和回归比较好的理论是SVM,但关键是在海量数据处理方面再作出大的改进,比
如可以处理几十万甚至几百万的数据(估计不太容易,谁能提出新的训练算法就厉害了
,呵呵,所以说工程上还是用成熟的算法比较保险)
【 在 finalgas (数据挖掘*为你而累) 的大作中提到: 】
: 首先感谢前面的仁兄fpzh给出的精彩解答。
: 偶的老板叫偶就是做海量数据挖掘了,现在在跟一个IDS的项目,
: 还要开发一个海量数据挖掘的平台(对象主要是disk-resident data),
: 并把该平台嵌入IDS中。偶目前也是刚刚踩进这个DM的泥潭中,自知已
: 无退路。哎。,,
: 偶面临的问题主要有:
: 1,方向不明确。偶是决意不考博了,书已经读怕了。^_^ 所以很
: 担心做这个将来找不到工作。偶实验室主要是做rough的以前,师兄们
: 都说做rough找工作黑难找。DM也差不多,都搞算法多。因此郁闷ing。。。
: 2,不知道应该从何着手,偶是看了很多论文,但仍找不到边。
: 现在想想是不是就是找一种好的算法来实现处理disk-resident data,然后
: 再用自己开发的平台与现在常见的此类算法比较性能,如果不错,就
: 此毕业。 不知道对否?? 最好是改进现在的算法,会容易些。 ^_^
: 3,照前面fpzh说的,除了决策树的算法之外现在就没有其他好的
: 的算法应用在这方面了?也就是这方面还是比较真空的,至少从算法
: 上来说。也承认像olap等在应用中是可以部分解决这类问题的。^_^
: 偶的邮箱是:finalgas@sohu.com
: 望高手指点!
: finalgas
--
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.113.12.191]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -