📄 17.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: [合集]偶的方向是海量数据挖掘
发信站: 南京大学小百合站 (Thu Dec 12 00:03:33 2002)
finalgas (数据挖掘*为你而累) 于Tue Dec 10 19:00:54 2002提到:
首先感谢前面的仁兄fpzh给出的精彩解答。
偶的老板叫偶就是做海量数据挖掘了,现在在跟一个IDS的项目,
还要开发一个海量数据挖掘的平台(对象主要是disk-resident data),
并把该平台嵌入IDS中。偶目前也是刚刚踩进这个DM的泥潭中,自知已
无退路。哎。,,
偶面临的问题主要有:
1,方向不明确。偶是决意不考博了,书已经读怕了。^_^ 所以很
担心做这个将来找不到工作。偶实验室主要是做rough的以前,师兄们
都说做rough找工作黑难找。DM也差不多,都搞算法多。因此郁闷ing。。。
2,不知道应该从何着手,偶是看了很多论文,但仍找不到边。
现在想想是不是就是找一种好的算法来实现处理disk-resident data,然后
再用自己开发的平台与现在常见的此类算法比较性能,如果不错,就
此毕业。 不知道对否?? 最好是改进现在的算法,会容易些。 ^_^
3,照前面fpzh说的,除了决策树的算法之外现在就没有其他好的
的算法应用在这方面了?也就是这方面还是比较真空的,至少从算法
上来说。也承认像olap等在应用中是可以部分解决这类问题的。^_^
偶的邮箱是:finalgas@sohu.com
望高手指点!
finalgas
fpzh (fpzh) 于Tue Dec 10 22:35:24 2002提到:
你要做哪方面挖掘?关联,分类,聚类,还是其他?
其他的算法当然有,决策树其实有不少问题的,比如过学习(Overfitting)。决策树的
属性选择和剪枝策略各自都有十几种了,正向GzLi以前说的,大的改进是不太好做了。
自己感觉顶多是在大规模数据处理方面,在现有的SLIQ等算法的基础上,能否再有所改
进?
当前分类和回归比较好的理论是SVM,但关键是在海量数据处理方面再作出大的改进,比
如可以处理几十万甚至几百万的数据(估计不太容易,谁能提出新的训练算法就厉害了
,呵呵,所以说工程上还是用成熟的算法比较保险)
【 在 finalgas (数据挖掘*为你而累) 的大作中提到: 】
: 首先感谢前面的仁兄fpzh给出的精彩解答。
: 偶的老板叫偶就是做海量数据挖掘了,现在在跟一个IDS的项目,
: 还要开发一个海量数据挖掘的平台(对象主要是disk-resident data),
: 并把该平台嵌入IDS中。偶目前也是刚刚踩进这个DM的泥潭中,自知已
: 无退路。哎。,,
: 偶面临的问题主要有:
: 1,方向不明确。偶是决意不考博了,书已经读怕了。^_^ 所以很
: 担心做这个将来找不到工作。偶实验室主要是做rough的以前,师兄们
: 都说做rough找工作黑难找。DM也差不多,都搞算法多。因此郁闷ing。。。
: 2,不知道应该从何着手,偶是看了很多论文,但仍找不到边。
: 现在想想是不是就是找一种好的算法来实现处理disk-resident data,然后
: 再用自己开发的平台与现在常见的此类算法比较性能,如果不错,就
: 此毕业。 不知道对否?? 最好是改进现在的算法,会容易些。 ^_^
: 3,照前面fpzh说的,除了决策树的算法之外现在就没有其他好的
: 的算法应用在这方面了?也就是这方面还是比较真空的,至少从算法
: 上来说。也承认像olap等在应用中是可以部分解决这类问题的。^_^
: 偶的邮箱是:finalgas@sohu.com
: 望高手指点!
: finalgas
ihappy (seagullx~壮起鼠胆把猫打倒) 于Tue Dec 10 22:47:01 2002提到:
Does IDS mean Intrusion Detection System?
I never did DM and IDS, but I think that IDS faces a skew-distribution problem,
i.e. in IDS, normal operation data are huge, however, attacks are extremely
rare. Is there any good algorithm to deal with this?
【 在 finalgas (数据挖掘*为你而累) 的大作中提到: 】
: 首先感谢前面的仁兄fpzh给出的精彩解答。
: 偶的老板叫偶就是做海量数据挖掘了,现在在跟一个IDS的项目,
: 还要开发一个海量数据挖掘的平台(对象主要是disk-resident data),
: 并把该平台嵌入IDS中。偶目前也是刚刚踩进这个DM的泥潭中,自知已
: 无退路。哎。,,
: 偶面临的问题主要有:
: 1,方向不明确。偶是决意不考博了,书已经读怕了。^_^ 所以很
: 担心做这个将来找不到工作。偶实验室主要是做rough的以前,师兄们
: 都说做rough找工作黑难找。DM也差不多,都搞算法多。因此郁闷ing。。。
: 2,不知道应该从何着手,偶是看了很多论文,但仍找不到边。
: 现在想想是不是就是找一种好的算法来实现处理disk-resident data,然后
: 再用自己开发的平台与现在常见的此类算法比较性能,如果不错,就
: 此毕业。 不知道对否?? 最好是改进现在的算法,会容易些。 ^_^
: 3,照前面fpzh说的,除了决策树的算法之外现在就没有其他好的
: 的算法应用在这方面了?也就是这方面还是比较真空的,至少从算法
: 上来说。也承认像olap等在应用中是可以部分解决这类问题的。^_^
: 偶的邮箱是:finalgas@sohu.com
: 望高手指点!
: finalgas
guitar (新宠酱牛肉) 于Wed Dec 11 00:02:13 2002)
提到:
There are a number of algorithms on outlier-detection, e.g., a SIGMOD2001 pape
r, But I don't know if they are good or not for your purpose. ;)
【 在 ihappy 的大作中提到: 】
: Does IDS mean Intrusion Detection System?
: I never did DM and IDS, but I think that IDS faces a skew-distribution pro..
: i.e. in IDS, normal operation data are huge, however, attacks are extremel..
: rare. Is there any good algorithm to deal with this?
: 【 在 finalgas (数据挖掘*为你而累) 的大作中提到: 】
: (以下引言省略...)
helloboy (hello) 于Wed Dec 11 08:51:36 2002提到:
IDS---Intelligent Desicion Support
我想,通过算法,在实际工程中进行检验,可以提高理论的实际应用性,对于将来找工作
有用。在实践中不要忘记用理论来充实,在研究理论时不要脱离实际。
数据挖掘包括很多方面,基本的有分类、聚类、关联规则等。
每方面都有很多算法,在分类上包括了范例推理、决策树、神经网络、bayes等。各有特
点,看你需要咯。
我也在做一个数据挖掘平台,主要是嵌入多种算法,支持多种数据源。类似
weka这个软件,不过对其进行了很多优化。目前进入4.0开发,向实用性考虑。
主要是海量数据处理和方便2次开发,不知道各位有没有经验?
【 在 finalgas (数据挖掘*为你而累) 的大作中提到: 】
: 首先感谢前面的仁兄fpzh给出的精彩解答。
: 偶的老板叫偶就是做海量数据挖掘了,现在在跟一个IDS的项目,
: 还要开发一个海量数据挖掘的平台(对象主要是disk-resident data),
: 并把该平台嵌入IDS中。偶目前也是刚刚踩进这个DM的泥潭中,自知已
: 无退路。哎。,,
: 偶面临的问题主要有:
: 1,方向不明确。偶是决意不考博了,书已经读怕了。^_^ 所以很
: 担心做这个将来找不到工作。偶实验室主要是做rough的以前,师兄们
: 都说做rough找工作黑难找。DM也差不多,都搞算法多。因此郁闷ing。。。
: 2,不知道应该从何着手,偶是看了很多论文,但仍找不到边。
: 现在想想是不是就是找一种好的算法来实现处理disk-resident data,然后
: 再用自己开发的平台与现在常见的此类算法比较性能,如果不错,就
: 此毕业。 不知道对否?? 最好是改进现在的算法,会容易些。 ^_^
: 3,照前面fpzh说的,除了决策树的算法之外现在就没有其他好的
: 的算法应用在这方面了?也就是这方面还是比较真空的,至少从算法
: 上来说。也承认像olap等在应用中是可以部分解决这类问题的。^_^
: 偶的邮箱是:finalgas@sohu.com
: 望高手指点!
: finalgas
juggernaut (万念俱灰) 于Wed Dec 11 08:58:09 2002提到:
SIGMOD2001哪里有?
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -