📄 42.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: [合集]突然发现
发信站: 南京大学小百合站 (Sun Sep 22 20:20:12 2002), 站内信件
highso (漫步者) 于Sun Sep 22 09:42:01 2002提到:
对于频繁模式集的发现,实际上如果数据存在数据库中的话,
直接可以拿sql语句实现查询,这样的话效果说不定比fp-tree,
apriori还更好,这样还要这些数据挖掘算法作什么?
太打击了,
helloboy (hello) 于Sun Sep 22 09:59:40 2002提到:
请问sql怎么实现?
highso (漫步者) 于Sun Sep 22 10:08:43 2002提到:
把数据存在数据库中,然后select count(*) from db where item1=1 and item2=2 ....
不就找出支持度了吗?是不是我理解错了?
luoes (luoes) 于Sun Sep 22 12:28:18 2002提到:
sql server本来就可以做数据挖掘的
学校图书馆里有一本书讲得还挺详细得
jimo (寂寞) 于Sun Sep 22 15:22:29 2002提到:
如果你做过实验
确实效果好的话
也不是sql 比fptree算发好的原因
我记得前面有人提过
是dbms 做了优化
joe (十三) 于Sun Sep 22 15:28:35 2002提到:
哦?那你是不是对每一个可能的频繁项集都计算支持度啊?
假设每个属性有n个值,
那么可能的频繁1项集有n个,可能的频繁2项集有n^2个。。。
那么总的可能有n + n^2 + n^3 +....
哈哈,你的机器要爆了。
Apriori算法是对上述搜索空间进行剪枝。他跟sql并不矛盾。
你当然可以用sql实现一个apriori算法。
jimo (寂寞) 于Sun Sep 22 15:30:15 2002提到:
他的意思也许就是你说的
使用sql 实现一个要比完全用c或者其他语言实现一个要快吧
helloboy (hello) 于Sun Sep 22 15:48:37 2002提到:
你这样只能找到一个模式。
Apriori是找出complete patterns.
jimo (寂寞) 于Sun Sep 22 16:05:32 2002提到:
看4081
highso (漫步者) 于Sun Sep 22 17:04:37 2002提到:
怎么会爆呢?sql执行的速度还是很快的,而且n不是很大,
这样作的效果还可以,用fp-tree反而速度很慢:(
fervvac (高远) 于Sun Sep 22 17:32:43 2002提到:
If both approaches are well optimized, DB-base approches will deffinitely
be much slower. Do NOT be misled by vendors, DB is scalable solution,
not the fastest/most efficient solution.
Besides, each run of your sql statement does the computation from scratches,
i.e., ther is no sharing or coordination amont them.
Furthermore, wihtout (covering) index, the only access method of such
a query at each run is table-scan. So your approach is O(2^n) table
scan. Forget about it.
helloboy (hello) 于Sun Sep 22 17:47:40 2002提到:
讲来讲去你都不明白。
你这样用sql查出来的只是一个模式。
Apriori算法能找出所有的模式。
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -