📄 891.txt
字号:
发信人: xlcy (all nothing), 信区: DataMining
标 题: Re: 再问
发信站: 南京大学小百合站 (Sat Mar 9 20:40:10 2002), 站内信件
首先谢谢joe的回答,你的回答由一定的道理
不过对于第二个问题我认为最根本的原因不是这样的,
我用了一个下午的时间琢磨了一番
把P231上join step看了好几遍,基本上明白了
应该是这样吧:
to find Lk,we should use achive Ck first by joining Lk-1.
when joining Lk-1∞Lk-1,we should ensure their members's first (k-2) items
are equivalent. then we just combine the last one item to get new itemset
for Ck.
for example:
C3=L2∞L2={{I1,I2},{I1,I3},{I1,I5},{I2,I3},{I2,I4},{I2,I5}}∞{{I1,I2},
{I1,I3},{I1,I5},{I2,I3},{I2,I4},{I2,I5}}
to get C3, k-2=1. so we should ensure the first item of itemset, which will
have join action, are equivalent. here, just the first three itemset and the
last three ones satisfy this condition. So start form{I1,I2},{I1,I3},{I1,I5}
we can get part of C3 {I1,I2,I3},{I1,I2,I5},{I1,I3,I5}(keep the k-2 item cons
tant and
combine the last item,I2,I3,I5). the same to {I2,I3,I4},{I2,I3,I5},{I2,I4,I5}.
so the number of itemsets in C3 is 6.
what's more, the next step is prune step,which is used to get L3 according to
Apriori property.
我的理解是这样的,写出来供大家讨论。
【 在 joe (救世猪) 的大作中提到: 】
: 第一个确实为印刷错误。正确应为:
: {{I1,I2,I3},{I1,I2,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}}
: 频繁k项集跟自己进行“连接”运算,得到候选频繁(k+1)项集。
: 具体操作是将具有k-1个相同元素的频繁k项集合并起来,从而得到
: 一个具有k+1个元素的集合,然后看这个集合的任一k项子集是否是
: 频繁项集,如果都是,则此集合是候选频繁(k+1)项集;如果有
: 一个不是,则放弃此集合。重复上面的步骤直到得到所有候选频繁(k+1)
: 项集。
: 频繁3项集少了{I1,I2,I4}和{I2,I4,I5}等是因为{I1,I4}和{I4,I5}
: 不是频繁2项集。
: 【 在 xlcy (all nothing) 的大作中提到: 】
: : 请大家看这样的问题:
: : 我在看Han's book的时候,遇到这样一个问题(P232-P234):
: : 在由the set of frequent 2-itemsets,L2,得到the set of candidate
: : 3-itemsets,C3
: : 的过程中,有这样一个公式:
: : C3=L2∞L2={{I1,I2},{{I1,I3},{{I1,I5},{I2,I3},{I2,I4},{I2,I5}}∞{{I1,
: : I2},
: : {{I1,I3},{{I1,I5},{I2,I3},{I2,I4},{I2,I5}}
: : ~~~~~~~~~~~~~~~~~~请教一:左边有两个大括号,是否为印刷错误
: (以下引言省略 ... ...)
--
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 211.71.70.1]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -