📄 23.txt
字号:
度在[0,¥]之间变化,其中蕴涵强度为1表示完全无关的规则,¥表示完备的规则,
如果蕴涵强度大于1则表示更大的期望存在性。
另一个度量值——“收集强度”(collective strength)在[22]中被定义,他们设想使用“
大于期望值”来发现有意义的关联规则。项集的“收集强度”是[0,¥]之间的一个数值
,其中0表示完备的否定相关性,而值¥表示完备的正相关性。详细的讨论可以在[10]
中找到。
4.2用户主观层面:
上面的讨论只是基于系统方面的考虑,但是一个规则的有用与否最终取决于用户的感觉。
只有用户可以决定规则的有效性、可行性。所以我们应该将用户的需求和系统更加紧密的
结合起来。
可以采用一种基于约束(consraint-based)[21]的挖掘。具体约束的内容可以有:
1) 数据约束。用户可以指定对哪些数据进行挖掘,而不一定是全部的数据。
2) 指定挖掘的维和层次。用户可以指定对数据哪些维以及这些维上的哪些层次进
行挖掘。
3) 规则约束。可以指定哪些类型的规则是我们所需要的。引入一个模板(templa
te)的概念,用户使用它来确定哪些规则是令人感兴趣的而哪些则不然:如果一条规则匹
配一个包含的模板(inclusive template),则是令人感兴趣的,然而如果一条规则匹配
一个限制的模板(rextrictive template),则被认为是缺乏兴趣的。
其中有些条件可以和算法紧密的结合,从而即提高了效率,又使挖掘的目的更加的明确化
了。其他的方法还有:
Kleinberg等人的工作是希望建立一套理论来判断所得模式的价值,他们认为这个问题仅能
在微观经济学框架里被解决,他们的模型提出了一个可以发展的方向。他们引入并研究了
一个新的优化问题——分段(Segmentation)问题,这个框架包含了一些标准的组合分类问
题。这个模型根据基本的目标函数,对“被挖掘的数据”的价值提供一个特殊的算法的视
角,显示了从这方面导出的具体的优化问题的广泛的应用领域。
在[5]中Korn等就利用猜测误差(这里他们使用“均方根”来定义)来作为一些从给定的数据
集所发现的规则的“好处”(goodness)的度量,他们所定义的比例规则就是如下的规则:
顾客大多数分别花费 1 : 2 : 5的钱在“面包”:“牛奶”:“奶油”上
通过确定未知的(等价的,被隐藏的,丢失的)值,比例规则可以用来作决策支持。如果数
据点线性地相关的话,那么比例规则能达到更紧凑的描述,即关联规则更好地描述了相关
性。
5.结论与展望
本文讨论了数据挖掘中产生关联规则的方法以及它的应用,这方面一些研究成果已取得很
大的成绩,并已被集成在一些系统中,如IBM的Quest项目,Simon Farse大学的DBMiner等
。具体的内容有经典频集算法,对频集算法的优化,扩展。然后讨论了在OLAP下进行数据
挖掘的一些内容。接着是对规则价值的一些评价方法。
对于关联规则的发展,我们觉得可以在下面一些方向上进行近一步的深入研究。在处理极
大量的数据时,如何提高算法效率的问题;对于挖掘迅速更新的数据的挖掘算法的进一步
研究;在挖掘的过程中,提供一种与用户进行交互的方法,将用户的领域知识结合在其中
;对于数值型字段在关联规则中的处理问题;生成结果的可视化方面等等。
参考文献
1 R. Agrawal, T. Imielinski, and A. Swami. Mining association rules between s
ets of items in large databases. Proceedings of the ACM SIGMOD Conference on M
anagement of data, pp. 207-216, 1993.
2 R. Agrawal, and J. Shafer. Parallel mining of association rules:Design,Imp
lementation, and Experience. Technical Report FJ10004, IBM Almaden Research Ce
nter, San Jose, CA 95120, Jan. 1996.
3 S. Brin, R. Motwani, and C. Silverstein. Beyond market baskets:generlizing
association rules to correlations. Proceedings of the ACM SIGMOD, 1996. pages
255-276.
4 S. Brin, R. Motwani, J. D. Ullman, and S. Tsur. Dynamic Itemset counting an
d implication rules for market basket data. In ACM SIGMOD International Confer
ence On the Management of Data. 1997.
5 F. Korn, A. Labrinidis, Y. Kotidis, and C. Faloutsos. Ratio rules: A new pa
radigm for fast, quantifiable data mining.
6 J. Kleinberg, C. Papadimitriou, and P. Raghavan. Segmentation problems. Pro
ceedings of the 30th Annual Symposium on Theory of Computing, ACM. 1998.
7 J. L. Lin, and M. H. Dunham. Mining association rules: Anti-skew algorithms
. Proceedings of the International Conference on Data Engingeering, Orlando, F
lorida, February 1998.
8 H. Mannila, H. Toivonen, and A. Verkamo. Efficient algorithm for discoverin
g association rules. AAAI Workshop on Knowledge Discovery in Databases, 1994,
pp. 181-192.
9 R. Ng, L. V. S. Lakshmanan, J. Han, and A. Pang. Exploratory mining and pru
ning optimizations of constrained associations rules. Proceedings of ACM SIGMO
D International Conference on Management of Data, pates 13-24, Seattle, Washin
gton, June 1998.
10 J. S. Park, M. S. Chen, and P. S. Yu. An effective hash-based algorithm fo
r mining association rules. Proceedings of ACM SIGMOD International Conference
on Management of Data, pages 175-186, San Jose, CA, May 1995.
11 J. S. Park, M. S. Chen, and P. S. Yu. Efficient parallel data mining of as
sociation rules. 4th International Conference on Information and Knowledge Man
agement, Baltimore, Maryland, Novermber 1995.
12 R. Srikant, and R. Agrawal. Mining generalized association rules. Proceedi
ngs of the 21st International Conference on Very Large Database, 1995, pp. 407
-419.
13 R. Srikant, and R. Agrawal. Mining quantitative association rules in large
relational tables. Proceedings of the ACM SIGMOD Conference on Management of
Data, 1996. pp.1-12.
14 A. Savasere, E. Omiecinski, and S. Navathe. An efficient algorithm for min
ing association rules in large databases. Proceedings of the 21st Internationa
l Conference on Very large Database, 1995.
15 A. Savasere, E. Omiecinski, and S. Navathe. Mining for strong negative ass
ociations in a large database of costomer transactions. Proceedings of the Int
ernational Conference on Data Engineering, February 1998.
16 H. Toivonen. Sampling large databases for association rules. Proceedings of
the 22nd International Conference on Very Large Database, Bombay, India, Sept
ember 1996.
17 M. J. Zaki, S. Parthasarathy, and W. Li. A localized algorithm for paralle
l association mining. 9th Annual ACM Symposium on Parallel Algorithms and Arc
hitectures, Newport, Rhode Island, June 1997.
18 J.Han,J.Pei,and Y.Yin.Mining frequent patterns without candidate generatio
n.In Proc.2000 ACM-SIGMOD Int.Conf.Management of Data(SIGMOD’00),Dalas,TX,May
2000.
19 Edith Cohen,Mayur Datar,Shinji Fujiwara, Aristides Gionis,Piotr Indyk,Rajee
v Motwani,Jeffrey D.Ullman,Cheng Yang.Finding Interesting Associations without
Support Pruning.
20 Jiawei Han,Sonny H.S. Chee,Jenny Y.Chiang.Issues for On-Line Analytical Mi
ning of Data Warehouses.
21 Information Discovery,Inc.OLAP and DataMining,Bridging the Gap.
22 C. C. Aggarwal, and P. S. Yu. A new framework for itemset generation. IBM
Research Report,RC-21064.
Survey of Association Rule Generation
Cai Weijie Zhang Xiaohui Zhu Jianqiu Zhu Yangyong
(Computer Science Department, Fudan University, Shanghai, 200433)
Abstract This paper provides a survey of the study in association rule genera
tion,brings forward a classification of association rule,reviews and analyses
some typical algorithms,points out the weakness of the traidional measure meth
od,concludes the measure method of the association rule’s value,views some fu
ture directions in association rule generation.
Key Words Data Mining, Association Rules, Large Itemset,OLAP
surfgey (风卷云舒) 于Thu Jul 10 21:12:23 2003)
提到:
我首先来说两句,关于两个定义:支持度(SUPPORT)和可信度(confidence),我认为
其定义太晦涩,不如借用概率的定义。
事件X、Y为事件A的子集,蕴涵式 X=>Y表示“事件X的发生导致事件Y的发生”,其支持
度就是该逻辑X=>Y成立的约束,即P(X的发生同时Y的发生)=P(XY)=P(X*Y)=|XY|/|A
|=SUPPORT(X=>Y),X和Y同时出现在所有事件中的比例;
而可信度(Confidence)为蕴涵式 X=>Y中X发生后Y发生的条件概率记为P(Y|X)=P(X
Y)/P(X)=Confidence(X=>Y)。
【 在 surfgey 的大作中提到: 】
: 欢迎大家对该论文的优缺点加以评论,论文的独到之处是什么?不足之处是什么?..
: 你的补充和完善
:
:
: 关联规则挖掘综述
:
: (蔡伟杰 caiweijie528@yahoo.com)
:
: 蔡伟杰 张晓辉 朱建秋 朱扬勇2
:
: (复旦大学计算机科学系 上海 200433)
:
: 摘要 本文介绍了关联规则挖掘的研究情况,提出了关联规则的分类方法,对一些典..
: 法进行了分析和评[1]价,指出传统关联规则衡量标准的不足,归纳出关联规则的价
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -