📄 15.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: [合集]我所知道的一点 Data Mining
发信站: 南京大学小百合站 (Tue Feb 18 18:21:36 2003)
Dioscuri (Castor Pollux) 于Wed Jan 29 13:28:15 2003)
提到:
作者: 赵民德
前言:Data Mining,光是看它的 data size,绝对是一头大象。因此各家各派的对它的看
法也就不同。因为各人摸到的是自己可以摸到的那一部分。兄弟虽然知道同时也极力呼吁
DM 应以实际有用为主,但基本上还是学院派。通常,学院派的人认为,如果一件事一定
可以做成,那么就不免无趣。几十年前,我有一位朋友试着用海水提炼铀。因为那是用 p
pm 来计算的,当然十分难。DM 有点像这类的工作,但是你不必只想造原子弹。提炼锰、
钾、甚至淡水虽然无趣,但都颇有意义。这里面的要点是效率。统计上所谓的大笔数据,
和 DM 上所能见到的是不一样的游戏,因此虽然统计学者有明确的基本概念,但恐怕还是
要因应变局,重新思考。反过来说,做 IT 的同仁,也不要一味相信背后逻辑不明的埋头
苦算会发现甚么新大陆。总之,这算是新行业,大家各凭本事和运气来博它一铺罢!
今年十二月八号,我们在蛮辛苦的筹备之后,总算把 CDMS 成立了。这是一个以Data
mining (DM)为专业的人民团体。在台湾恐怕是唯一的一个。DM是一个蛮当红的专题。
我们所面临的第一个问题,便是不知道应该怎么去翻译这个名词。硬译为「资料挖掘」虽
没有大错,但听起来不够高雅,也没有学术的味道,连商业的气味都不够。一时之间因为
实在想不出一个好词,只好马马虎虎地用着,等谁有了好译名再说。我们想的事是把这一
群人集合一下,看大家有甚么想法,或者,更要紧地,看大家想干些甚么。
甚么叫 DM ?关于定义,各人的说法不一。基本上,先给你一个大的 data set ──
假设你可以读它,下面的问题是:从这里你可以得到甚么?从这个角度来看,这是百分百
的统计分析工作,只是 data sets 大得多罢了。但我们并不想忘记这些 data sets 是做
IT 的人这么多年里逐渐制造出来的。何况他们对于如何有效而快速地存储、摘取和管理
数据,确是有一套真功夫的。在 IT 的骨架上把统计的精髓放进去,的确是这个信息时代
的大挑战。
极大部分 ── 如果不是全部 ── 的 data sets ,是已经存在的。时代不一样了,
现在数据来得既多又便宜,多到没有人有时间去看的程度。这有一点像我们的医疗体系。
早先的医生要望闻问切,在少量的数据里,设法组合出最好的治疗方案。现在则是一个名
医,一上午要门诊到一百五十个病人以上。他只能靠 algorithm 来看病:问一两个问题,
听一两个问题,然后开药。这是 DM 的精神,并不是传统的 data analysis 的精神。
我们的确已经相当程度的信息化了。你去任何一个医院,哪一个窗口都是一架 PC。医
生暗示你可以离开的时候,当值的护士已在她的 PC 上键入许多资料。于是你直接可以去
批价拿药,并且连下一次的预约都安排好了。前天我去医院调借一张 X 光片,一位五十多
的老职员用一阳指在键盘上一步一脚印地敲了不知多久,才输入了该有的 input ,然后大
家都松一口似地让计算机去跑,最后当然是拿到 X 光片。回顾身后,已排了一条长龙。
这在某种程度上,也暗示着目前信息社会的问题:很多别的事情都还配不上那样快的
计算机。老职员的手指速度固然配不上,我们统计人和统计方法也配不上。甚至于很多统
计观念恐怕都配不上。于是 IT 的人就跳进来做:既然有了花大钱来做出来的 Data base
,而且这么多年下来资料堆得满坑满谷,好歹要告诉出钱的老板「这有甚么用」。DM 便应
运而生了。
DM 是先有了数据才兴起的行业。我不想说「学问」,因为到现在为止,我好象都看不
到大学问。DM 能帮我做甚么?不同的人有不同的看法:比较乐观的是 Berry and Linoff
(1997) 的说法:
● 分析报告给你后见之明 (hindsight)
● 统计分析给你先机 (foresight)
● DM 给你识见 (insight)
这话说得太强,我不是那么地相信。因为这三者都是在既有的资料上做分析,在概念上应
该并无轩轾,差别只是手上的 data set 大小和性质,因此,由方法的不同才有定义的不
同。
较负面的定义来自 Friedman (1997) ,他说 "Data mining is a commercial enter
prise that seeks to mine the miners " 。这句话有多少真实的成分,我不深知,但是
酸味是有一点的。在雅虎的入口网站上键入「Data Mining」,立刻便找到一百五十多个网
址。如果用 goggle 搜寻,它在 0.34 秒里就找到 1,260,000项查询结果。这是在方法论
都还没有成熟之前便已有大量的 commercial products 的情形。看起来真是商机无限。在
另一方面,我却在文献上读到:
"…… while I appreciate the importance of data mining, in practice the profit
it brings has turned out to be surprisingly limited in many key businesses."
(Kann 2000)
多半的 data bases 在建造时都别有目的,并不是设计来给大家 mining 的。上帝给
我们以海,也许只是给我们以盐。现在盐的利润有限,大家拼命去提炼铀,当然结果不会
很好。
比较中肯的是 Hand et al. (2000) 的说法: " Data mining is the process of s
eeking interesting or valuable information in large data bases"
·方法
Demming (1943) 曾说:「搜集数据的目的是为了行动」。这是在数据的搜集并不便宜
的时候所说的话。现在要反过来看:已经有了一大堆数据,当初只是为了搜集而搜集 ──
因为反正不贵,而且说不定某一天会有用 ── 问这里面可以提供怎样的信息,能让数据
的所有人采取甚么行动?
这意思仍然是要我们用心地去看这些数据。「用心看」有两个角度:整体的 (global
) 和局部 (local) 的。
·Global view: 模型
自整体的角度来看一个 data set ,是靠统计学里面的抽样就可以发挥得不错的。 抽
样的要点是 thinning ──用一组较小的、容易处理的精选的 data 来反应整体。 从这里
我们可以做一大堆传统的建模工作。但这里面最主要的观念是抽样。
例如 SAS 的 Enterprise Miner 中所建构出来的「table」,就是自全部的数据中所
抽样而得。他们引以为自豪的 biased sampling ,在抽样的理论里行之有年,并不足奇。
自抽样的观点来看,母体再大都不是问题 ── 它反而使得抽样的理论更加简单。何况在
data base 上抽样,成本既低,又没有我们最头痛的 non-response 问题。这一部分,可
以说是所有我们想做的理论和方法都十分成熟, 只要找一群还不错的人,将这些已知的事
物组合包装就好。在 table 上做传统分析,最后的结果当然是一个可以用来描绘所有数据
之间的关系的模型。 这是传统的计量方式:模型是所有资料的摘要。
·Local view: Pattern detection
自局部的角度来看 DM,到目前为止,主要的目的是 pattern detection。这和我们常
听到的 pattern recognition 颇有不同。用雷达找飞机的工作,算是后者 ── 我们知道
飞机是我们要找的对象 ,(这叫 supervised learning)。但是在 DM 中,多半我们并不
知道要找甚么(这叫 unsupervised learning)。在技术上,这也不能靠抽样来做。而主
要的想法之一,是靠「算则 (algorithms)」而不是靠统计。 Pattern 是指数据的局部结
构,因此在这一部分,DM 强调的反而是算则。这当然并不奇怪, 数据一多,用人力是不
能做的,我们只有靠明确的指令让计算机一个一个帮我们找。但我们全然可以不靠统计吗
?也不尽然。例如取训练样本( training sample),是很可以把实验设计的想法放进去
的。虽然,我们不见得要靠传统的、精雕细凿的抽样设计。
·工具
知名的软件,像 SAS,SPSS,SPLUS,STATISTICA ,其中多包含了一些关于 DM 的 f
unctions 或者procedures 。一般还是离不了
regression (predictive model)
classification (supervised or non-supervised)
decision tree
association analysis (rule extraction)
time series ( for trend)
machine learning (recursive partitioning)
graphic methods (data visualization)
neural network
等这一类的工具。这些工具或者算则,并不是每一种都有证明的。虽然,很多都有相
当大规模的电算仿真。如果再配上 boosting, bagging 等花招,或者更当红的 supporti
ng vector machine,就足以像一个专家了。
·应用
DM 主要的应用好象都在商业。而在商业里仍然是以顾客的行为分析为主。下面的列举
,主要来自一个 IBM 的网站 (http://www.almaden.ibm.com/cs/quest/):
Identify and extract high-value business intelligence from enterprise data ass
ets, including :
High-volume transaction data generated by point-of-sale,
ATM, credit card, call center, or
e-commerce applications,
Web navigation patterns.
最后那一点是我加上去的。不论怎么看,这里的商业气味是蛮浓的:
Analysts and business technologists are empowered to discover patterns which m
ight otherwise be unobserved, across volumes of data they were simply not able
to penetrate with other types of analytical tools. Intelligent Miner provides
the fundamental technology and tools to support the mining process, as well a
s application services to enable development of customized applications.
不久之前我曾听过 SAS 的 Enterprise Miner 的三小时的说明。那时候我只了解到抽
样建模的那一部分,因此我对 DM 的定义也有一点负面:它相当于 「elementary statis
tical methods applied to huge data sets」。但那算是 global view,并不曾进到 al
gorithms 的层面上。对于做理论的人来说,我承认我还看不到甚么大的东西。也许是因为
DM 主要还是要靠去用。而用是不一定需要数学证明的。我读到的 DM 论文中,提到所建
议的 algorithm 时,都蛮保守地说那是 heuristic。
如果你要进入这一行,当务之急是去弄一两个大一点的 data bases 来玩一玩。玩一
下才会知道问题在哪里,哪里才有有意思的问题。大型的 data sets 是搞信息的人士这许
多年来产生出来的 cyber 怪兽。怎么去对付它,并要它替我们做事,的确是蛮困难的。但
是,你总不能假设数据是来自一个 flat file,就算你还不会用 OALP处理一个 data war
ehouse ,但是,用 SQL 指挥一个 relational data base 做足够的运作总是起码要会的
工夫。不懂这些缩写?呵呵,去学啦。你若是要买车,总要知道 ABS 是甚么是罢?
DM 的许多招式,来自统计和机械学习(machine learning)这两种学问。但用在 DM
的实务上,都不免有些荒腔走板。也许是多半靠DM吃饭的人,这两门课都念得都不够深入
。我们一力地想把 CDMS 组织起来,这里面是有一点心意的。
Miners 是一个行业。在 ACM 之下有一个ACM Special Interest Group on Knowledg
e Discovery and Data Mining (SIGKDD ) http://www.acm.org/sigkdd/,每年举办一个
KDD Cup 比赛 (http://www.acm.org/sigs/sigkdd/kdd2000/) ,并有一个学术期刊:Da
ta Mining and Knowledge Discovery ( http://kapis.www.wkap.nl/jrnltoc.htm/1384-
5810 ) ,已发行到第五卷。很多作者都有自己的网站,找资料是不难的,但是找有用的资
料就难了。
参考资料
Berry, M. J. and Linoff, G. Data Mining Techniques for Marketing, Sales and Cu
stomer Support. Wiley, 1997.
Deming, W. E. (1943). Statistical Adjustment of Data, Wiley.
Friedman, J. "Data mining and statistics: What is the connection?", The 29th S
ymposium on the Interface, Houston, TX, May 1997.
Hand, D. J., Blunt, G. , Kelly, M. G. and Adams, N. M. Data mining for fun and
profit. Statistical Science, v. 15, no. 2, 111-131.
Kann, W. (2000) Comment on "Data mining for fun and profit" , Statistical Scie
nce, v. 15, no. 2, 127-130.
后记:这文章我今年曾在福华饭店讲过,但时间又过了大半年,我又加了一些话进来
。二者有何不同?我想说的是:现在我对 Machine learning 比较知道一点了。对于 DM
,知道的还不够。
2001/12/21
jueww (觉·无我) 于Wed Jan 29 15:31:28 2003)
提到:
说得很中肯啊. 俺弄了半天DM也就是这点体会. 呵呵
【 在 Dioscuri 的大作中提到: 】
:
:
: 作者: 赵民德
:
: 前言:Data Mining,光是看它的 data size,绝对是一头大象。因此各家各派的对
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -