📄 2.txt
字号:
.高能物理
.工业过程控制
这些数据也能得益于数据挖掘技术(原则上),近来因子联合成为数据挖掘的焦点。
[+green]
3 是数据挖掘还是智能训练?
[+black]
当前对数据挖掘的兴趣在学术界引发了一些议题。数据挖掘作为一种商业事业看上去很可行,但它是否能被定为一种智能训练。当然它和计算机科学有极重要的联系。这些包
括:
.集聚体(ROLAP)的高效计算
.快速的立体(X * X)查寻
.为提高在线查寻的速度的线下预查寻
.在线查寻的并行计算
.将DBMS方法转化为数据挖掘算法。
.基于磁盘而不是RAM的实现
.基本数据挖掘算法的并行实现
从统计数据分析的眼光,我们可以问数据挖掘方法是否是智能训练。到目前为止,仍可以
说它是,也可以说不是。数据挖掘包中广为人知的程序来自机器学习,模式识别,神经网
络和数据可视化领域。它们强调“看和感觉”和感官性的存在。这样看上去并不是在意具
体的表现,而是要迅速占领市场。在这个领域中目前大部分的研究集中在改进当前的机器
学习方法和加速已存在的算法。
然而,在将来数据挖掘几乎可以肯定地说是一种智能训练。当一种技术的效率提高了十倍
,人们总要认真地重新考虑怎样应用它。想一想人类从走到飞的历史进程,每一次提高都
大约是以前的十倍,并且每一次量的提高都重新改变了我们队如何使用交通工具的想法。
Chuck Dickens(前SLAC的计算指导)曾说到:`每次计算机的能力提高十倍,我们都应该从
总体上重新思考一下我们应该怎样算,算什么的问题。`一个相应的说法可能是`每次数据
量增加十倍,我们就应该从总体上重新考虑一下怎样分析它。`从当前几乎大多数使用的数
据挖掘工具发明的那一段时间到现在,计算机的处理能力和数据量都增加了好几个数量级
。新的数据挖掘方法在将来一定会更智能更有学术性(商业性)。
[+green]4 数据挖掘应该是统计的一部分吗?
[+black]我们过去曾给予数据挖掘方法智能的生命力,但统计学作为一个学科是否应该关心它
的发展。我们是否应该将它看成统计的一部分?那意味作什么?最起码它表明我们应该:
.在我们的杂志上发表这类文章。
.在我们的本科课程中讲授一些这方面的内容 ?
.在我们的研究生中讲授一些相关的研究课题。
.给那些这方面较优秀的人提供一些奖励(工作,任期,奖品)。
答案并不明显,在统计学的历史上就忽略了许多在其它数据处理相关领域发展的新方法。
如下是一些相关领域的例子。其中带*的是那些在统计科学中萌芽,但随后绝大部分又被统
计学忽略的方法领域。
1 模式识别
2 数据库管理
3 神经网络
4 机器学习
5图形模型(Bayes 网)
6 遗传工程
7 化学统计学
8 数据可视化
可以肯定地说,个别的“统计学家”已经致力于这些领域,但公平地说他们并未被我们的
统计学领域拥抱(或者说热情地拥抱)。
[+green]5 什么是统计学?
[+black]
从数据获取知识的课题和统计学的关系如此冷淡,我们不禁要问:“什么不是统计学?。
如果与数据相联系不是一个课题能成为统计学的一部分的充分理由,那么什么才是充分的
理由呢?
到目前为止,统计学的定义好象依赖于一些工具,也就是我们在当前的研究生课程中讲授
的那些东西。如下是一些例子:
概率理论
实分析
测度论
渐近理论
决策理论
马尔可夫链
鞅
遍历理论,等
统计领域好象被定义成一族能提出如上或相关工具的问题。当然这些工具过去和将来都会
很有用。就象Brad Efron提醒我们一样:“统计是最成功的信息科学。”“那些忽略了统
计的人将受到惩罚,他们将在实际中自己重新发现该统计方法。”
有人认为在当前数据(及其相关应用)以指数方式增长,而统计学家的数量显然赶不上这种
增长的情况下,我们统计学应该将精力集中于信息科学中我们做得最好的部分,也就是基
于数学的概率推断。这是一种高度保守的观点,当然它也有可能是最好的一种战略。然而
,如果我们接受这一种观点,我们统计学家在‘信息革命’浪潮中的作用肯定会逐渐消失
殆尽――在这个舞台上的演员越来越少。当然这种战略的一个很好的优点是它对我们创新
的要求很少,我们只需要墨守成规就可以了。
另一种观点,早在1962年就由John Tukey[Tukey (1962)]提出来了,他认为统计应该关注
数据分析。这个领域应该依据问题而不是工具定义,也就是那些和数据有关的问题。如果
这种观点成为一种主流观点,那就要求对我们的实践和学术课题作较大的改变。
首先(最重要的),我们应该跟上计算的步伐。哪里有数据,哪里就有计算。 一旦我们将计
算方法看成是一个基本的统计工具(而不是一种方便地实现我们现成工具的方法),那么当
前许多和数据密切相关的领域将不复存在。他们将成为我们领域的一部分。
认真对待计算工具而不是简单地使用统计包—显然这一点也很重要。如果计算成为我们的
一个基本的研究工具,毫无疑问,我们的学生应该学习相关的计算科学知识。这将包括:
数值线性代数
数值和组合优化
数据结构
算法设计
机械体系
程序设计方法
数据库管理
并行体系和程序设计等等。
我们也将扩展我们的课程计划,它应该包括当前的计算机定向数据分析方法,它们大部分
是在统计学科之外发展起来的。
如果我们想和其它的数据相关领域争夺学术和商业的市场空间,我们的某些基本模式将不
得不改变,我们将不得不调节对数学的幻想。数学(象计算)只是统计的一个工具,虽然
非常重要,但并不是唯一能证实统计方法有效性的工具。数学不等价于理论,反之亦然。
理论是创造性的理解,数学虽然很重要,但并不是唯一方法。比如在疾病的基因理论中数
学内容很少,但它却使人们更好地理解许多医学现象。我们将承认经验确认方式,虽然有
一定局限性,但的确是一种确认方式。
我们可能也不得不改变我们的文化。每一个参与其它数据相关领域的统计学家都被他们和
统计学的‘文化差距’所震撼。在其它的一些领域,‘想法’比数学技术(基础)更重要
。一个有启发的‘想法’就被认为是有价值的,若有更详细的确认(理论的或经验的)人
们才去讨论它的最终价值。思维方式是‘如果没有证明是有罪的,那就是清白的’。这和
我们领域的思路是不一致的。过去如果一个新方法不是用数学证明是有效的,我们常常诋
毁它,即使不这样,我们也不会接受它。这种思路在数据集比较小和信息噪声比较高时是
合理的。特别地,我们应该改变我们诋毁那些表现很好(通常在其它领域),但却没被我
们理解的方法的习惯。
[+green]6展望未来?
[+black]
也许,现在的统计学正处在一个十字路口,我们可以决定是接受还是拒绝改变。如上
所述,两种观点都极富说服力。虽然观点丰富,但谁也不能肯定哪一种战略能保证我们领
域的健康发展和生命力的持续。大多数统计学家好象认为统计学对信息科学的影响越来越
小。它们也不太同意为此作些什么。主导的观点认为我们有市场问题,我们在别的领域的
顾客和同事不了解我们的价值和重要性。
--
一个孤独的灵魂,到底能走多远?
※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20][+reset]
※ 修改:.threeman 於 May 27 15:43:15 2003 修改本文.[FROM: 202.119.80.20]
※ 修改:.threeman 於 May 27 15:47:01 2003 修改本文.[FROM: 202.119.80.20]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -