⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 38.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: aaahchi (aaahchi), 信区: DataMining
标  题: Principles of DataMining-ch1.6统计和数据挖掘关系
发信站: 南京大学小百合站 (Wed Mar  5 14:02:34 2003)


单纯的统计技术已经不足以解决某些日益复杂的数据挖掘问题,特别是那些涉及海量数
据集的问题。然而统计在数据挖掘中承担着非常重要的角色:在任何数据挖掘项目中它
都是一个必要的部分。这一节我们讨论一下传统的统计和数据挖掘的相互关系。
对于庞大的数据集(特别是非常庞大的数据集),我们可能无法轻易知道数据中的规律
,即使是非常显而易见的事实。对数据进行简单的目测不是办法。这意味着对于很大的
数据集,我们需要周密完善的搜索和分析方法来阐明对于小数据集可以立刻得到的特征
。此外,正如我们前面所讲到的,很多情况下数据挖掘的目标是要得到针对现有数据之
外的某种推理。例如,在一个天体数据库中,我们可能想要得到这样一个结论"类似这个
天体的所有对象的行为是这样的",或许附带一个概率限制。类似的,我们可以断定一个
国家的某个地区的电话呼叫呈现某种特定的模式。当然,需要我们作出论断的不可能是
数据库中的某个呼叫,而是希望能够预测将来呼叫的模式。数据库提供了用来建立模型
或搜索模式的对象集合,但最终的目的一般不是描述这些数据。在大多数情况下目标是
描述数据产生的一般过程,以及描述可能由同样的过程产生的其它数据集。所有这些都
意味着有必要避免模型或模式与现有的数据匹配得太紧密:要知道现有的数据集仅仅是
可能数据中的一部分,所以我们不希望模型与现有数据的特异性太接近。换句话来讲,
就是必须避免过度拟合(overfitting)给定的数据;而是要发现可以很好泛化到潜在将
来数据的模型或模式。在选取用来选择模型或模式的评分函数时应该考虑这一点。在第
7章和第9到11章我们将更详细地讨论这个问题。虽然我们是从数据挖掘角度讨论这个问
题,但是对于统计这个问题也是很重要的;甚至一些人把它当作是统计学科的一个定义
特征。
既然统计思想和方法对于数据挖掘如此重要,那么很自然的一个问题是在这两者之间到
底有什么差异。数据挖掘就是针对非常庞大数据集的探索性统计,还是除了探索性数据
分析外数据挖掘还有更多的内容?回答是肯定的--数据挖掘有更多的内容。
经典的统计应用和数据挖掘的基本差异是数据集的大小。对于一个传统的统计学家,一
个"大"的数据集可能包含几百或几千个数据点。然而对于致力于数据挖掘的人来讲几百
万甚至几十亿的数据点并不意外--G字节或者甚至T字节的数据库也不少见。生活中很多
环节都有这样的大数据库。例如,美国的零售商沃尔马特每天完成2千万笔交易(Babco
ck,1994),1998年形成了一个11T字节的客户交易数据库(Piatetsky-Shapiro,1999
)。AT&T有1亿个客户,它的长途网每天有3亿次的呼叫。每次呼叫的特征被更新到一个
数据库,用以建立美国的每个电话号码的模型(Cortes and Pregibon,1998)。Harri
son(1993)报告了美孚石油公司(Mobil Oil)打算要存储超过100T字节的有关石油探
测的数据。Fayyad, Djorgovski, and Weir(1996)描述的"帕洛马天文台数字化天体调
查(Digital Palomar Observatory Sky Servey)"中涉及3T字节的数据。正在进行的S
loan天体数字化调查将产生大约40T字节数据,最终要缩减为含有400G字节的包含3 108
个天体的目录(Szalay et al.,1999)。美国国家航空和宇宙航行局(NASA)的地球观
测系统设计为每小时产生几G字节的原始数据(Fayyad,Piatetsky-Shapiro,and Smyt
h,1996)。人类基因工程要完成整个人体基因的测序可能要产生超过3.3 109个核苷的
数据集(Salzberg,1999)。这样大容量的数据集带来了统计学家使用传统方法无法处
理的一些问题。
可以通过采样来简化海量数据集(如果目标是建立模型,但是如果目标是模式探测就不
合适了),也可以使用可适应方法(adaptive),或者用充分统计量(sufficient sta
tistics)来总结记录。例如,在标准的最小平方回归问题中,我们可以用所有记录的和
、平方值的和以及乘积的和来代替针对每个变量的大量评分--这样就足以计算出回归系
数,而不管有多少条记录。随着记录或变量数量的上升,考虑以计算时间表示的算法规
模变化是很重要的。例如,搜索最佳变量子集(根据某个评分函数)的穷举方法仅在一
定限度内是可行的。如果有p个变量,那么就要考虑2p-1个可能的变量子集。对前一节提
到的高效搜索方法来说如何放宽这个限制是至关重要的。
当有更很多变量时会产生更多的困难。很重要的问题之一是维度效应(curse of dimen
sionality),空间中单元格(unit cells)数量随着变量个数的上升按指数增长。例如
,考虑一个单一的二进制变量。要得到对两个单元格的合理估计精度我们可能希望对每
个单元格有10个观测,那么共有20个。如果有两个二进制变量(也就是四个单元格),
那么就需要40个观测。如果有10个二进制变量,那么就需要10240个观测,要是20个变量
就是10485760个了。维度过高的恶果是使自己陷入如下困境:在高维空间中如果没有有
天文数字大小的数据库(事实上,需要的数据量非常大,以致于在这样的数据挖掘应用
中G字节的数据也显得苍白无力)就无法找到概率密度的精确估计。在高维空间中,相邻
点可能离得很远。这不仅仅是操纵其中的大量变量的困难,而且关系到能否实现目标。
在这种情况下,有必要在预先选取模型时增加一些额外的约束(例如,假定为线性模型
)。
访问庞大的数据集会产生很多问题。统计学家们传统上理解的"扁平"数据文件--行表示
对象;列表式变量--可能和数据的实际存储方式大不相同(比如前面描述的文本和网络
交易数据集合)。在很多种情况下,数据是分布存储在多台计算机上的。从这种分散的
数据中获得一个随机样本不再是一件微不足道的事。如何定义采样框架以及访问数据需
要多长时间都是很重要的问题。
还有更糟糕的是很多时候数据集是不停变化的--举例来说,就像电话呼叫记录或用电记
录那样。分布的或者不断变化的数据可能成倍地增加数据集的大小并改变需要解决的问
题的属性。
除了数据集的大小可能导致很多困难外,标准统计应用中不经常遇到的其它问题也可能
如此。我们已经指出数据挖掘通常是数据分析的次级过程,也就是说数据本来是为了其
它目的而收集的。相反,很多统计工作是本位分析(primary analysis):带有特定的
问题采集数据,然后分析数据回答这个问题。甚至,统计学中包括试验设计和调查设计
这样的子学科--整个领域的专家都致力于寻找最好的方式采集数据以回答特定的问题。
当数据被用于本来搜集数据的目的之外的问题时,这些数据可能不能理想的适合这些问
题。有时数据集是整个总体(例如,一类化学品中的所有化学品),所以标准统计中的
推理思想已不适当。即使数据集不是整个群体,也经常是顺便的(convenience)或机会
的(opportunity)样本,而不是随机样本。(例如,问题中的纪录很可能是因为它们最
容易被测量或覆盖一个特定时期而被收集起来的。)
除了数据采集方式导致的问题,还有发生在庞大数据集中的失真问题--包括残缺值、污
染和数据损坏。很少有哪个数据集不存在这些问题。以至于一些周密的建模方法在模型
中包括一个部分来描述处理残缺值或数据失真问题的机制。也可以使用像EM算法(在第
6章中讨论)这样的估计方法或插补(imputation)方法来产生和可能使用的残缺值具有
同样分布属性的人工模拟数据。当然这些问题在标准的统计应用中也存在(尽管对于小
的、特别搜集的数据集这些问题的严重程度会小很多)但基本的统计教材倾向于掩饰它
们。
概括地讲,尽管数据挖掘确实与标准统计中探索性的数据分析技术有相当大的重叠,但
数据挖掘有很多新的问题,主要是由于涉及的数据集大小和数据集的新属性所导致的。


--
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 207.46.71.13]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -