⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 110.txt

📁 This complete matlab for neural network
💻 TXT
📖 第 1 页 / 共 2 页
字号:
如果数据挖掘的主要目的是发现,那它就不关心统计学领域中的在回答一个特定的
问题之前,如何很好的搜集数据,例如实验设计和调查设计。数据挖掘本质上假想
数据已经被搜集好,关注的只是如何发现其中的秘密。
3.     数据挖掘的性质
由于统计学基础的建立在计算机的发明和发展之前,所以常用的统计学工具包含很
多可
以手工实现的方法。因此,对于很多统计学家来说,1000个数据就已经是很大的了
。但这个“大”对于英国大的信用卡公司每年350,000,000笔业务或AT&T每天200,
000,000个长途呼叫来说相差太远了。很明显,面对这么多的数据,则需要设计不
同于那些“原则上可以用手工实现”的方法。这意味这计算机(正是计算机使得大
数据可能实现)对于数据的分析和处理是关键的。分析者直接处理数据将变得不可
行。相反,计算机在分析者和数据之间起到了必要的过滤的作用。这也是数据挖掘
特别注重准则的另一原因。尽管有必要,把分析者和数据分离开很明显导致了一些
关联任务。这里就有一个真正的危险:非预期的模式可能会误导分析者,这一点我
下面会讨论。
   我不认为在现代统计中计算机不是一个重要的工具。它们确实是,并不是因为
数据的规模。对数据的精确分析方法如bootstrap方法、随机测试,迭代估计方法
以及比较适合的复杂的模型正是有了计算机才是可能的。计算机已经使得传统统计
模型的视野大大的扩展了,还促进了新工具的飞速发展。
   下面来关注一下歪曲数据的非预期的模式出现的可能性。这和数据质量相关。
所有数据分析的结论依赖于数据质量。GIGO的意思是垃圾进,垃圾出,它的引用到
处可见。一个数据分析者,无论他多聪明,也不可能从垃圾中发现宝石。对于大的
数据集,尤其是要发现精细的小型或偏离常规的模型的时候,这个问题尤其突出。
当一个人在寻找百万分之一的模型的时候,第二个小数位的偏离就会起作用。一个
经验丰富的人对于此类最常见的问题会比较警觉,但出错的可能性太多了。
   此类问题可能在两个层次上产生。第一个是微观层次,即个人记录。例如,特
殊的属性可能丢失或输错了。我知道一个案例,由于挖掘者不知道,丢失的数据被
记录为99而作为真实的数据处理。第二个是宏观层次,整个数据集被一些选择机制
所歪曲。交通事故为此提供了一个好的示例。越严重的、致命的事故,其记录越精
确,但小的或没有伤害的事故的记录却没有那么精确。事实上,很高比例的数据根
本没有记录。这就造成了一个歪曲的映象-可能会导致错误的结论。
   统计学很少会关注实时分析,然而数据挖掘问题常常需要这些。例如,银行事
务每天都会发生,没有人能等三个月得到一个可能的欺诈的分析。类似的问题发生
在总体随时间变化的情形。我的研究组有明确的例子显示银行债务的申请随时间、
竞争环境、经济波动而变化。
   至此,我们已经论述了数据分析的问题,说明了数据挖掘和统计学的差异,尽
管有一定的重迭。但是,数据挖掘者也不可持完全非统计的观点。首先来看一个例
子:获得数据的问题。统计学家往往把数据看成一个按变量交叉分类的平面表,存
储于计算机等待分析。如果数据量较小,可以读到内存,但在许多数据挖掘问题中
这是不可能的。更糟糕的是,大量的数据常常分布在不同的计算机上。或许极端的
是,数据分布在全球互联网上。此类问题使得获得一个简单的样本不大可能。(先
不管分析“整个数据集”的可能性,如果数据是不断变化的这一概念可能是不存在
的,例如电话呼叫)
   当描述数据挖掘技术的时候,我发现依据以建立模型还是模式发现为目的可以
很方便的区分两类常见的工具。我已经提到了模型概念在统计学中的核心作用。在
建立模型的时候,尽量要概括所有的数据,以及识别、描述分布的形状。这样的“
全”模型的例子如对一系列数据的聚类分析,回归预测模型,以及基于树的分类法
则。相反,在模式发现中,则是尽量识别小的(但不一定不重要)偏差,发现行为
的异常模式。例如EEG轨迹中的零星波形、信用卡使用中的异常消费模式,以及不
同于其它特征的对象。很多时候,这第二种实验是数据挖掘的本质-试图发现渣滓
中的金块。然而,第一类实验也是重要的。当关注的是全局模型的建立的话,样本
是可取的(可以基于一个十万大小的样本发现重要的特性,这和基于一个千万大小
的样本是等效的,尽管这部分的取决于我们想法的模型的特征。然而,模式发现不
同于此。仅选择一个样本的话可能会忽略所希望检测的情形。
   尽管统计学主要关注的是分析定量数据,数据挖掘的多来源意味着还需要处理
其它形式的数据。特别的,逻辑数据越来越多-例如当要发现的模式由连接的和分
离的要素组成的时候。类似的,有时候会碰到高度有序的结构。分析的要素可能是
图象,文本,语言信号,或者甚至完全是(例如,在交替分析中)科学研究资料。

4.     讨论
数据挖掘有时候是一次性的实验。这是一个误解。它更应该被看作是一个不断的过
程(尽
管数据集时确定的)。从一个角度检查数据可以解释结果,以相关的观点检查可能
会更接近等等。关键是,除了极少的情形下,很少知道哪一类模式是有意义的。数
据挖掘的本质是发现非预期的模式-同样非预期的模式要以非预期的方法来发现。

与把数据挖掘作为一个过程的观点相关联的是认识到结果的新颖性。许多数据挖掘
的结果是我们所期望的-可以回顾。然而,可以解释这个事实并不能否定挖掘出它
们的价值。没有这些实验,可能根本不会想到这些。实际上,只有那些可以依据过
去经验形成的合理的解释的结构才会是有价值的。
显然在数据挖掘存在着一个潜在的机会。在大数据集中发现模式的可能性当然存在
,大数据集的数量与日俱增。然而,也不应就此掩盖危险。所有真正的数据集(即
使那些是以完全自动方式搜集的数据)都有产生错误的可能。关于人的数据集(例
如事务和行为数据)尤其有这种可能。这很好的解释了绝大部分在数据中发现的“
非预期的结构”本质上是无意义的,而是因为偏离了理想的过程。(当然,这样的
结构可能会是有意义的:如果数据有问题,可能会干扰搜集数据的目的,最好还是
了解它们)。与此相关联的是如何确保(和至少为事实提供支持)任何所观察到的
模式是“真实的”,它们反应了一些潜在的结构和关联而不仅仅是一个特殊的数据
集,由于一个随机的样本碰巧发生。在这里,记分方法可能是相关的,但需要更多
的统计学家和数据挖掘工作者的研究。
数据挖掘科学正在萌芽。Fayyad et al做了重要的基础工作【6】,目前的研究范
围可以参考国际知识发现和数据挖掘系列学报和《数据挖掘和知识发现》杂志所列
的主题和领域(两个最重要的学报是【12】和【11】)。关于统计学和数据分析的
论文包括【8】,【4】和【10】。

参考文献目录见原文。

--

Welcome to http://datamining.bbs.lilybbs.net.

※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.204.36.15]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -