⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 9.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: GzLi (笑梨), 信区: DataMining
标  题: [合集]数据挖掘十大问题
发信站: 南京大学小百合站 (Tue Jun  3 22:02:56 2003)

threeman (三镜先生) 于Mon May 12 18:21:40 2003)
提到:

这里是一篇关于数据挖掘领域十大问题的文章,有些思想,可供参考。


下载地址:URL为 http://bbs1.nju.edu.cn/showfile?name=数据挖掘十大问题.pdf 



GzLi (笑梨) 于Mon May 12 19:07:17 2003)
提到:

这篇文章思考的挺多,我转载到这里,并加保存,以备查询。

数据挖掘十大问题
三镜先生
所谓数据挖掘,就是对来自大规模数据集中的模型、模式、变化、和反常现象,以及其它
在统计上有意义的结构的半自动化提取。
随着计算机技术的普及,众多公司和企业、事业单位都应用了计算管理系统。因此,一方
面可用来加以分析的数据,其数量等级按指数增长,另一方面能对此进行分析的科学家、
工程师和数学家的人数却基本上保持在原有的水平。从某种意义上讲,数据挖掘的作用就
是为了填补这种脱节。
没有有效的算法和优良的软件实现,大多数记录下的数据将永远不会有人去读它们。这真
是一件令人沮丧的事,所以在这种意义下,数据挖掘的目标就是使世界变得更令人欢乐,
存在的东西要它发挥应有的作用。
数据挖掘与统计学存在区别吗?或者说,统计学本身就是处理数据的科学和艺术,有必要
进行数据挖掘吗?
本文认为,统计学处理的数据与数据挖掘对象的数据集存在区别,因此,统计学的诸多算
法,如聚类、贝叶斯统计、相关等技术可以应用于数据挖掘领域,但是,另一方面,由于
数据挖掘的对象――更加复杂,如分布式结构,无统计特征信息等,可能要面对的问题完
全不同于统计结构的问
题。因此,可以应用它的算法就更加广泛,如模糊数学、神经网络等,同时本身作为一种
信息提取的手段也会产生自身特色的算法,如融合算法等。因此,与为来自不同领域的问
题建立一个统计模型相比,数据挖掘更加丰富。
数据挖掘的一般框架是:给定一个由点x和标记y组成的数据集,以及给定了一组模型(模
型的类型包括:线性分类器、以树为基础的分类器、神经网络等)。
数据挖掘对策分两步进行:
在学习阶段,其目标是利用数据集去寻找M中的一个统计模型f,使得()yfx=尽可能多地成
立。
在验证阶段,用附加的数据来度量错误分类率――即有多少个y使y不等于()fx。在f拟合
学习集有多好,以及错误分类验证集差到什么程度之间有一种本质的谐力。概率论模型用
来达到这种精确性。所产生的f称为分类器(classifier),而向量x称为特性向量(featu
re vector)。
上述描述的是一个标准的统计问题:模型拟合,即从数据估计M中的f。数据挖掘的目的就
是这种过程的部分自动化。这仍然是一个挑战。
考虑到这种背景,本文提出的十大问题如下:
1. 涉及数据规模的问题
数据挖掘要解决的问题是数据集中信息处理,而数据集一般可分为:小规模集和大规模数
据集。相应地,数据挖掘也对应地有小规模(局部)数据挖掘和“大规模(全局)”数据挖掘
大规模数据挖掘关心的是用统计模型去拟合数据集。小规模数据挖掘关心的是诸如结合规
则、聚类和反常现象等局部模式的巧妙考虑。
因此,如何协调这两者的关系,相互作用是值得我们研究的问题之一。例如,如何利用局
部结构的巧妙考虑,改进全局模型的拟合方法等。
2. 分布式数据集的数据挖掘
大多数数据是以分布式的方式存在的。传统的数据挖掘方法是以一个中心位置来收集所有
的数据,并建立模型。
从实际的角度来看,很多数据挖掘的兴趣在于发现一个数据集和另外的数据集组合在一起
时的模式。因为大多数另外的数据位于不同的位置,因此,如何开发适合于这类分布式存
放的数据集的数据挖掘算法是有待解决的问题之一,可供利用的资源有分布式数据融合技
术等。
3. 无标记数据的数据挖掘
大多数数据是无标记的。因此,数据挖掘存在许多问题值得研究。
共同学习(co-1earning)技术,把标记数据上的分类器通过加入更大一类无标记数据集合
的记录加以改进。考虑到大多数数据是无标记的,因此,类似于共同学习这样的技术可能
是很有用的,也是我们面临的挑战。
4. 非数值型数据的数据挖掘
数据挖掘的早期工作主要集中于寻找数值数据的模式和模型。现如今,越来越多的数据是
非数值型数据,因此,对这些数据进行数据挖掘是必要的。
实际上,越来越多的应用强调要对非数值型数据的挖掘。例如文本数据、万维网数据、生
物信息数据和多媒体数据都是十分常见且重要的信息来源。
5. 万维网数据挖掘
万维网可以看作是R100,000中40亿个特性向量。有一个简单的方法把一页文本、或超文本
映射为一个特性向量x。首先固定一组词,称它为一本词典。假定该词典有100,000个词。
给定了一页万维网的网页,数一下每个词出现的次数并在R100,000 
中创建一个记数向量。例如,如果词“system”是词典中的第305个词,出现了3次,那么
该文件的特性向量的第305个坐标就是3。现在就容易计算两个文件之间的距离:简单地算
一下两个特性向量之间的距离。
这种应用已经使对稀疏线性代数有兴趣的人感到兴奋――找到了新的应用背景。一篇文章
不包括数值研究也是没有理由的:有许多这样的数据,而且这些数据容易得到。
6. 时空数据集的数据挖掘
挖掘网格数据仍然是困难的。降雨是随空间和时间变化的,但是要寻求不同地点的降雨和
传染病的发生之间的相关性,这样简单的问题仍然是个挑战。实际上,时空数据或网格数
据的挖掘问题,研究工作刚刚开始。
7. 最近邻算法能否应用于大型数据集
最邻近的数据并非不再重要。最简单的分类方法或许就是把学习集作为模型。给定一个无
标记数据点,分类器用与之最邻近的数据点,或k个最邻近的数据点来投票决定该点的标
记。对于小的数据集这是一个实际的算法,对于更大的数据集这也是一个十分诱人的算法
,其简单变形就是若干

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -