⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 707.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: yaomc (白头翁&山东大汉), 信区: DataMining
标  题: Intelligent Miner(IM)使用简介.
发信站: 南京大学小百合站 (Tue Dec  4 11:07:50 2001), 站内信件

摘自http://www.dmgroup.org.cn.

I M 使用简介
数据:
在进行任何的处理之前,我们先要创建一个指向一定数据的数据对象。也就是指定
一个输入数据或数据输出在哪里。这个可以通过数据向导来实现。
数据种类分为两种:
1.数据库中的表/视图,通过选择DB2中的表来完成。 
2.平面文件,通过指定一个有效的路径来定位文件,然后对文件中的记录定义相
应的字段名。 
数据预处理:
在运用数据挖掘的算法之前,我们可以对数据进行一定的处理,使算法的运用效果
更明显。这些可以通过IM中的处理向导来实现。
具体预处理的内容有:
1.编码丢失值:就是指定一个或多个字段,对每个字段搜索丢失值,并给予一个
值。例如:婚姻状态字段为空的话,我们可以给它一个 “未婚”的值。 
2.编码无效值:就是对于一个字段的值,不是一个有效值的话,我们可以给它一
个缺省的值。例如:对于婚姻字段,如果是“已婚”、“未婚”值之外的话,我们
可以给它一个值。 
3.成组记录:就是SQL中的Group的作用,通过Group,然后输出成组的字段和一些
聚集表达式。 
4.废弃带丢失值的记录:就是给出几个字段,当这些字段中有Null值时,这个记
录就被丢弃了。 
5.过滤记录:在向导中输入一些条件,只有当条件满足时记录才保留。 
6.过滤使用值集合的记录:给出两个字段,只有当第一个字段的值在第二个字段
中出现时,第一个字段所在的记录才别保留下来。 
7.过滤字段:可以通过指定一些字段,然后选择对这些字段是保留下来,还是保
留除这些字段以外的其他字段。 
8.获取随机样本:通过指定要抽取的样本的比例,从原始数据中采样出一个较小
的样本。 
9.计算值:通过SQL语言来生成一些新的字段。不支持SQL中的列函数。 
10.将记录复制到文件:通过指定一个数据库中的表,然后指定一个文件,就可以
将表中的一些字段存入文件中了。 
11.聚集值:使用它来产生输出数据,其中包含输入数据中的聚集值。可以同时提
供多个聚集表达式和多个新字段名。 
12.离散化成分位点:通过指定一个字段和分位点的个数,我们就可以把该字段的
值分成相应的个数。 
13.离散化使用范围:指定两个数据源,然后对第一个数据源中的一个字段进行离
散化。在第二个数据源中,我们指定三个字段,分别作为间隔边界字段、标识字段
和值字段。 
14.连接数据源:就是通过指定两个数据源,然后我们对这两个数据源进行连接,
可以指定进行连接的字段,最后就可以产生一个新的表了。 
15.清除数据源:可以用来删除一个表或视图。 
16.选取记录的主元字段: 
17.映射值:指定两个数据源。比较第一个和第二个数据的值。当他们的值相同的
时候,就将指定的映射值复制到输出数据中。 
18.运行SQL语言:可以输入一个SQL语句,然后就可以在数据库服务器中运行,但
是不要用这个函数来运行SELECT语句。 
19.转化成小写或大写:该函数可以将指定的字段转换成大写或小写。 
等等。
发掘算法:
在IM中提供了六类数据挖掘的算法,我们来分别看一下:
1. 分类:IM提供了两种算法:决策树和神经元。在参数方面,我们需要指定输入
字段和类标签。同时在神经元方法中可以指定内样本大小,外样本大小,最大遍数
,准确率,错误率。在做好一个分类任务后。使用中分为三个阶段:训练阶段、测
试阶段和应用阶段。 
内外样本的意思是:若内样本为4,外样本为2的话,就是指在训练阶段使用开始的
4个记录,然后跳过2个,再使用后面的4个,这样直到最后。而在验证阶段则刚好
相反。
准确率是指:对训练集的分类的准确率。
错误率是指:对验证集的分类所可以容忍的最大错误率。
2.分群:IM提供了两种算法:神经元和演示图。在参数的设置上,主要需要设置
:最大遍历数(对数据库的扫描次数)、最大分群数、活动字段(用于分群的字段
)、补充字段(用于显示群上的一些信息的字段)。分群完成后,我们还需要对结
果进行一定的理解。 
3.关联:只有关联规则一个方法。参数的设置上有:事务字段(用于区别一个事
务的字段)、项目字段(一个事务中包含的内容)、最小支持度(可以有系统来决
定)、最小可信度、最大规则长度。 
4.相似序列:目的是查找时间序列数据库中所有相似子序列的出现。例如寻找具
有相似销售序列的不同商品。 
序列字段        时间字段        值字段
沙滩服  一月    0.2
沙滩服  二月    0.4
5.在参数中我们就要给出序列字段、时间字段和值字段。
6.然后我们需要指定一些运行参数:? 、间隔、窗口尺寸、匹配长度。
7. 是表示相似性的参数:? 越小,产生的序列的相似性就越好。
8. 间隔表示:一个子序列可以被忽略的最大长度,即使它不满足? 的要求。
9. 匹配长度是指:匹配的子序列的长度占完整序列的总长度的比例。 
10.序列模式:用于找出事务间的模式。参数方面有:事务组字段、事务字段、项
目字段、最小支持度、最大模式长度。 
事物组字段:就是客户的标识符,用于唯一的代表一个用户。
事务字段:用于表示日期或事务号,来表示用户的一次交易。
项目字段:就是一个事务的具体内容。
11.预测:IM提供了两种预测的算法:径向基函数和神经元。目的是预测一个字段
的值,并显示此值和其他字段之间的关系。 在参数的设置上主要就是:活动字段
(用做依据的字段)、预测字段(被预测估值的字段)。同时和分类一样,预测也
分为三个阶段:训练阶段、测试阶段和应用阶段。 
统计:
IM也提供了一些统计的方法:单变量曲线、双变量统计、线形回归、因子分析、主
分量分析。
1.单变量曲线:查找一个精确描述一段时间上数据分布的算术函数。 
2.双变量统计:计算附有说明的单变量或多变量统计。还可以计算分位点或极值
并创建样本。 
3.线形回归:使用线形回归来确定从属变量和一个或多个独立变量之间的最佳线
形关系。 
4.因子分析:找出许多变量之间的关系,这些关系用一些基本的、但又不可观测
的随机分位点来表示。 
5.主分量分析: 查找原始变量的标准化线形组合,可以使用此分析类型来总计数
据,并识别变量的线形关系。使用主分量分析,可以减少用回归分析、分群和其它
的分析方法时多元数据的变量数。 


--
我挖,我挖,我挖挖挖。。。。。。。
哎呀,我挖到金子了???????
且慢,请先鉴定一下是否为真金!!!
热烈欢迎大家到数据挖掘版(DataMining)光临指导。

※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.204.36.15]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -