81.txt

来自「This complete matlab for neural network」· 文本 代码 · 共 323 行 · 第 1/2 页

TXT
323
字号
2)    数据模式(a data schema)


3)    数据挖掘模式(a data mining schema)


4)    预言模型模式(a predictive model schema)


5)    预言模型定义(definitions for predictive models)


6)    全体模型定义(definitions for ensembles of models)


7)    选择和联合模型和全体模型的规则(rules for selecting and combining models
 and ensembles of models)


8)    异常处理的规则(rules for exception handling)


其中第5项组件是必不可少的。另外预言模型的模式必须被定义,这能够利用一个或多个模
式(组件3,4,5)来定义。其它几项组件是可选的。


PMML1.0标准版提供了一个小的DTD(文档类型定义,XML术语)集合,DTD详细说明了决策
树和多项式回归模型的实体和属性。DTD1.0遵循着一个通用模式,该模式将一个数据字典
和一个或多个模型的定义相结合,数据字典能够立即应用于模式。数据字典的元素是非常
简单的。


       DMG当前正在制定PMML版本1.1,该版本提供独立于应用程序定义模型的方法,使得
版权问题和不兼容问题不再成为应用程序之间交换模型的障碍。       


2.3  通用数据挖掘语言[4]

通用数据挖掘语言合并了上述两种语言的特点,既具有定义模型的功能,又能作为查询语
言与数据挖掘系统通信,进行交互和特殊的挖掘。通用数据挖掘语言的标准化是解决目前
数据挖掘行业出现问题的最优的解决方案。2000年3月,微软公司推出了一个数据挖掘语言
,称作OLE DB for Data Mining(DM)。这是朝数据挖掘语言原语标准化方面最显著的努
力。我们将OLE DB for DM归类成通用数据挖掘语言。


OLE DB for DM的规范包括创建原语以及许多重要数据挖掘模型的定义和使用(包括预言模
型和聚集)。它是一个基于SQL预言的协议,为软件商和应用开发人员提供了一个开放的接
口,该接口将数据挖掘工具和能力更有效地和商业以及电子商务应用集成。同时,OLE DB
 for DM 已经与DMG发布的PMML标准结合。通过与PMML标准结合,微软将数据挖掘分析应用
带入了一个更加强大的开放规范。这意味着大量的组织或公司现在都可以有一种简单的并
且易实现的方式将数据挖掘模型与他们自己构建的应用相结合,增强了应用系统的分析能
力,却没有增加复杂性。


OLE DB for DM扩充了SQL语言语法,使得商业分析和开发人员只是调用单一确定的API(应
用程序接口)函数即可实现数据挖掘功能,而不需要特殊的数据挖掘技能。它与关系数据
库自然的集成能够加快数据挖掘进入高利润的电子商务应用领域,例如站点个性化设计和
购物篮分析。


微软的目的是为数据挖掘提供行业标准,以至于任何数据挖掘软件的算法,只要符合这个
标准,都能容易地嵌入应用程序中。OLE DB for DM支持多种流行的数据挖掘算法。使用O
LE DB for DM,数据挖掘应用能够通过OLE DB生产者接进任何表格式的数据源,数据挖掘
分析现在能够依赖一个关系数据库直接进行。


为了更容易访问,OLE DB for DM没有增加任何新的OLE DB 接口;相反,这个规格定义了
一个简单的查询语言,它的语法非常类似于SQL语言,它专门研究了模式的行集合(rowse
t),经过OLE DB或者ADO,消费者应用程序能够使用行集合与数据挖掘生产者进行通信。


为了填补传统的数据挖掘技术和目前流行的关系数据库管理系统之间的缝隙,OLE DB for
 DM定义了重要的新的概念和特点,包括如下几点:


1)数据挖掘模型(Data Mining Model,DMM)


DMM类似一个关系表,但是它包含了一些特殊的列,这些列被数据挖掘中的数据训练和预言
制定使用。DMM 既可以用来创建预言模型,又可以产生预言。不象标准的关系表存储原始
数据,DMM存储被数据挖掘算法发现的模式。对于从事基于WEB数据挖掘项目的开发人员,
DMM所有的结构和内容都可以用XML字符串表示。


2)预言联接操作(Predication Join Operation)


这是一个简单的操作,类似于SQL语法中的联接操作,它在一个训练好的数据挖掘模型和设
计的输入数据源之间映射一个联接查询,开发人员能够容易地产生确切符合商业需求的度
身定制的预言结果。这个预言结果通过OLE DB的行集合或者ADO记录集(recordset)发送
到消费者应用程序内。


3)OLE DB for DM模式行集合(Schema Rowsets)


这些特殊目的的模式行集合允许消费者应用发现临界的信息,例如可以利用的挖掘服务,
挖掘模型,挖掘列,和模型内容。数据挖掘生产者在模型创建和训练阶段组装模式行集合

目前OLE DB for DM规范最新版本是1.0。


3.      分析与评价

数据挖掘查询语言能与数据挖掘系统通信,进行交互和特殊的挖掘。它提供了独立于应用
的操作原语,简明精确的问题描述方法。但是,由于各查询语言是研究机构和公司为自己
的数据挖掘系统开发,没有形成标准,它并没有实质性地解决各个数据挖掘系统彼此互相
孤立,难于嵌入大型应用的问题。


PMML为处理和交换预言模型提供了一个简单、开放的构架,使得各公司能够更加迅速地使
用他们从在线和传统的数据中挖掘出的信息。这种标准使得公司在IT基础构架中更加容易
构建商业智能。PMML允许用户在一个软件商的应用程序内开发模型,而使用其它软件商的
应用程序对模型可视化、分析、估值或者以别的方式使用该模型。它使得在不同应用程序
之间能够无缝地交换模型变为可能,解决了数据挖掘系统彼此孤立,难于嵌入大型应用的
问题。


然而,PMML是预言模型标记语言,数据挖掘模型包括预言模型和描述模型,因此PMML并不
是全面的数据挖掘模型定义语言。同时,PMML1.0不是一个全面的集合,我们期望PMML最终
将发展成一个全面的、具有丰富建模能力的模型定义语言。我们预见并且盼望这个标准接
下来的版本能够介绍优化,比如种类字段(categorical fields)的位向量扩充(bit ve
ctor expansions)或者连续字段(continuous fields)的log 变换。PMML,或者类似于
PMML的事物,随着商业系统对统计和数据挖掘工具与技术需求的日益增加,对它的要求显
得特别迫切。


OLE DB for DM规范的发布在预言和描述分析模型被商业应用广泛使用的道路上是一个重大
的里程碑。它同时具备了数据挖掘查询和建模语言的优点,它的推广必将推动数据挖掘行
业的发展。但是,对于一些数据挖掘模型,比如:概念描述(特征和辨别规则)和关联规
则,还有数据仓库模型,OLAP的创建和使用,在目前的版本中仍然没有涉及。我们期望微
软公司将继续动态地扩充和丰富它的内容。


4.总结

       本文介绍了数据挖掘语言及其标准化方面的研究进展,分析并比较了几种商用数据
挖掘语言的特点,我们发现标准化是数据挖掘语言发展的趋势。开发一种全面的开放的数
据挖掘语言标准,必然将是各公司和研究机构的核心课题。但是,正如关系数据库查询语
言SQL由关系代数理论的支持,数据挖掘语言的标准化也需要一种理论的基础,基于高阶逻
辑和Rough Sets理论的数据挖掘问题的分类描述理论,将作为今后我们进一步深入研究的
课题。


【参考 文 献】

[1]     Jiawei Han, Yongjian Fu, Wei Wang, Krzysztof Koperski, Osmar Zaiane. “
DMQL:A Data Mining Query Language for Relational Database”. VLDB’96

[2]     Jiawei Han, Micheline Kamber. ”Data Mining: Concepts and Techniques”
 97-116.Morgan Kaufmann Publishers. August 2000

[3]     Robert Grossman, Stuart Bailey, Ashok Ramu, Balinder Malhi, Michael Co
rnelison, Philip Hallstrom, and Xiao Qin. “The Management and Mining of Multi
ple Predictive Models Using the Predictive Modeling Markup Language (PMML)”,A
FCEA’99

[4]     Microsoft Corporation. ”OLE DB for Data Mining Specification” Versio
n 1.0. July 2000


 


Data Mining Language Analysis

Zhu Jianqiu, Zhang xiaohui, Cai Weijie, Zhu Yangyong

(Department of Computer Science, Fudan University, Shanghai, 200437)


【Abstract】The article introduces some research work about some kinds of data
 mining languages and standardization, presents a kind of classification  of d
ata mining language. Then the article states structure and compose of the data
 mining languages. At the end it points out the trend of data mining language 
growing and some un-solved problems.


【Key Words】data mining,query language,modeling language,XML


本文得到国家863(863-306-02-05)基金和“上海市教育委员会重点学科”基金的资助。


作者简介

朱建秋       男 (1974-)博士研究生

研究方向:数据仓库,数据挖掘

工作单位:复旦大学计算机科学系数据库研究中心

联系地址:复旦大学计算机科学系数据库研究中心527

EMAIL:zhujianqiu@hotmail.com



注:未取得原作者同意就转贴在此,所以希望大家勿再转载:)
--
业精于勤荒于嬉,行成于思毁于随。 —— 韩愈
临渊羡鱼不如退而结网。           —— 班固
勿以恶小而为之,勿以善小而不为。 —— 刘备

※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]

⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?