⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 748.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: mining (key), 信区: DataMining
标  题: 数据挖掘语言浅析(2)
发信站: 南京大学小百合站 (Sat Dec  8 12:06:27 2001), 站内信件

2.3  通用数据挖掘语言[4] 
通用数据挖掘语言合并了上述两种语言的特点,既具有定义模型的功能,又能作为查询语
言与数据挖掘系统通信,进行交互和特殊的挖掘。通用数据挖掘语言的标准化是解决目前
数据挖掘行业出现问题的最优的解决方案。2000年3月,微软公司推出了一个数据挖掘语言
,称作OLE DB for Data Mining(DM)。这是朝数据挖掘语言原语标准化方面最显著的努
力。我们将OLE DB for DM归类成通用数据挖掘语言。
OLE DB for DM的规范包括创建原语以及许多重要数据挖掘模型的定义和使用(包括预言模
型和聚集)。它是一个基于SQL预言的协议,为软件商和应用开发人员提供了一个开放的接
口,该接口将数据挖掘工具和能力更有效地和商业以及电子商务应用集成。同时,OLE DB
 for DM 已经与DMG发布的PMML标准结合。通过与PMML标准结合,微软将数据挖掘分析应用
带入了一个更加强大的开放规范。这意味着大量的组织或公司现在都可以有一种简单的并
且易实现的方式将数据挖掘模型与他们自己构建的应用相结合,增强了应用系统的分析能
力,却没有增加复杂性。
OLE DB for DM扩充了SQL语言语法,使得商业分析和开发人员只是调用单一确定的API(应
用程序接口)函数即可实现数据挖掘功能,而不需要特殊的数据挖掘技能。它与关系数据
库自然的集成能够加快数据挖掘进入高利润的电子商务应用领域,例如站点个性化设计和
购物篮分析。
微软的目的是为数据挖掘提供行业标准,以至于任何数据挖掘软件的算法,只要符合这个
标准,都能容易地嵌入应用程序中。OLE DB for DM支持多种流行的数据挖掘算法。使用O
LE DB for DM,数据挖掘应用能够通过OLE DB生产者接进任何表格式的数据源,数据挖掘
分析现在能够依赖一个关系数据库直接进行。
为了更容易访问,OLE DB for DM没有增加任何新的OLE DB 接口;相反,这个规格定义了
一个简单的查询语言,它的语法非常类似于SQL语言,它专门研究了模式的行集合(rowse
t),经过OLE DB或者ADO,消费者应用程序能够使用行集合与数据挖掘生产者进行通信。

为了填补传统的数据挖掘技术和目前流行的关系数据库管理系统之间的缝隙,OLE DB for
 DM定义了重要的新的概念和特点,包括如下几点:
1)数据挖掘模型(Data Mining Model,DMM)
DMM类似一个关系表,但是它包含了一些特殊的列,这些列被数据挖掘中的数据训练和预言
制定使用。DMM 既可以用来创建预言模型,又可以产生预言。不象标准的关系表存储原始
数据,DMM存储被数据挖掘算法发现的模式。对于从事基于WEB数据挖掘项目的开发人员,
DMM所有的结构和内容都可以用XML字符串表示。
2)预言联接操作(Predication Join Operation)
这是一个简单的操作,类似于SQL语法中的联接操作,它在一个训练好的数据挖掘模型和设
计的输入数据源之间映射一个联接查询,开发人员能够容易地产生确切符合商业需求的度
身定制的预言结果。这个预言结果通过OLE DB的行集合或者ADO记录集(recordset)发送
到消费者应用程序内。
3)OLE DB for DM模式行集合(Schema Rowsets)
这些特殊目的的模式行集合允许消费者应用发现临界的信息,例如可以利用的挖掘服务,
挖掘模型,挖掘列,和模型内容。数据挖掘生产者在模型创建和训练阶段组装模式行集合
目前OLE DB for DM规范最新版本是1.0。
3.      分析与评价 
数据挖掘查询语言能与数据挖掘系统通信,进行交互和特殊的挖掘。它提供了独立于应用
的操作原语,简明精确的问题描述方法。但是,由于各查询语言是研究机构和公司为自己
的数据挖掘系统开发,没有形成标准,它并没有实质性地解决各个数据挖掘系统彼此互相
孤立,难于嵌入大型应用的问题。
PMML为处理和交换预言模型提供了一个简单、开放的构架,使得各公司能够更加迅速地使
用他们从在线和传统的数据中挖掘出的信息。这种标准使得公司在IT基础构架中更加容易
构建商业智能。PMML允许用户在一个软件商的应用程序内开发模型,而使用其它软件商的
应用程序对模型可视化、分析、估值或者以别的方式使用该模型。它使得在不同应用程序
之间能够无缝地交换模型变为可能,解决了数据挖掘系统彼此孤立,难于嵌入大型应用的
问题。
然而,PMML是预言模型标记语言,数据挖掘模型包括预言模型和描述模型,因此PMML并不
是全面的数据挖掘模型定义语言。同时,PMML1.0不是一个全面的集合,我们期望PMML最终
将发展成一个全面的、具有丰富建模能力的模型定义语言。我们预见并且盼望这个标准接
下来的版本能够介绍优化,比如种类字段(categorical fields)的位向量扩充(bit ve
ctor expansions)或者连续字段(continuous fields)的log 变换。PMML,或者类似于
PMML的事物,随着商业系统对统计和数据挖掘工具与技术需求的日益增加,对它的要求显
得特别迫切。
OLE DB for DM规范的发布在预言和描述分析模型被商业应用广泛使用的道路上是一个重大
的里程碑。它同时具备了数据挖掘查询和建模语言的优点,它的推广必将推动数据挖掘行
业的发展。但是,对于一些数据挖掘模型,比如:概念描述(特征和辨别规则)和关联规
则,还有数据仓库模型,OLAP的创建和使用,在目前的版本中仍然没有涉及。我们期望微
软公司将继续动态地扩充和丰富它的内容。
4.总结 
       本文介绍了数据挖掘语言及其标准化方面的研究进展,分析并比较了几种商用数据
挖掘语言的特点,我们发现标准化是数据挖掘语言发展的趋势。开发一种全面的开放的数
据挖掘语言标准,必然将是各公司和研究机构的核心课题。但是,正如关系数据库查询语
言SQL由关系代数理论的支持,数据挖掘语言的标准化也需要一种理论的基础,基于高阶逻
辑和Rough Sets理论的数据挖掘问题的分类描述理论,将作为今后我们进一步深入研究的
课题

--
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.118.237.14]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -