📄 11.txt
字号:
(2) 运行在Internet环境里的分析、决策模型及知识处理方法会从一台机器上的集中式
处理。变成在网络环境下的分布、或分布再加上并行的处理方式。这些变化为我们研究分布
式数据仓库、分布式决策处理提供了机遇。
决策支持系统与Internet两种技术的结合,使更多的用户能够容易、透明地通过超级连
接,从网络的一个点到另一个点,操作文件,方便地访问信息,从而改变人们的决策方式。
利用Internet的Web用户可以漫游网络,确定感兴趣的信息并将它们下载;用户还可以很容
易地用建立报表以及在网上公布的作法进行信息传递和交换。
3.11 数据挖掘(Data Mining)
数据挖掘是从大量的、不完全的、先前不知道的、模糊的、可能有污染的随机详细数据中提
取隐含的、潜在有用的信息和知识的过程。挖掘的对象是数据库和数据仓库,其目的是通过
对数据的统计、分析、综合、归纳和推理,揭示事件间的相互关系,预测未来的发展趋势,
起到辅助实际工作问题求解、支持决策的作用。
建成数据仓库,只是把各种数据集中到一起,形成一个数据集合,可利用多维OLAP工具、查
询和报表开发工具等信息存取工具进行查询,产生各种统计报表、图形等,要真正发挥数据
仓库的决策支持作用,就要对数据仓库中的数据进行广泛深入的挖掘。数据挖掘能够发现
OLAP处理过程所不能发现的更为复杂的更有洞察力的答案。
数据挖掘有多种方法:归纳法、神经网络、相关分析、模糊逻辑、统计分析、遗传算法、决
策树方法和可视化技术等。在解决问题时,可使用以下几种手段:预测模型、数据库分析、
链元分析和编差检测。(1) 预测模型:在OLAP中使用演绎推理,在数据挖掘中使用归纳推理
。(2) 数据库分析:把数据库自动划分为聚类(簇)。(3) 链元分析:基于对横向关联和顺
序关联的发现,且对记录间联接进行确证。(4) 偏差检测:对记录不能被归入到特定格元现
象的侦知和解释。可以交叉更替使用各种算法以挖掘更多的信息。
使用数据仓库和数据挖掘,我们就可以从个人客户帐户( 信用卡、各类储蓄存单、卡折等
)上发生的明细帐了解客户的收入来源、消费爱好及习惯、收支发生的频度等,分析其消费
支付行为,对客户帐户进行分类,根据明细数据给客户计分,采取措施优化客户服务,如,
给予优良客户消费优惠折扣以鼓励消费并吸引潜在客户。对于单位帐户,如厂商,可以通过
了解客户经营的产品结构、行业性质、市场占有率、社会需求及国家的有关政策等,分析其
发展趋势,确定其资金偿还能力、信用等级等,也可通过对一些潜在的客户数据分析,拓展
有前途的客户,最终起到降低成本与风险、提高效益的作用。
对此已有一些成功的案例,如IBM在对信用卡欺诈的侦测、目标市场和固定资产评估等的数
据库分析中成功地使用了这些算法和手段。拥有二十亿美元资产的Firstar银行根据消费者
是否有家庭财产贷款、赊帐卡、存款证或其他储蓄、投资产品,将他们分成若干组,使用数
据挖掘程序预测什么时间向每位客户提供哪种产品。数据仓库、数据挖掘构成了决策支持系
统(DSS)框架,使DSS进入实用阶段,更有效地提高决策支持能力。数据仓库和数据挖掘对
银行管理决策和IT人员提出了更高的要求,传统的OLAP系统提高效率有限,不具有多大的竞
争优势。IT人员要从OLTP系统中摆脱出来,从事高附加值的工作,管理决策人员需要掌握一
定的计算机方面的知识。
银行经营的最终目的是创造和获取最大利润,充分利用已有的数据资源,挖掘出其中的信息
黄金,深化和客户的关系,发现潜在的客户群,抢占市场,将对降低投资风险,避免高风险
投资,提高投资效益起到意想不到的作用。
4 数据仓库系统预选解决方案
4.1 IBM数据仓库解决方案
IBM早在90年代初期,就投入大量优秀技术人员和资金开始了数据仓库的研究,并启动
了Star-Brust大型科研项目。该项目主要就是为了攻克数据仓库领域的一些技术难题,例
如优化星型连接(Star-join),实现多维分析。因此,IBM现在发布的数据仓库产品都是
经过反复推敲和久经考验的,真正做到让用户买起来放心,用起来舒心。基于对数据仓库结
构的深刻理解和多年积累的经验,IBM设计了自己的数据仓库结构。它作为一种开发式结构
,方便了用户的产品选择、实施和今后的扩展。
在数据抽取阶段完成对各种数据源的访问,数据转换阶段完成对数据的清洗、汇总和整
合等,数据分布阶段完成对结果数据存储的分配。这三个阶段通常紧密结合在一起,集成在
一个产品中实现。例如,Visual Warehouse、Data Joiner、Data Propagator都跨越了这三
个阶段。其中,Data Joiner和Visual Warehouse可以访问各种关系型和非关系型的数据,
关系型数据库主要包括DB2数据库家族、Oracle、Sybase和Informix,非关系型数据有VSAM
。Visual Warehouse还可以进行数据映射的定义,以定期地抽取、转换分布数据。
DataPropagator采用数据复制的方式可避免对日常业务系统事物处理性能的影响。当用户有
特殊需求时,可以通过编程接口编程实现或选择第三方厂商(如ETI和Vality Technology)
的产品。
数据仓库的存储由DB2家族产品来完成,以保证数据仓库始终高性能地运转,提供完整
、准确的数据,以便于将来的升级和扩展。若希望使用多维数据库,则可选用第三方的产品
,例如:Arbor软件公司、Pilot软件公司、Planning Sciences软件公司。如果既想拥有多
维数据库的独特功能,又要把数据存放在关系型数据库中以便管理,则DB2 OLAP Server是
用户的最佳选择。
DataGuide通过描述性数据帮助用户查找和理解数据仓库中的数据。
其中数据的呈现由不同产品完成不同层次的分析要求。其中,Approach可进行查询和统
计分析,Intelligent Decision Server支持多维分析,Intelligent Miner用于数据挖掘。
用户也可选择自己喜爱的第三方产品,这些第三方厂商包括:Andyne、Brio、Business
Objects、Cognos、Information Advantage 。
整个数据仓库的管理工作可交给Visual Warehouse, ADSM是大型磁盘阵列管理的得力助
手,DB2 ECC for TME10可从一点集中管理各种关系型数据( DB2、Oracle、Sybase、
Informix)。
以上各个阶段的结构都是按照IBM Information Warehouse 和IBM Open-Blueprint的
架构统一设计的,因此相互之间结合得既紧密又非常开放,只要符合标准的软件就可结合在
一起。
最后,为了帮助用户快速实施,IBM可由IBM Global Services 或IBM Global-
Solution提供可靠的咨询服务。这些服务也可从广泛的第三方获得。因此,在此架构下,
IBM提供给用户的是一个完整的、灵活的、开放的解决方案。
IBM Visual Warehouse是IBM数据仓库解决方案的重要组成部分,它主要由以下几部分
功能组成:数据访问;数据转换;数据分布;数据存储;靠元数据查找和理解数据;显示、分析
和发掘数据;数据转换过程的自动化及其管理。它缩短了复杂的海量数据与有洞察力的商务
决策之间的差距,有助于公司更进一步了解其业务、市场、竞争对手和客户。
IBM的Visual Warehouse的数据源可以是DB2家庭中的任一数据库,也可以是Oracle、
Sybase、Informix、SQL Server数据库和IMS、VSAM文件系统;存放数据仓库的数据库可以
是DB2 UDB for Windows NT,OS/2,AIX/600,HP UX,Sun Solaris,SCO,SINIX和DB2/400,DB2
for OS/390;Visual Warehouse 的管理平台为Windows NT和 OS/2;而且以上适用的平台仍
在不断地扩展。下面,我们将从几个用户关心的方面来分析一下Visual Warehouse。
(1)元数据的存储(Meta Data)
Visual Warehouse建立在集成的元数据的仓库之上,该元数据的仓库提供了一个所有管
理和操作功能的中心。数据仓库的模型以元数据的形式存储于该仓库中,它定义了数据仓库
的结构和内容,用于对数据源进行抽取、过滤、转换、映射后放入数据仓库。这种元数据是
以商业视图被定义的,而且商业视图可以在多个数据仓库间输入和输出,大大方便了具有相
同结构数据仓库的建造。
(2)数据仓库的规模化扩展
Visual Warehouse很易于扩展,单个数据仓库可支持非常大量的数据,也可靠简单地增
加内存、处理器升级和存储设备扩容来支持更多的升级和用户,访问更多数据源。另外,我
们还可以不同的主题同时实施多个部门级数据仓库,最后再把它们整合到一起形成企业级的
数据仓库。
(3)开放的系统环境
Visual Warehouse提供了一个真正开往的系统环境,它不仅提供了数据仓库的所有功能
和组件,而且可以"即插即用"的方式与用户喜欢的第三方软件组合,以最少的费用快速开发
出用户所需的数据仓库。
(4)规模化的体系结构
Visual Warehouse提供了完整的分布式客户机/服务器环境,它使得用户可充分享受到
"网络计算"带来的便利,而且适用于多种平台。它包括四个组件:管理员、控制数据库、客
户端管理员、代理。这些组件既可分布于几个不同的服务器,也可都安装在同一服务器上。
(5)Visual Warehouse的管理
Visual Warehouse的管理是由其客户端管理员实现的,它的管理得以集中于一点。它包
括以下几点:商业视图、监控数据转换过程、定期执行、级联式商业视图、版本、Visual
Warehouse中的触发器、用户自定义程序,元数据等。
(6)高效装入
除了Windows NT,Visual Warehouse的代理(Agent)现在可以运行于AIX和OS/2,这就带
来了针对位于这些平台上数据中心的装入性能的改善,因为数据无需再通过Windows NT上的
代理。另外,除了现有的基于SQL的目标装载,Visual Warehouse现在还提供用于文件传输
和装载过程管理的程序。
(7)处理OLAP
Visual Warehouse支持DB2 OLAP Server上一种或多种星型图表的全部映射或装载。另
外Visual Warehouse现在也支持指定和创建DB2 OLAP Server以外生成的星型图表初始化或
引入关键码。
(8)高端可升级性选项
现在,Visual Warehouse对抽取和转变程序具有更完善的支持。Visual Warehouse利用
这种支持给IBM的战略基础伙伴提供数据加工后的管理:ARBOR软件公司和ETI。
(9)商务视图建模改善
Visual Warehouse图形查询编制器得以扩展,目前除了支持常用的SQL语句还支持JOIN
和GROUP BY语句,简化了复杂的SQL声明。
Visual Warehouse基于久经考验的独创技术,可以支持复杂业务分析过程的每一步骤,
同现有应用程序环境集成,转换数据,自动执行数据仓库处理,分析数据,并为决策人员提
供信息。Visual Warehouse是一种简单易用、经济有效的数据中心和数据仓库产品,可以处
理部门中设计、实现和应用方案时的相应任务。其较低的维护成本和迅速的实现过程将使工
作组迅速提高工作效率。
Visual Warehouse提供了完整的Web支持功能,允许从任何Web浏览器访问任何数据。因
为Visual Warehouse的信息目录完全支持Web,用户可以访问可用数据的详细信息,包括格式
、通用性、拥有者和位置。
IBM的Visual Warehouse提供了强有力的工具以定义、建立、管理、监控和维护一个商用信
息系统环境……数据仓库。但是,IBM并不满足于此。为了更好地满足用户的需求,IBM设计
了一个完整的解决方案。IBM将Dataguide和Visual Warehouse集成在一起并与Lotus、
Approach和相应平台上的DB2 UDB打包在一起,作为一个完整的解决方案提供给用户。其中
,Dataguide靠商用信息分类表支持商业需求,帮助用户查找和理解数据仓库中的商用信息
。Lotus、Approach可帮助用户分析信息并把它以图表的方式表示出来。
IBM的Visual Warehouse系列软件包用于帮助企业迅速建立、管理和分析数据仓库和数
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -