10.txt

来自「This complete matlab for neural network」· 文本代码 · 共 305 行 · 第 1/2 页
TXT
305 行
发信人: rlp (阿兹猫), 信区: DataMining
标  题: 南大苏富特数据仓库项目实施的可行性研究
发信站: 南京大学小百合站 (Sat May  3 06:01:09 2003)

数据仓库项目实施的可行性研究

1 数据仓库技术的发展
    随着计算机信息系统在全球范围内的广泛应用，许多机构和公司都积累了大量的历史数
据．从这些数据中，可以研究过去的经营状况、管理状况，发现和挖掘可以改进的地方，可
使决策者很快地对自己的经营情况做出准确的评估，并为制订计划、确定发展规划提供依据
．然而准确地从这成堆的历史数据中挖掘、整理出有用的数据，需要使用新的方法。1990年
Prism Solutions公司W. H. Inmon在"Building the Data Warehouse"一书中提出数据仓库
（Data Warehouse）的概念．这一概念和引入联机分析处理（OLAP）方法解决了在信息技术
发展中存在的拥有大量数据及如何利用其中有价值信息的问题，为构筑合理可行的DSS/EIS
系统提出了解决方案。数据仓库的设计是一个非常重要的基础，国内外诸多研究者对此也提
出了许多建模的规划及实现方法。
近年来，微电子、计算机技术快速发展，网络通讯、操作平台与工具、数据库、多媒体（超
媒体）等新兴技术领域，连连取得重大突破与实用化进展；企业竞争的日益激烈为DSS的需
求不断注入活力，新兴技术的发展尤其数据库技术的发展，以数据仓库(Data Warehouse，
DW)技术为基础，以在线分析处理（On Line Analytical Processing，OLAP）技术和数据挖
掘（Data Mining，DM）技术工具为手段的决策支持系统解决方案逐渐成熟。这是一种对于
DSS问题的更为完整统一的解决途径，它具有技术起点高、支持工具强、有广阔实用前景等
优势。
早期的决策支持系统（DSS）在应用需求推动和人工智能技术支持下，经过长期探索，建立
了一套理想化的框架体系，这就是以数据库（DB）、模型库（MB）和知识库（KB）等"三库
"为核心的理论体系结构和系统建设方法。有些系统取得了令人瞩目的成绩，然而就其总体
而言，以往的系统多数只能停留在演示阶段，录活性、可用性差，因而不够实用，未能迈入
大规模的工业工程实践。多年来，DSS仍然处在设计方案与系统规划阶段，缺乏可操作、可
实施的技术、方法和工具。究其原因，概因为缺乏丰富的数据资源所致，不论是内部数据还
是外部数据，操作数据还是管理数据，综合数据还是历史数据统统不足；DSS是面向分析的
，然而分析模型和算法设计均缺少坚实的数据基础；所得少量信息，其关联性又差（如"三
库"无法有机结合），结果形成信息孤岛；最后，缺乏有力的分析工具，无法从外部市场得
到成熟的分析工具产品，多数为自行开发，力不从心只能就事论事。
数据仓库技术高性能的数据库服务器，可处理数据量巨大、查询要求复杂，且具查询优化机
制的难题，并行数据库技术，可并行存贮管理超大规模数据库（VLDB），提供高速度复杂查
询的能力；网络与数据库的互操作技术，使大量数据通过网络的传输、转化高得简易可靠，
这些都为新兴的数据仓库技术的发展开辟了道路。
数据仓库是面向主题的集成化的稳定的、随时间变化的数据集合，用以支持决策管理的一个
过程。它是从数据库技术发展而来，为决策服务的数据组织、数据存贮技术。数据仓库把数
据使用者（企业的生产经营决策者）所关心的带有统计性趋势性的数据，从大量业已存在的
数据库或业务处理过程中集中起来，经过加工、提炼和重组，形成新的存贮管理体系-数据
仓库，作为向决策者提供查询和分析用的集成化信息库。
数据仓库的信息源具有分布和异构的特点，主要信息可视为定义在各信息源上的实体化视图
集合。数据仓库管理系统把实体化视图所对应的数据从信息源中提取出来，物理地存贮到
DW中，使之成为物理存贮的数据实体。因此，数据仓库应具有两方面功能，一是从信息源提
取数据并加工转化存入DW中；二是在DW上处理用户查询与决策分析请求，要尽量避免直接访
问数据源。数据仓库要由不同信息源的数据（微数据）产生综合数据，这可由各种聚集操作
（如分类、求和、计数等）得到。如何从综合数据恢复微数据，以及如何在保持DW及时增加
新数据的同时，又支持对其数据实施有效存取，都是重要的技术。
数据仓库是面向主题的，因而适合于决策支持的应用。数据仓库中的数据是多维的，构成多
维数据库，以便于从不同角度观察分析问题。数据仓库中的数据包括：近期基本数据（
Current detail data）远期基本数据（Older detail data）、轻度综合数据（Lightly 
summarized data）、高度综合数据（Highly summarized data）和元数据（Meta data）。
元数据是定义数据的数据，在数据仓库中地位十分重要。建立数据仓库的步骤是：（1）分
析决策需求，确定数据来源；（2）定义数据结合转化过程；（3）建立数据仓库；（4）建
立供用户使用的DW工具。数据仓库系统的体系结构，以及DW数据服务器结构已有多种实现途
径，主要有：（1）专用的RDBMS，即在索引、扫描、复杂查询诸方面，加以特殊处理的
RDBMS；（2）关系型OLAP用DBMS，即扩弃型RDBMS，将多维数据的操作映射到标准的关系型
操作上；（3）多维OLAP用DBMS，可直接实现对多维数据的管理与操作。
2 数据仓库技术的需求
在当今信息社会里，信息正以爆炸的速度增长，面对来势凶猛的信息，人们往往感到无所适
从。事实上，在这信息海洋里有用的信息比率很低。据IBM公司的测算，目前许多企业花费
昂贵代价建立起来的数据库，真正有用的只有7%，问题就在于怎样发现那些真正有用的信息
。就我国的银行业而言，每家银行都有自己庞大的客户信息库，可管理人员往往视这个信息
库而不见，只注重其量的总和，如存款余额等，而不去研究开发这个信息库的具体内容，无
法把数据转化为对企业有用的信息，导致信息黄金的流失和资源的浪费，同时另一方面在其
新开发的业务中又不得不面对高风险威胁。在信息中搜寻黄金又不被信息表面的假象所迷惑
，不被信息海洋所淹没，就要采用科学的方法和工具。

2.1银行业的需求
就我国的银行业而言，每家银行都有自己庞大的客户信息库，可管理人员往往视这个信息库
而不见，只注重其量的总和，如存款余额等，而不去研究开发这个信息库的具体内容，无法
把数据转化为对企业有用的信息，导致信息黄金的流失和资源的浪费，同时另一方面在其新
开发的业务中又不得不面对高风险威胁。在信息中搜寻黄金又不被信息表面的假象所迷惑，
不被信息海洋所淹没，就要采用科学的方法和工具。
目前我国银行业所做的各种信息系统一般都是OLTP系统，用于完成各种各样的柜面业务，如
储蓄系统、会计系统、信用卡系统等。有些银行正在开发集各种柜面业务为一体的综合柜面
业务系统，这些系统都是OLTP系统，重在提高业务运行管理效率。只要我们对各家银行的系
统进行分析观察，就会发现各系统的内容、模式及所提供的功能基本都是相同的，最多只是
所选软硬件平台的不同，这样看来各家银行耗费巨资进行的都是重复的开发，没有把事务处
理系统外包出去，从事务处理中摆脱出来，不注重或从没有查询和分析已有的各种客户信息
资料，从中找出潜在有用的信息。
我国各商业银行比较长的一段时间来处在依靠扩大规模、抢占地盘来提高效益的规模效益阶
段。经过盲目的机构设置、地盘抢占、人员投入之后，才发现实际产出的效益并没有达到期
望的效果。目前国内金融机构日益增多，一些外资银行也已抢滩，竞争日趋激烈，扩大规模
已不再是行之有效的经营手段。
    随着竞争的日益深入，美国商业银行中的"深度效益"观念必将融入我国商业银行的管理
策略之中：把客户细化为不同的个体，细化客户信息的组织和分析，由分析工具和经验选择
特定的客户群来划定战场，跟踪每位消费者个体以及个性化的需求，在营销方面实施关系营
销，由传统的注重交易转变为注重客户关系和客户价值，从而产生了"关系银行"这个概念。

美国Bank One银行对自己的客户进行调查发现，百分之二十的客户创造银行利润，其它百分
之八十的客户并没有给银行创造利润。如果我国的银行对自己的客户进行调查，也会发现同
样的结果，只是百分比不同而已。我们就是要把零散的、无序的、历史的、当前的各种数据
集中起来建立数据仓库，从所建立的数据仓库中挖掘出为银行创造利润的这部分客户，从复
杂的客户信息中建立模型，对客户记录信息进行动态跟踪和监测，计算客户价值，锁定特定
客户群，分析潜在客户群，制定不同市场需求、不同客户群的市场战略，根据客户的价值选
定服务产品配置，从而与创造利润的优良客户建立长期关系。美国西部一家银行测算以"深
度效益"为指导的促销为1美元带来10美元的回报。
建立数据仓库，进行数据挖掘是金融监管的需要。我国的金融监管实时性差，严重滞后，东
南亚金融危机的发生迫使我国加强和改善金融监管，降低我国金融市场的风险。建立数据仓
库，进行数据挖掘也是商业银行生存发展、提高竞争力的需要。我国各商业银行提供的服务
内容基本相同，市场竞争日益激烈，风险越来越大，仅靠传统的服务已不能创造更多的利润
，为了提高投资的有效性，降低风险，就要广泛收集各方面信息，充分利用已有的各种数据
来争取更多的优良客户，支持决策的科学性、可靠性。

2.2 保险业数据仓库建设的必要性
保险电子化工作起步于八十年代，经过十几年的努力，在保险业务处理系统（OLTP）和业务
管理系统（MIS）建设方面，电子化工作取得了可喜的成绩。全国主要的业务险种均已开发
出应用软件，全系统自行设计和开发的应用系统近百个，在全国重点城市和部分经济发达地
区，计算机应用已达到很高水平。但从整体上来看，还存在着发展不平衡和应用层次不高等
问题。开发的系统主要为业务工作服务，向各级领导提供宏观管理信息和决策支持还有一定
的距离。
随着保险市场竞争的日益激烈，我国保险业正处于由粗放式经营向集约式经营的转型时期。
由于保险业的特殊性质，迫切需要现代高新技术和科学的经营管理方法，在制订发展规划、
防范经营风险、保险险种设计以及损失评估等方面都必须依靠现代化的科学手段，这已在各
级领导中形成共识。在日常经营管理中，各级领导也迫切希望能随时掌握系统内各分支公司
的业务经营状况和国际国内同业经营情况及动态，以便能随时调整经营方针，确保经营效益
和规模的协调发展。这对电子化工作提出了更高的要求。数据仓库的出现为决策支持系统研
究注入了新的活力。它以大量数据为基础，通过对数据的综合和集成，科学地利用起来，为
领导提供综合全面的信息，为预测未来的发展变化提供科学依据。
    为了满足今后的各种保险业分析及决策支持所需, 一个保险业数据仓库应包含以下内容
 : 
    * 保险业务数据 
    * 会计数据 
    * 统计数据 
    * 公司经营机构及人员 
    * 保险市场 
    * 国内金融业务 
    * 国民经济 
    * 社会人文 
    * 保险业务特性曲线(组) 
    * 国民生产特性曲线(组) 
    * 社会特性曲线(组) 
    * 国际经济信息 
    上述各种信息实际上可划分保险业务及社会信息两大类。并且各类信息量的增长速度都
是很大的, 而三类特性曲线或更多的其他特性曲线则相对稳定, 日趋光滑。 
    保险业信息分为两大类: 业务数据和社会经济地理信息, 它们的共同特点是: 
    ●　联机性　业务操作繁杂, 实时要求高。 
    ●　异构性　数据分布在多种异构的数据源和数据文件中。 
    ●　分布性　数据涉及多个地域(公司)。 
    ●　业务性　数据结构为业务操作而设计, 需要复杂的计算才能得到有用的信息。 
    数据的联机性的特点是不容置疑的, 而且面对业务的不断发展和市场竞争的日趋激烈,
 各类事务处理的联机性也越来越高。数据仓库的最大特点是它的独立性, 这本身就解决了
数据的异构性、分布性的问题,这只要通过正确了解各种数据库文本文件的结构及借助于网
络功能即可解决的。最后所要考虑的是数据的业务性。任何一个数据仓库是面向不同用户的
, 因此数据仓库所拥有的各种信息和用户之间的关系包含了"一对多"、"多对一"和" 多对多
"的三种可能性, 我们为此必须考虑到数据仓库的基本形式即多维数据库(MDD), 通过它可方
便地建立任一种图表, 这实际上也就解决了数据面向不同用户的业务性问题。 
    
2.3 投资业决策需求
项目投资决策的主要目的是进行投资经费分配．项目投资经费分配是一种共享科技资源的决
策行为，其目的是为了达到项目投资经费的合理分配．因此，在相应的经费分配系统中必须
10.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 10.txt 源码文件，采用文本编程语言编写，共 305 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。
虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。
⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?