📄 9.txt
字号:
发信人: soullion (river), 信区: DataMining
标 题: 中医药数据库
发信站: 南京大学小百合站 (Fri Mar 1 14:01:35 2002)
备课资料
1 数据库(database)基本概念
数据通常指用符号纪录下来的可以鉴别的信息。数据的概念包括两个方面:其一,数据内
容是事物特性的反映或描述;其二,数据是符号的集合。例如:桂枝性温味甘。数据的概
念在数据处理领域中已经大大地拓宽了。所谓的符号,不仅仅指数字、字母、文字和其它
特殊字符,而且还包括图形、图象、声音等多媒体数据,所谓“记录”下来也不仅是指印
在纸上,而且包括记录在磁介质、光介质、半导体存储器里。数据在空间上的传递称为“
通信”,在时间上的传递称为“存储”。
信息是关于现实世界事物的存在方式或运动形态反映的综合,是人们进行各种活动所需要
的知识。同一个数据也可能有不同的解释(反映不同的信息),由此,信息是人们消化理
解了的数据。信息是抽象的(行上学的),不随数据设备所决定的数据形式而改变(而数
据的表示方式却具有可选择性)。用不同的数据形式可以表示同样的信息。
数据与信息既有联系又有区别。数据是载荷信息的物理符号或称载体,数据能表示信息,
但并非任何数据都能表示信息。数据与信息有时可以混用,例如,数据处理也称为信息处
理;有时必须分清,例如,不能把信息系统称为数据系统。数据与信息的关系如下:信息
=数据+处理
数据库技术是管理数据的一种最新方法,它研究如何组织和存储数据,如何高效地获取和
处理数据。数据库技术已经成为计算机领域中最重要的技术之一,是软件学科的一个独立
分支。数据库系统已经成为当代计算机系统的重要组成部分。
数据库技术在60年代末出现,主要用来适应管理信息系统对数据管理的要求。30年来,数
据库技术在理论上和实现技术上都得到很大发展,开发出很多实用的数据库系统,数据库
技术得到广泛的应用。在计算机的三大主要应用领域(科学计算、数据处理、过程控制)
中,数据处理约占70%左右的比重。
数据管理是指对数据的组织、编码、分类、存储、检索和维护,它是数据处理的中心问题
。
数据处理是将数据转换成信息的过程。它包括对各种形式的数据进行收集、存储、加工、
传播等一系列活动的总和,其目的是从大量的、原始的数据中,根据事物之间的固有联系
和运动规律,通过分析、归纳、演绎推导等方法,抽取、导出有价值、有意义的信息,以
此作为行为和决策的依据。数据处理可以有简单加工:组织、编码、分类、排序等;复杂
加工:用统计学方法、数学模型等对数据进行深层次的加工。
信息系统是提供信息,辅助人们对环境进行控制和进行决策的系统。数据库是信息系
统的核心和基础。数据库技术将数据库中大量的数据按一定的模型组织起来,提供存储、
维护、检索数据的功能,使信息系统可方便地、及时地、准确地从数据库中获得所需的信
息。一个信息系统的各个部分能否紧密地结合在一起以及如何结合,关键在于数据库。
2 数据管理方法的发展
数据管理方法的发展可划分为三个阶段:人工管理阶段、文件系统阶段和数据库系统
阶段。此种划分的依据主要是数据管理的特点。
2.1 人工管理阶段(至50年代中期)
该阶段的计算机系统还没有支持管理数据的软件,主要应用于科学计算。在程序中不仅规
定数据的逻辑结构,而且还要设计物理结构(包括存储结构、存取方法)。当数据的物理
组织或存储设备改变时,应用程序必须重新编制。这个时期数据管理的特点是:
数据与程序不具有独立性
数据不长期保存
数据的组织是面向应用的,应用程序之间无法共享数据资源,存在大量的重复数据,
系统中没有对数据进行管理的软件
维护应用程序之间数据的一致性很困难。
应用程序1-------数据集1
应用程序2-------数据集2
应用程序n-------数据集n
人工管理数据与程序的关系
2.2 文件系统阶段(50年代中期到60年代中期)
该阶段的计算机系统由统一的软件管理数据的存取,该软件称之为文件系统或存取方法。
其特点为程序和数据是分离的,数据可以长期保存在外存上,以多种文件形式(如顺序文
件、索引文件、随机文件等)组织。数据的逻辑结构(指呈现在用户面前的数据结构)与
数据的物理结构(指数据在物理设备上的结构)之间可以有一定的差别,由存取方法实现
数据的逻辑结构与物理结构之间的转化,使程序与数据具有一定独立性。实现了以文件为
单位的数据共享,但未能实现以记录或数据项为单位的数据共享,数据的逻辑组织还是面
向应用的,所以在应用之间还存在大量冗余数据(不必要的重复存储)。
问题:
数据冗余度大
同一数据重复出现在多个文件中
2、缺乏数据独立性
数据和程序相互依赖,如果改变数据的逻辑结构,或文件的组织格式,必须修改相应
的应用程序。
3、数据无集中管理
文件是无弹性、无结构的数据集合。所谓无弹性是指文件内部结构是由程序自己定义
,而不由系统统一管理,因此限制了数据文件的应用扩充、移植等需求,也难以增删数据
项;所谓无结构是指各个数据文件之间是独立的,缺乏联系,不能反映现实世界事物之间
的联系。
应用程序1 ------- 物理文件1
应用程序2 ------- 物理文件2
应用程序n ------ 物理文件n
文件系统数据与程序的关系
2.3 数据库系统阶段(60年代后期至70年代后期)
该阶段的计算机系统广泛地应用于企业管理,要求提供更高的数据共享能力,程序和数据
具有更高的独立性。数据库系统是在操作系统的文件系统基础上发展起来的。是具有管理
数据库功能的计算机系统。它将一个单位或一个部门所需的数据综合地组织在一起,构成
数据库。由数据库管理系统(DBMS:Data Base Management Sybase)软件实现对数据库的
定义、操作和管理。数据库系统的主要特点是:
实现数据共享,减少数据冗余
数据完全从程序中分离,由数据库管理系统来统一管理。数据的最小访问单位是数据
项(字段)。
2、采用特定的数据模型
整个组织的数据不是一盘散沙,必须表示出数据之间所存在的有机联系,才能反映现
实世界事物之间的联系。也就是说数据是有结构的,这种结构由数据模型表示出来。
例如《备急千金要方》+ 消渴 + 黄连,非常容易地被联机查到。
3、具有较高的数据独立性
数据库系统中,DBMS提供映象的功能,确保应用程序对数据结构和存取方法有较高的
独立性。数据的物理存储结构与用户看到的逻辑结构可以有很大差别。
4、有统一的数据控制功能
数据库作为多个用户和应用程序的共享资源,对数据的存取往往是并发的,即多个用
户同时使用同一个数据库。数据库管理系统必须提供并发控制功能、数据的安全性控制功
能和数据的完整性控制功能。
应用程序1
应用程序2 数据库管理系统 数据库
应用程序n
数据库系统数据与程序的关系
2.4 分布式数据库系统阶段(80年代初期到现在)
数据库系统按数据分布情况可分为集中式和分布式数据库系统。集中式数据库系统将其数
据库集中存放在一台计算机上,而分布式数据库系统支持分布式数据库。分布式数据库是
由一组数据组成,这组数据可分布在由计算机网络连接在一起的不同计算机上,网络上的
每一个结点具有独立处理的能力(称为场地自治性),可以执行局部应用,同时每个结点
也可以通过网络执行全局应用。对于数据库的用户来说,一个分布式数据库系统在逻辑上
看如同一个集中式数据库系统,用户可以在任何一个场地执行全局应用。
分布式数据库系统是数据库技术和计算机网络技术结合的产物,其是一个逻辑上统一
、地域上分布的数据集合。其特点如下:
1、局部自主
网络上每个节点的数据库系统都具有独立处理本地事务的能力,而且各局部结点之间
也能够互相访问、有效地配合处理更复杂的事务。我们在ORACLE 8i上实现了这样的操作,
在局域网中,大家可以在不同计算机终端,操作同一个数据库;9个数据库系统,在每一台
计算机上都可以访问到。
2、可靠性和可用性
分布式系统比集中式系统有更高的可靠性,一个局部系统发生故障不至导致整个系统停顿
或破坏,只要一个结点上的数据备份可用,则数据是可用的。可见支持一定程度的数据冗
余是充分发挥分布式数据库系统优点的先决条件之一。
3、效率和灵活性
分布式系统分散了工作负荷,缓解了单机容量的压力。数据可以存储在临近的常用结点,
如果本结点的数据子集包含了要查询的全部内容,显然比集中式数据库在全集上查询要节
省时间。同时系统易于实现扩展。例如,一个数据库要增加新的数据项,分布式数据库系
统能够在对现有系统影响较小的情况下实现扩充。由此,扩大系统规模比集中式系统更加
方便、经济、灵活。
3 数据库系统的结构
3.1 数据库系统的组成
最终用户
专业用户
DBA
数据库系统层次示意图
1、硬件系统
足够大的内存(1G),足够大的硬盘(36G),特殊通道能力,软盘、磁带等。
2、数据库集合
若干个设计合理、满足应用需要的数据库。
3、系统软件
支持数据库管理系统运作的操作系统;数据库管理系统;开发应用系统(程序语言、工具
软件)。
4、数据库管理员
对于较大规模的数据库系统必须有人全面负责建立、维护和管理数据库系统。承担此
任务的人称作数据库管理员DBA(Database Administrator)。
5、用户
数据库用户分为2类:一类是最终用户通过数据库系统提供的界面来使用数据库。这些
界面包括菜单、表格、图形和报表;另一类是专业用户,即程序员和数据维护人员。
3.2 数据库系统结构
1972年美国ANSI的一个研究组开始研究数据库结构的标准,于1978年提出了三级模式
的数据库系统结构。
数据库系统的体系结构,是数据库系统的一个总的框架。尽管实际的数据库系统的软
件产品多种多样,支持不同的数据模型,使用不同的数据库语言,建立在不同的OS之上,
数据的存储结构也各不相同,但绝大多数数据库系统在总的体系结构上都具有三级模式结
构的结构特征。
数据库系统的三级模式结构是:概念模式、外模式和内模式。
概念模式,又称逻辑模式,是数据库中全体数据的逻辑结构和特征的描述,是所有用
户的公共数据视图。
内模式,又称存储模式,是数据在数据库系统内部的表示,即为数据的物理结构和存
储方式的描述。
外模式,又称子模式或用户模式,是数据库用户看到的数据库的数据视图。
数据库系统的三级模式是数据库的三个抽象层次的联系和转换,数据库系统在三级模
式中提供两个映象:外模式/概念模式映象和概念模式/内模式映象。
数据库系统提供模式描述语言(模式DDL)来严格地表示模式所包含的内容。用模式DDL写
出的一个数据库逻辑定义的全部语句,称为数据库的模式。模式是对数据库结构的一种描
述,它是装配数据库的一个框架。
如下图所示:
外模式 / 模式映象
模式 / 内模式映象
图1 数据库系统结构图
4 数据库管理系统的主要功能
数据库管理系统的功能是在上面所描述的结构前提下实现的。在数据库中,数据是多
个用户和应用程序的共享资源,已经从应用程序中完全独立出来,由数据库管理系统来统
一管理。数据库管理系统应该提供以下几个方面的功能。
1、数据库的定义功能
提供数据定义语言DDL(Data Description Language),或者操作命令,以便对各级
数据模式进行精确的描述。由此,系统必须包含DDL的编译或解释程序。用DDL所作的定义
将被系统保留在数据字典中,以便在进行数据操作和控制时使用。专业用户可以查阅数据
定义以便共享数据库中的数据。
2、数据操作功能
为了对数据库中的数据进行追加、插入、修改、删除、检索、集合等操作,DBMS提供
语言或者命令,称作数据操作语言DML(Data Manipulation Language)。不同的DBMS语言
的语法格式也不相同,以其实现方法而言,可以分为两类:一类可以独立交互式使用,不
依赖于任何程序设计语言,称为自含型或自主型语言;另一类是宿主型,嵌入到宿主语言
中使用。如嵌入FORTRAN、C等程序语言中。在使用高级语言编写的应用程序中,则要用宿
主型DML语句来操纵数据,因此DBMS必须包含DML的编译或解释程序。
3、数据库运行控制功能
数据库中的数据是提供给多个用户共享的,用户对数据的存取可能是并发的,DBMS必
须提供以下三个方面的数据控制功能
* 并发控制功能:对多用户并发操作加以控制、协调。
* 数据的安全性控制
数据安全性是控制是对数据库采用的一种保护措施,防止非授权用户存取造成数据泄
密或破坏。
* 数据完整性是数据的准确性和一致性的测度。系统应采取一定的措施确保数据有效
、与数据库的定义一致。但这种控制是有限的。
4、数据字典
数据字典DD(Data Dictionary)中存放着对实际数据库各级模式所作的定义,即对数
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -