1.txt

来自「This complete matlab for neural network」· 文本 代码 · 共 143 行

TXT
143
字号
发信人: yaomc (白头翁&山东大汉), 信区: DataMining
标  题: One DataMining Poerpoint about TCM.
发信站: 南京大学小百合站 (Tue Dec 18 15:01:26 2001), 站内信件

I select the text content from one powerpoint, its audience perhaps are 
all the researcher of Traditional Chinese medicine(TCM).Do not laugh at 
the speaker or the audience when you read it over.

Data Mining 在中医研究中的作用展望
上海财经大学    张尧庭教授

Data Mining(数据采集、数据挖掘)是近年来热门的话题之一。由于电脑、网络
技术的发展,人们可以收集到的资料、数据越来越多,面对着庞大的数据,如何从
中获取所需要的信息,就成了一个迫切需要解决的问题。

统计分析、人工智能、数据仓库,这些技术的发展为解决这一问题准备了良好的条
件,数据挖掘(DM)技术在这个基础上就应运而生了。数据采掘为什么会这样被人
重视呢?它与中医的研究工作有什么联系呢?这还需从DM技术的三个支柱技术的特
点说起,然后再讲它们是如何在DM中互相渗透、互相结合的。

从上世纪九十年代开始,不到十年,就成为各行各业都看好的技术。统计分析是帮
助人类总结经验的一种科学的方法,这在医学界早已有共识。但是随着电脑技术的
发展,一些与电脑技术紧密结合的分析方法,并未被许多人接受,因为感到学习它
比较困难。有了DM技术,人们只需了解它的功能而不一定学会它的细节,就可以对
资料的处理结果作出自己的判断。在这里我用两个例子来说明。

中医中经常遇到定性资料,如舌苔的颜色、脉象的疾缓等等,如果把它们量化,量
化后再按定量资料的方法来分析。这相当于作了一翻译,译的不对就难以给出正确
的结论。如果不量化,自有一套系统分析的理论和相应的方法——离散多元分析

那么是不是一定要系统地读完了这样一本书之后,才可以应用其中的方法呢?其实
不然,分析资料最重要的目的是探讨几个定性变量之间是否关联?关联程度大还是
小,弄明白度量关联程度的统计量是什么,这个量的大小反映的是什么关系,就可
以用这些方法,而了解这些并不是那么困难的。

另一个例子是关于分类的。中医可以依证分类,也可以依病分类,它们之间有关系
,有一致的,也有不一致的,一种症状或证候,可能是好几种疾病都有的,一种病
也有各种症状或证候。那么它们之间的关系究竟是怎样的呢?如果我们手上有大量
的病例,那么DM就能帮你把这些关系弄明白。

这一点大量的资料是一个重要的前提,少数几百个病例归纳出来的结论是不易让人
信服的,若有几十万,上百万的病例资料,从中归纳出来的结论就不得不令人信服
。只有资料相当多了,一种症状它在各种疾病之间的分配的直方图就有很重要的现
实意义

国外的统计资料曾分析过建筑行业的工人,在一天24小时中事故发生频率的直方图
,大量数据表明事故高峰是在刚上班的半小时和快下班的半小时之内。所以劳动保
护的重点时段也就非常清楚了。

其实对各种疾病死亡时间作一统计分析,对于病人的护理就容易抓住重点。DM方法
中各种分类技术,将不同的分类结果加以比较,就是一件很有意义的事情。

在统计分析中,分类是利用研究对象之间的相似性或距离来归类的,这样分类的结
果就会随相似系数的选择或距离的选择而发生变化。相似系数和距离都是对原始资
料一些直接观察到的指标作了一些转换和加工,这样的转换或加工,有时会丧失了
原始指标的信息,部分的、有些可能是重要的信息。

人工智能的方法就不这样考虑,直接利用原始指标来作出分类。这一点能见效必须
要有大量的资料,我们手上若有几十万个病例资料,都已给出了确实的诊断,分为
虚证和实证这两大类,每个病例有十几项指标用来确诊的。于是电脑可以按DM的技
术,找出一个第一个用来分类的指标,我们用x1来表示它,比如说是脉象,将二十
八脉分两类,使每一类中虚、实证占的比例相差达到最大;然后从指标中去掉脉象
,DM技术会选取第二个重要的指标,它在已分的两类中可能并不一样,同样的按第
二个指标又可分两大类……这样不断分下去,会分到分类后全是实证或全是虚证,
或者指标用完了,还不能完全判别是虚还是实,它就形成一个分类树(或决策树)
。可以想象,如果没有电脑的帮助,要人去处理这些资料,每次都要从所有的指标
中去搜索一个对分类最有用的界限和分类,对几十个案例也许有可能,对几十万个
案例就几乎是不可能了,而电脑完全可以作到。

事情并没有到此为止。大家自然会问,我们这样的分类结果会有意义吗?我随便分
两类,分出来的结果是否与这个也差不多呢?这时就可以看到DM技术是如何把几种
方法真正的结合起来的,这时就产生了统计分析问题,我们仅对一点给以一些说明
,更多的将来可以去参看有关的材料

每一次分类后,都有下列几个数字,
 n =案例总数,M=案例中实证例数
 n1 =分入第Ⅰ类的总案例
 n2 =分入第Ⅱ类的总案例
 m1=在第Ⅰ类中实证的例数
 m2=在第Ⅱ类中实证的例数 
我们可以设想一下,我们从案例总数n中随机抽取n1个,那么这n1中恰有R个实证的
概率是超几何分布。今n、n1、M是已知的,R一定,上述PR就求得,很明显,R的值
太小或太大,相应的概率就很小,因此m1的值太大或太小就表明这样的分类不是偶
然的,是有意义的,就可以判断这个分类的价值。这是一个典型的统计假设检验问
题。所以每个分叉都可以分有无意义,若无意义,就不必再分了。上面虚、实证分
类是举例说,自然也可以分几类,办法和原理是完全一样的,上述的这种分类法从
数学上看,它是非线性的,它不须要将定性资料量化,分类后的结论容易从医学上
给以解释

再强调一下,它需要大量的案例,所以从中医发展、研究来看,成立一个中医案例
的资料中心,收集全国各地有关的案例,中医诊断医疗手册登记的规范化,等等都
是应该提到日程上来给以解决

中国最大的一个优势是人多,案例多,资料多,但是不是科学地、认真地,经几代
人去努力积累收集,是没法得到合用的资料的,没有资料,再好的DM技术也无法使
用。

DM技术中还有一点值得一提的是从资料中发现重要的联系。人类获得知识都是从经
验上升为理论,然后不断为实践所证实,上升为理论时往往是一种假说,不断证实
就成为众人接受的理论。怎样从经验中去找到合理的假说呢?DM技术在这一方面是
完全可以帮忙的。DM中有一项内容,就是寻找事物之间的联系,其中常被引用的一
个例子,就是对超市购物者资料进行分析时,发现买啤酒的人通常还要买尿布,这
在一般情况下是不易发现的,发现后又感到很易于理解。连接分析就是对各种资料
去发现这一类的联系。这一类技术在人工智能中已有相当长的一段历史,通常用
KDD表示,在数据库中发现知识就是着三个字的含意 。DM的技术是正在发展的一个
方向,所以很难说到今天为止基本上的一些内容都已具备了,实际上远不是这样,
从这几年陆续出版的国外的书来看,逐年的变化是明显的,它处在一个成长、发展
的阶段,随着在各行各业中应用所遇到的特殊问题,一些新想法、新的技术、新的
问题也就产生了

中医有着悠久漫长的历史,积累的历史资料就非常多,将DM技术用于这一领域,会
有一些新的创造性的发现。从上面的介绍可以看出,准备好大量的资料是一个必要
的关键性的前提。准备并不是把大量的资料放在一起就行了。这如同炒菜一样,必
须有一个数据清理、整合的过程,这就是DM中有关数据仓库的技术。数据仓库与数
据库有什么不同呢?数据库技术好比是一个库房,它储存数据主要的目的是为了查
找方便、它的功能是查询应答,如同一些大的火车站,想去哪里输入后,自动告诉
你坐什么车,如何走。而数据仓库(Data Walhouse, Data Mart) 是为分析数据而
获得信息使用的。举一个简单的例子,如北京市的居民按姓名输入安排,于是要找
一个姓名指定的人,就非常方便,但要问个人收入为中等水平的代表性家庭的家长
是谁,有多少,上述存放的方式就不便处理。若存放时按家庭收入、平均个人收入
指标来安排,就容易分析,处理的时间就短,求一百个数据的平均数,与求一百万
个数据的平均数,并不是一回事,否则可能根本不能算,分组、抽样,在处理庞大
数据时是非常有用的技术,这些在数据存放时,就必须给予考虑。另一方面,数据
量大,来源复杂,要整理清楚,能调整为一致的,可以应用的资料,这是数据仓库
另一个重要的使命。各种来源的数据结构是不同的,怎样设计一个能容纳各种来源
的结构,残缺的项目如何处理,期限不同的资料如何整合,……等等

很明显,数据仓库的技术是随着不断引入的新的分析工具而发展的,很明显,中医
古籍资料的整理和分析是中医界必须完成的一项历史任务,如何整合这些资料是一
项艰巨的工作,现在有了DM技术,只是提供了一些考虑这一庞大工程的思路和工具
,为解决这一任务还需要相当一批有志的年青人介入才能完成,更需要有关领导的
大力支持,投入资金、人力,组织班子。

中医古籍的整理和发掘,停留在个人钻研、仁者见仁、智者见智的科研方式,显然
与我们这个时代不相称的。我衷心希望中医界能有一批掌握现代科学分析方法的人
和集体,将中医推上一个新的台阶,能与世界医学界作广泛的交流。

--

Welcome to http://datamining.bbs.lilybbs.net.

※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.204.36.15]

⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?