⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 1.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: GzLi (笑梨), 信区: DataMining
标  题: <统计学习理论本质》简要
发信站: 南京大学小百合站 (Sun Apr 21 00:14:09 2002), 站内信件

我导师对与Svm用于数据挖掘很感兴趣,所以要我作SVM方面工作,大家也稍微了解
一下吧。
转自pris
有网友要的,目前国内关于SVM的中文书籍好像只有《统计学习理论的本质》  
张学工翻译,清华大学的《模式识别》和《人工神经网络与模拟进化计算》里面  
有少量介绍。下面是偶一个朋友写的,文档我上载到FTP上了。一下是第一部分,  
能有个大概印象。  


基于数据的机器学习是现代智能技术中的重要方面,研究从观测数据(样本)出发寻找  
规律,利用这些规律对未来数据或无法观测的数据进行预测。迄今为止,关于机器学习  
还没有一种被共同接受的理论框架,关于其实现方法大致可以分为三种[3]:  
第一种是经典的(参数)统计估计方法。包括模式识别、神经网络等在内,现有机器学  
习方法共同的重要理论基础之一是统计学。参数方法正是基于传统统计学的,在这种方  
法中,参数的相关形式是已知的,训练样本用来估计参数的值。这种方法有很大的局限  
性,首先,它需要已知样本分布形式,这需要花费很大代价,还有,传统统计学研究的  
是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设。但在实际问题  
中,样本数往往是有限的,因此一些理论上很优秀的学习方法实际中表现却可能不尽人  
意。  
第二种方法是经验非线性方法,如人工神经网络(ANN)。这种方法利用已知样本建立非  
线性模型,克服了传统参数估计方法的困难。但是,这种方法缺乏一种统一的数学理论  
与传统统计学相比,统计学习理论(Statistical  Learning  Theory或SLT)是一种专门  
研究小样本情况下机器学习规律的理论。该理论针对小样本统计问题建立了一套新的理  
论体系,在这种体系下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有  
有限信息的条件下得到最优结果。V.  Vapnik等人从六、七十年代开始致力于此方面研究  
[1],到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理  
论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视。  
统计学习理论的一个核心概念就是VC维(VC  Dimension)概念,它是描述函数集或学习机  
器的复杂性或者说是学习能力(Capacity  of  the  machine)的一个重要指标,在此概念
础上发展出了一系列关于统计学习的一致性(Consistency)、收敛速度、推广性能(Gene  
ralization  Performance)等的重要结论。  
统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了  
一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问  
题(比如神经网络结构选择问题、局部极小点问题等);同时,这一理论基础上发展了  
一种新的通用学习方法──支持向量机(Support  Vector  Machine或SVM),已初步表
出很多优于已有方法的性能。一些学者认为,SLT和SVM正在成为继神经网络研究之后新  
的研究热点,并将推动机器学习理论和技术有重大的发展。  
支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据  
有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力  
(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(Gener  
alizatin  Ability)。支持向量机方法的几个主要优点有:  
1.  它是专门针对有限样本情况的,其目标是得到现有信息下的最优解而不仅仅是样本数  
趋于无穷大时的最优值;  
2.  算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将是全局最优点,解  
决了在神经网络方法中无法避免的局部极值问题;  
3.  算法将实际问题通过非线性变换转换到高维的特征空间(Feature  Space),在高维空  
间中构造线性判别函数来实现原空间中的非线性判别函数,特殊性质能保证机器有较好  
的推广能力,同时它巧妙地解决了维数问题,其算法复杂度与样本维数无关;  
在SVM方法中,只要定义不同的内积函数,就可以实现多项式逼近、贝叶斯分类器、径向  
基函数(Radial  Basic  Function或RBF)方法、多层感知器网络等许多现有学习算法。  
统计学习理论从七十年代末诞生,到九十年代之前都处在初级研究和理论准备阶段,近  
几年才逐渐得到重视,其本身也趋向完善,并产生了支持向量机这一将这种理论付诸实  
现的有效的机器学习方法。目前,SVM算法在模式识别、回归估计、概率密度函数估计等  
方面都有应用。例如,在模式识别方面,对于手写数字识别、语音识别、人脸图像识别  
、文章分类等问题,SVM算法在精度上已经超过传统的学习算法或与之不相上下。  
目前,国际上对这一理论的讨论和进一步研究逐渐广泛,而我国国内尚未在此领域开展  
研究,因此我们需要及时学习掌握有关理论,开展有效的研究工作,使我们在这一有着  
重要意义的领域中能够尽快赶上国际先进水平。由于SLT理论和SVM方法尚处在发展阶段  
,很多方面尚不完善,比如:许多理论目前还只有理论上的意义,尚不能在实际算法中  
实现;而有关SVM算法某些理论解释也并非完美(J.C.Burges在[2]中就曾提到结构风险  
最小原理并不能严格证明SVM为什么有好的推广能力);此外,对于一个实际的学习机器  
的VC维的分析尚没有通用的方法;SVM方法中如何根据具体问题选择适当的内积函数也没  
有理论依据。因此,在这方面我们可做的事情是很多的。 

--
GzLi如是说:
     Joy and pain are coming and going both
     Be kind to yourself and others.

welcome to DataMining  http://DataMining.bbs.lilybbs.net
welcome to Matlab http://bbs.sjtu.edu.cn/cgi-bin/bbsdoc?board=Matlab

※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 211.80.38.29]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -