66.txt

来自「This complete matlab for neural network」· 文本代码 · 共 153 行
TXT
153 行
发信人: GzLi (笑梨), 信区: DataMining
标  题: [合集]我也来说说VC维。
发信站: 南京大学小百合站 (Thu Apr 17 00:22:26 2003)

mnls (蒙娜丽莎的微笑) 于Mon Apr 14 16:57:57 2003)
提到：

vc维就是一个系数，这个系数就是为了度量一组函数集的容量(capacity)。注意这里的
“函数”是广义的，线性函数、多项式函数当然都是函数；对于一个多蹭的神经网络，
权值大小不知道（训练神经元网络就是为了确定权值），每组权值就可以认为对应一个
函数。
而容量就反映了一组函数集对样本的区分能力，容量越大，对应的一组函数集区分能力
就越大；注意容量的大小跟这组函数集自由参数的多少是没有必然联系的（不确信这样
说是否合适），因为函数集{y=sin(w*x+b),w,b(-R}的vc为即为无穷大。
还有一个应该注意的问题是：vapnik定义vc维是指能够找到N个样本可以被一组函数集打
散（不是任意N个样本都满足这个条件）的最大N。比如说二维平面上空间上对于所有的
线性分类面，能够找到3个点可以被线性分类面打散，但不是任意三个点都能够满足这个
条件（是不是？很简单的，相信你能够找到这样的三个点）。
再说说svm,说白了就是个线性分类面，不过是定义在高维特征空间上的，跟感知机算法
相比就多了一个最大间隔，没别的，呵呵。（当然，暂时不考虑核函数映射问题）。那
为啥最大间隔最好呢？vapnik用vc维解释这回事：所有把两类样本以d间隔分开的线性函
数组成的集合，假如记为F(随便了，statistical learning theory中好像不是这样记的
，忘了),那么d越大，函数集F的VC维就越小（vapnik的书有证明），d取极限情况不就是
最大间隔超平面吗？
那为何vc维越小越好呢，就是因为这时推广能力（或者说泛化能力，generalization，
随呢咋叫）好。统计学习理论中被叫烂了的那个结构风险最小化就是说这个事的。简单
的说就是推广能力有两个因素决定：训练错误和置信范围（置信范围这个叫法很土），
也就是STL中一个很重要不等式右边两项，而结构风险最小化就是最小化前面那两个的和
；对于svm，既然都被线性分开了，训练错误当然就是零了，那分类器的泛化性能就只由
置信范围来决定了，而vc维越小，置信范围就越小了。绕来绕去，我也不知道说明白了
没有。
因此,svm就是在最小化经验风险的基础上从vc维最小的函数集里面选择函数，不是吗？
（别忘了，vapnik也给什么是机器学习下了个定义，就是从一组函数集里面选择函数，
就这么简单）我们当然也可以用别的方法寻找最好的函数，只要在寻找的时候记住结构
风险最小，那我们就可能找到别的机器学习算法了，呵呵。
至于核，哎，太累，下次再写。
这个版，我喜欢。


minus (qq) 于Mon Apr 14 18:40:09 2003)
提到：

真的是VC维越小越好吗??

【 在 mnls (蒙娜丽莎的微笑) 的大作中提到: 】
: vc维就是一个系数，这个系数就是为了度量一组函数集的容量(capacity)。注意这里的
: “函数”是广义的，线性函数、多项式函数当然都是函数；对于一个多蹭的神经网络，
: 权值大小不知道（训练神经元网络就是为了确定权值），每组权值就可以认为对应一个
: 函数。
: 而容量就反映了一组函数集对样本的区分能力，容量越大，对应的一组函数集区分能力
: 就越大；注意容量的大小跟这组函数集自由参数的多少是没有必然联系的（不确信这样
: 说是否合适），因为函数集{y=sin(w*x+b),w,b(-R}的vc为即为无穷大。
: 还有一个应该注意的问题是：vapnik定义vc维是指能够找到N个样本可以被一组函数集打
: 散（不是任意N个样本都满足这个条件）的最大N。比如说二维平面上空间上对于所有的
: 线性分类面，能够找到3个点可以被线性分类面打散，但不是任意三个点都能够满足这个
: 条件（是不是？很简单的，相信你能够找到这样的三个点）。
: 再说说svm,说白了就是个线性分类面，不过是定义在高维特征空间上的，跟感知机算法
: 相比就多了一个最大间隔，没别的，呵呵。（当然，暂时不考虑核函数映射问题）。那
: 为啥最大间隔最好呢？vapnik用vc维解释这回事：所有把两类样本以d间隔分开的线性函
: 数组成的集合，假如记为F(随便了，statistical learning theory中好像不是这样记的
: ，忘了),那么d越大，函数集F的VC维就越小（vapnik的书有证明），d取极限情况不就是
: 最大间隔超平面吗？
: 那为何vc维越小越好呢，就是因为这时推广能力（或者说泛化能力，generalization，
: 随呢咋叫）好。统计学习理论中被叫烂了的那个结构风险最小化就是说这个事的。简单
: 的说就是推广能力有两个因素决定：训练错误和置信范围（置信范围这个叫法很土），
: (以下引言省略 ... ...)


bjxue (南方小孩) 于Mon Apr 14 20:41:02 2003)
提到：

我认为不一定的说


对与不同的要求应该有不同的VC维


从张的那本书上也可以看出的


VC维太小了，期望风险也会大的


我们要的是期望风险最小-----这样的话我们就可以构造一个函数集


使他的VC维满足期望风险最小

【 在 minus 的大作中提到: 】

: 真的是VC维越小越好吗??

: 【 在 mnls (蒙娜丽莎的微笑) 的大作中提到: 】

: (以下引言省略...)



GzLi (笑梨) 于Mon Apr 14 22:07:28 2003)
提到：

您没有看明白mnls的话，
这个vc维最小的前提是数据可分，是利用间隔最大来取得vc维最小，
这里要强调的就是间隔的概念请先清楚了。
所以这是一个矛盾，一方面希望间隔大，一方面数据还要可分。
一方面置信范围要小，一方面经验风险要小。
最终是一个妥协。

【 在 minus (qq) 的大作中提到: 】
: 真的是VC维越小越好吗??
: 【 在 mnls (蒙娜丽莎的微笑) 的大作中提到: 】
: (以下引言省略 ... ...)


minus (qq) 于Mon Apr 14 22:24:29 2003)
提到：

明白，呵呵。
看书上那个公式是间隔越大VC维越小，二者一致，都使得置信范围
变小，而经验风险可能会变大，是这个意思吧？
就是在结构选择上不知道有没有什么相对明确可操作的指导原则

【 在 GzLi (笑梨) 的大作中提到: 】
: 您没有看明白mnls的话，
: 这个vc维最小的前提是数据可分，是利用间隔最大来取得vc维最小，
: 这里要强调的就是间隔的概念请先清楚了。
: 所以这是一个矛盾，一方面希望间隔大，一方面数据还要可分。
: 一方面置信范围要小，一方面经验风险要小。
: 最终是一个妥协。
: 【 在 minus (qq) 的大作中提到: 】


fpzh (fpzh) 于Mon Apr 14 23:26:55 2003)
提到：

所以我觉得，带松弛变量的软边缘分类器是不是比不带松弛变量的分类器更符合SRM的思
想呢。

【 在 GzLi (笑梨) 的大作中提到: 】
: 您没有看明白mnls的话，
: 这个vc维最小的前提是数据可分，是利用间隔最大来取得vc维最小，
: 这里要强调的就是间隔的概念请先清楚了。
: 所以这是一个矛盾，一方面希望间隔大，一方面数据还要可分。
: 一方面置信范围要小，一方面经验风险要小。
: 最终是一个妥协。
: 【 在 minus (qq) 的大作中提到: 】


bjxue (南方小孩) 于Tue Apr 15 08:31:06 2003)
提到：

哦，原来是这样。明白明白

以后看书，我还要仔细一点

我要多想一点了

【 在 mnls 的大作中提到: 】

: vc维就是一个系数，这个系数就是为了度量一组函数集的容量(capacity)。注意这里..
: “函数”是广义的，线性函数、多项式函数当然都是函数；对于一个多蹭的神经网络..
: 权值大小不知道（训练神经元网络就是为了确定权值），每组权值就可以认为对应一..
: 函数。

: 而容量就反映了一组函数集对样本的区分能力，容量越大，对应的一组函数集区分能..
: 就越大；注意容量的大小跟这组函数集自由参数的多少是没有必然联系的（不确信这..
: 说是否合适），因为函数集{y=sin(w*x+b),w,b(-R}的vc为即为无穷大。

: 还有一个应该注意的问题是：vapnik定义vc维是指能够找到N个样本可以被一组函数
66.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 66.txt 源码文件，采用文本编程语言编写，共 153 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。
虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。
⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?