📄 66.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: [合集]我也来说说VC维。
发信站: 南京大学小百合站 (Thu Apr 17 00:22:26 2003)
mnls (蒙娜丽莎的微笑) 于Mon Apr 14 16:57:57 2003)
提到:
vc维就是一个系数,这个系数就是为了度量一组函数集的容量(capacity)。注意这里的
“函数”是广义的,线性函数、多项式函数当然都是函数;对于一个多蹭的神经网络,
权值大小不知道(训练神经元网络就是为了确定权值),每组权值就可以认为对应一个
函数。
而容量就反映了一组函数集对样本的区分能力,容量越大,对应的一组函数集区分能力
就越大;注意容量的大小跟这组函数集自由参数的多少是没有必然联系的(不确信这样
说是否合适),因为函数集{y=sin(w*x+b),w,b(-R}的vc为即为无穷大。
还有一个应该注意的问题是:vapnik定义vc维是指能够找到N个样本可以被一组函数集打
散(不是任意N个样本都满足这个条件)的最大N。比如说二维平面上空间上对于所有的
线性分类面,能够找到3个点可以被线性分类面打散,但不是任意三个点都能够满足这个
条件(是不是?很简单的,相信你能够找到这样的三个点)。
再说说svm,说白了就是个线性分类面,不过是定义在高维特征空间上的,跟感知机算法
相比就多了一个最大间隔,没别的,呵呵。(当然,暂时不考虑核函数映射问题)。那
为啥最大间隔最好呢?vapnik用vc维解释这回事:所有把两类样本以d间隔分开的线性函
数组成的集合,假如记为F(随便了,statistical learning theory中好像不是这样记的
,忘了),那么d越大,函数集F的VC维就越小(vapnik的书有证明),d取极限情况不就是
最大间隔超平面吗?
那为何vc维越小越好呢,就是因为这时推广能力(或者说泛化能力,generalization,
随呢咋叫)好。统计学习理论中被叫烂了的那个结构风险最小化就是说这个事的。简单
的说就是推广能力有两个因素决定:训练错误和置信范围(置信范围这个叫法很土),
也就是STL中一个很重要不等式右边两项,而结构风险最小化就是最小化前面那两个的和
;对于svm,既然都被线性分开了,训练错误当然就是零了,那分类器的泛化性能就只由
置信范围来决定了,而vc维越小,置信范围就越小了。绕来绕去,我也不知道说明白了
没有。
因此,svm就是在最小化经验风险的基础上从vc维最小的函数集里面选择函数,不是吗?
(别忘了,vapnik也给什么是机器学习下了个定义,就是从一组函数集里面选择函数,
就这么简单)我们当然也可以用别的方法寻找最好的函数,只要在寻找的时候记住结构
风险最小,那我们就可能找到别的机器学习算法了,呵呵。
至于核,哎,太累,下次再写。
这个版,我喜欢。
minus (qq) 于Mon Apr 14 18:40:09 2003)
提到:
真的是VC维越小越好吗??
【 在 mnls (蒙娜丽莎的微笑) 的大作中提到: 】
: vc维就是一个系数,这个系数就是为了度量一组函数集的容量(capacity)。注意这里的
: “函数”是广义的,线性函数、多项式函数当然都是函数;对于一个多蹭的神经网络,
: 权值大小不知道(训练神经元网络就是为了确定权值),每组权值就可以认为对应一个
: 函数。
: 而容量就反映了一组函数集对样本的区分能力,容量越大,对应的一组函数集区分能力
: 就越大;注意容量的大小跟这组函数集自由参数的多少是没有必然联系的(不确信这样
: 说是否合适),因为函数集{y=sin(w*x+b),w,b(-R}的vc为即为无穷大。
: 还有一个应该注意的问题是:vapnik定义vc维是指能够找到N个样本可以被一组函数集打
: 散(不是任意N个样本都满足这个条件)的最大N。比如说二维平面上空间上对于所有的
: 线性分类面,能够找到3个点可以被线性分类面打散,但不是任意三个点都能够满足这个
: 条件(是不是?很简单的,相信你能够找到这样的三个点)。
: 再说说svm,说白了就是个线性分类面,不过是定义在高维特征空间上的,跟感知机算法
: 相比就多了一个最大间隔,没别的,呵呵。(当然,暂时不考虑核函数映射问题)。那
: 为啥最大间隔最好呢?vapnik用vc维解释这回事:所有把两类样本以d间隔分开的线性函
: 数组成的集合,假如记为F(随便了,statistical learning theory中好像不是这样记的
: ,忘了),那么d越大,函数集F的VC维就越小(vapnik的书有证明),d取极限情况不就是
: 最大间隔超平面吗?
: 那为何vc维越小越好呢,就是因为这时推广能力(或者说泛化能力,generalization,
: 随呢咋叫)好。统计学习理论中被叫烂了的那个结构风险最小化就是说这个事的。简单
: 的说就是推广能力有两个因素决定:训练错误和置信范围(置信范围这个叫法很土),
: (以下引言省略 ... ...)
bjxue (南方小孩) 于Mon Apr 14 20:41:02 2003)
提到:
我认为不一定的说
对与不同的要求应该有不同的VC维
从张的那本书上也可以看出的
VC维太小了,期望风险也会大的
我们要的是期望风险最小-----这样的话我们就可以构造一个函数集
使他的VC维满足期望风险最小
【 在 minus 的大作中提到: 】
: 真的是VC维越小越好吗??
: 【 在 mnls (蒙娜丽莎的微笑) 的大作中提到: 】
: (以下引言省略...)
GzLi (笑梨) 于Mon Apr 14 22:07:28 2003)
提到:
您没有看明白mnls的话,
这个vc维最小的前提是数据可分,是利用间隔最大来取得vc维最小,
这里要强调的就是间隔的概念请先清楚了。
所以这是一个矛盾,一方面希望间隔大,一方面数据还要可分。
一方面置信范围要小,一方面经验风险要小。
最终是一个妥协。
【 在 minus (qq) 的大作中提到: 】
: 真的是VC维越小越好吗??
: 【 在 mnls (蒙娜丽莎的微笑) 的大作中提到: 】
: (以下引言省略 ... ...)
minus (qq) 于Mon Apr 14 22:24:29 2003)
提到:
明白,呵呵。
看书上那个公式是间隔越大VC维越小,二者一致,都使得置信范围
变小,而经验风险可能会变大,是这个意思吧?
就是在结构选择上不知道有没有什么相对明确可操作的指导原则
【 在 GzLi (笑梨) 的大作中提到: 】
: 您没有看明白mnls的话,
: 这个vc维最小的前提是数据可分,是利用间隔最大来取得vc维最小,
: 这里要强调的就是间隔的概念请先清楚了。
: 所以这是一个矛盾,一方面希望间隔大,一方面数据还要可分。
: 一方面置信范围要小,一方面经验风险要小。
: 最终是一个妥协。
: 【 在 minus (qq) 的大作中提到: 】
fpzh (fpzh) 于Mon Apr 14 23:26:55 2003)
提到:
所以我觉得,带松弛变量的软边缘分类器是不是比不带松弛变量的分类器更符合SRM的思
想呢。
【 在 GzLi (笑梨) 的大作中提到: 】
: 您没有看明白mnls的话,
: 这个vc维最小的前提是数据可分,是利用间隔最大来取得vc维最小,
: 这里要强调的就是间隔的概念请先清楚了。
: 所以这是一个矛盾,一方面希望间隔大,一方面数据还要可分。
: 一方面置信范围要小,一方面经验风险要小。
: 最终是一个妥协。
: 【 在 minus (qq) 的大作中提到: 】
bjxue (南方小孩) 于Tue Apr 15 08:31:06 2003)
提到:
哦,原来是这样。明白明白
以后看书,我还要仔细一点
我要多想一点了
【 在 mnls 的大作中提到: 】
: vc维就是一个系数,这个系数就是为了度量一组函数集的容量(capacity)。注意这里..
: “函数”是广义的,线性函数、多项式函数当然都是函数;对于一个多蹭的神经网络..
: 权值大小不知道(训练神经元网络就是为了确定权值),每组权值就可以认为对应一..
: 函数。
: 而容量就反映了一组函数集对样本的区分能力,容量越大,对应的一组函数集区分能..
: 就越大;注意容量的大小跟这组函数集自由参数的多少是没有必然联系的(不确信这..
: 说是否合适),因为函数集{y=sin(w*x+b),w,b(-R}的vc为即为无穷大。
: 还有一个应该注意的问题是:vapnik定义vc维是指能够找到N个样本可以被一组函数
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -