⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 101.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: GzLi (笑梨), 信区: DataMining
标  题: [合集]对SVM的一些理解及疑惑
发信站: 南京大学小百合站 (Fri Jul 18 00:37:10 2003)

jeff814 (mimi) 于Thu Jun  5 16:14:19 2003)
提到:

一、期望风险最小化与SVM中最优分类面之间是如何结合的?

    1.1 在《模式识别》书P299定理13.8中提到:VC维满足下面的界

        h<=min {(R^2*c, d)+1}.

    其中R为包含所有训练样本的超球的半径,c是||w||^2的上界。d是线性判别函数所在
空间的维数。要风险小,即要h小,即要c小,即要||w||小,即是边界最大化。所以期望风
险最小化与SVM中最优分类面之间距离最大是一致的。


    但由上面的公式:减小c还不如减小R来得有效。而减小R完全可以通过对所有训练数据
都加上一个比例因子,把其变化范围压得很小,这样R也就很小。这对减小VC维岂不是更有
效?为什么没有见着更多的讨论呢?


    1.2 再有一点,上面公式中仅仅是说明了h的界而已。但这个界是否很紧,或者在什么
情况下才紧,有没有人讨论过?


二、其他的问题:

    2.1 在OSU SVM中有一个scale函数,是否就是用来实现幅值压缩变换的(减小R)?


    2.2 线性不可分的解决办法有两种:1)用软边界;2)用核函数变换到高维。这两种
方法哪种更好?直觉上认为如果是无噪的情况,则2)比1)好。因为毕竟可以实现经验风
险=0。但是,如果存在噪声又该如何选择呢?


    2.3 对于b(有称为bias,偏置或者偏差)值的确定,可以通过任何一个SV实例就能计
算得到。但有文章提到,为了更好的“稳定性”,b是通过对所有SV点的计算后平均得到。
这里的“稳定性”是指什么呢?


    2.4 对于有核函数的情况,如果核函数中有隐含的偏置,则b项可以没有。但这样的训
练结果与有显示偏置b的结果会不同(虽然他们看起来“有相同的泛化能力”)。有没有人
研究过这个问题?

jueww (不朽钢) 于Thu Jun  5 18:32:46 2003)
提到:

一、期望风险最小化与SVM中最优分类面之间是如何结合的?

    1.1 在《模式识别》书P299定理13.8中提到:VC维满足下面的界

        h<=min {(R^2*c, d)+1}.

    其中R为包含所有训练样本的超球的半径,c是||w||^2的上界。d是线性判别函数所在

空间的维数。要风险小,即要h小,即要c小,即要||w||小,即是边界最大化。所以期望风

险最小化与SVM中最优分类面之间距离最大是一致的。


    但由上面的公式:减小c还不如减小R来得有效。而减小R完全可以通过对所有训练数据

都加上一个比例因子,把其变化范围压得很小,这样R也就很小。这对减小VC维岂不是更有

效?为什么没有见着更多的讨论呢?


^^这个问题太...


    1.2 再有一点,上面公式中仅仅是说明了h的界而已。但这个界是否很紧,或者在什么

情况下才紧,有没有人讨论过?


^^这个界足够紧了, VAPNIK有讨论的吧


二、其他的问题:

    2.1 在OSU SVM中有一个scale函数,是否就是用来实现幅值压缩变换的(减小R)?


    2.2 线性不可分的解决办法有两种:1)用软边界;2)用核函数变换到高维。这两种

方法哪种更好?直觉上认为如果是无噪的情况,则2)比1)好。因为毕竟可以实现经验风

险=0。但是,如果存在噪声又该如何选择呢?


^^这两个方法不冲突, 可以一起用啊. 用1限制模型复杂性, 用2增加模型复杂性. 完全不
是一回事.


    2.3 对于b(有称为bias,偏置或者偏差)值的确定,可以通过任何一个SV实例就能计

算得到。但有文章提到,为了更好的“稳定性”,b是通过对所有SV点的计算后平均得到。

这里的“稳定性”是指什么呢?


^^可以理解为所得到分类器的预测精度的方差吧.


    2.4 对于有核函数的情况,如果核函数中有隐含的偏置,则b项可以没有。但这样的训

练结果与有显示偏置b的结果会不同(虽然他们看起来“有相同的泛化能力”)。有没有人

研究过这个问题?


^^做这种东西太trival了吧???



GzLi (笑梨) 于Thu Jun  5 23:42:30 2003)
提到:

1.1 一般的尺度化只是对训练数据的x进行尺度化,那么y呢,如果尺度化,
预报之后还是要返还回来的,从理论上我没有仔细考虑过,实践中,结果是变差的。
1.2 或许可以参考vapnik98年的统计学习理论那本书。
2.1 这个软件包没有用过,应该是尺度变化的,但是可能是x的。
2.2 如果线性不可分,假定只是噪声影响或者是轻微的非线性,那么用
软间隔松弛变量是可以的,如果数据是强非线性,那么必须要用相应的核函数。

【 在 jeff814 (mimi) 的大作中提到: 】


jeff814 (mimi) 于Fri Jun  6 16:34:00 2003)
提到:

R为包含所有训练样本的超球的半径,而y只是其类别标识而已,总是取{+1,-1},所以应
该可以只对x做尺度变换,以减小R。为什么说“预报(指的是分类识别吧?)之后还是要
返还回来”呢? 


【 在 GzLi 的大作中提到: 】

: 1.1 一般的尺度化只是对训练数据的x进行尺度化,那么y呢,如果尺度化,

: 预报之后还是要返还回来的,从理论上我没有仔细考虑过,实践中,结果是变差的。


: 1.2 或许可以参考vapnik98年的统计学习理论那本书。

: 2.1 这个软件包没有用过,应该是尺度变化的,但是可能是x的。

: 2.2 如果线性不可分,假定只是噪声影响或者是轻微的非线性,那么用

: 软间隔松弛变量是可以的,如果数据是强非线性,那么必须要用相应的核函数。

: 【 在 jeff814 (mimi) 的大作中提到: 】



mnls (蒙娜丽莎的微笑) 于Fri Jun  6 23:53:56 2003)
提到:

你说的这几个问题,有几个我以前也考虑过。我写点我的看法,交流交流。
1.1减小c还是减小R,应该根据不同情况处理。我觉得。但是把样本乘比例因子是不行的
,因为成比例因子之后||w||即按此比例变大。注意支持向量机中的间隔定义有两种方式
,是等价的,一种是delta间隔,一种定义为1/||w||,等价的证明vapnik98中有。
1.2讨论h的界是不是紧的其实意义不大,因为srm的界不是紧的。统计学习理论中的界我
觉得并不能严格证明svm比其他的分类器对于一个特定问题必然有更好的推广能力,只是
可以用srm这些东西解释svm的性能好。
2.1不懂
2.2软边界和映射到高维不是分开的,在一个核函数下样本映射到高维空间上也不一定线
性可分,这个时候就应该使用软边界处理。具体使用哪个方法还是二者都用,就要根据
特定问题的先验知识。
一家之言,仅供参考。

【 在 jeff814 (mimi) 的大作中提到: 】
: 一、期望风险最小化与SVM中最优分类面之间是如何结合的?
:     1.1 在《模式识别》书P299定理13.8中提到:VC维满足下面的界
:         h<=min {(R^2*c, d)+1}.
:     其中R为包含所有训练样本的超球的半径,c是||w||^2的上界。d是线性判别函数所在
: 空间的维数。要风险小,即要h小,即要c小,即要||w||小,即是边界最大化。所以期..
: 险最小化与SVM中最优分类面之间距离最大是一致的。
: 
:     但由上面的公式:减小c还不如减小R来得有效。而减小R完全可以通过对所有训练..
: 都加上一个比例因子,把其变化范围压得很小,这样R也就很小。这对减小VC维岂不是..
: 效?为什么没有见着更多的讨论呢?
: 
:     1.2 再有一点,上面公式中仅仅是说明了h的界而已。但这个界是否很紧,或者在..
: 情况下才紧,有没有人讨论过?
: 
: 二、其他的问题:
:     2.1 在OSU SVM中有一个scale函数,是否就是用来实现幅值压缩变换的(减小R)?
:     2.2 线性不可分的解决办法有两种:1)用软边界;2)用核函数变换到高维。这两种
: 方法哪种更好?直觉上认为如果是无噪的情况,则2)比1)好。因为毕竟可以实现经验风
: 险=0。但是,如果存在噪声又该如何选择呢?
: 
: (以下引言省略 ... ...)


mellanie (thinking...) 于Sat Jun  7 10:34:27 2003)
提到:

【 在 GzLi (笑梨) 的大作中提到: 】
: 1.1 一般的尺度化只是对训练数据的x进行尺度化,那么y呢,如果尺度化,
: 预报之后还是要返还回来的,从理论上我没有仔细考虑过,实践中,结果是变差的。

: 1.2 或许可以参考Vapnik98年的统计学习理论那本书。
                  ~~~~~~~~~~~~
                你手头有这本书吗?或者图书馆有吗?

: 2.1 这个软件包没有用过,应该是尺度变化的,但是可能是x的。
: 2.2 如果线性不可分,假定只是噪声影响或者是轻微的非线性,那么用
: 软间隔松弛变量是可以的,如果数据是强非线性,那么必须要用相应的核函数。
: 【 在 jeff814 (mimi) 的大作中提到: 】


GzLi (笑梨) 于Sat Jun  7 12:43:34 2003)
提到:

没有,上海市图书馆看到过。

【 在 mellanie (thinking...) 的大作中提到: 】
: 【 在 GzLi (笑梨) 的大作中提到: 】
:                   ~~~~~~~~~~~~
:                 你手头有这本书吗?或者图书馆有吗?


jueww (不朽钢) 于Mon Jun  9 09:14:28 2003)
提到:

我觉得是对x的尺度变换相当于改变核函数的系数, 所以并没有新的作用吧.


【 在 jeff814 的大作中提到: 】

: R为包含所有训练样本的超球的半径,而y只是其类别标识而已,总是取{+1,-1},所..
: 该可以只对x做尺度变换,以减小R。为什么说“预报(指的是分类识别吧?)之后还..
: 返还回来”呢? 

: 

: 

: 【 在 GzLi 的大作中提到: 】



GzLi (笑梨) 于Mon Jun  9 10:27:10 2003)
提到:

对于1.1我看了一下那本 《本质》92页定理5.1也提到了这个公式,
我认为mnls说的对。
我原先只是考虑到回归问题,就没有深入去想,所以我错了。
对于2.2我想mnls的说法也对的,但是我的看法也值得参考,两者没有冲突。
对于1.2我认为他说的也可能对,至少用统计学习理论解释SVM较好,但是
其他的理论,比如高斯过程也可以解释。这个可以参考Intro. to SVM的书。

【 在 mnls (蒙娜丽莎的微笑) 的大作中提到: 】
: 你说的这几个问题,有几个我以前也考虑过。我写点我的看法,交流交流。
: 1.1减小c还是减小R,应该根据不同情况处理。我觉得。但是把样本乘比例因子是不行的
: ,因为成比例因子之后||w||即按此比例变大。注意支持向量机中的间隔定义有两种方式
: ,是等价的,一种是delta间隔,一种定义为1/||w||,等价的证明vapnik98中有。
: 1.2讨论h的界是不是紧的其实意义不大,因为srm的界不是紧的。统计学习理论中的界我
: 觉得并不能严格证明svm比其他的分类器对于一个特定问题必然有更好的推广能力,只是
: 可以用srm这些东西解释svm的性能好。
: 2.1不懂
: 2.2软边界和映射到高维不是分开的,在一个核函数下样本映射到高维空间上也不一定线
: 性可分,这个时候就应该使用软边界处理。具体使用哪个方法还是二者都用,就要根据
: 特定问题的先验知识。
: 一家之言,仅供参考。
: 【 在 jeff814 (mimi) 的大作中提到: 】
: (以下引言省略 ... ...)


⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -