📄 100.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: [合集]关于PCA(主成分分析)的实际效果问题?
发信站: 南京大学小百合站 (Fri Jul 18 00:35:13 2003)
jeff814 (mimi) 于Mon Jun 9 14:39:09 2003)
提到:
PCA一般是用来降维用或者数据分析。如果数据没有类别标志,则PCA压缩属性维数的效果
肯定是不错的。但对于带有类别标志的数据来说,PCA则是基于总体熵最小化为目标寻找变
换矩阵。即这时候的矩阵是无类别标志情况下的斜方差矩阵的类别分布加权:
S=P1*Q1+P2*Q2+....
其中P1是类别1的概率,Q1为类别1中的斜方差矩阵,以此类推。
这样做,特征维数肯定是压缩了,但分类的精度是否会比没有压缩时的要差呢?
有做过这方面实验的,请介绍介绍结果及经验!
nope (etadpu) 于Tue Jun 10 15:49:50 2003)
提到:
不一定会差,很多情况下会提高。一种看法是原始数据含有噪声,对应的就是小特征值
所对应的特征分量,这样做了忽略后,分类的效果会提高。比如人脸识别中的
eigenface方法。
因为我们并不知道数据的概率分布,如果是小样本问题,就很难得到测试样本的后验概
率,因此就只能退而求其次,再求其次,运用数据的矩对数据进行分析,pca一般假定
数据和噪声都是正态分布。ica是一种用于非正态分布数据的降维方法。
【 在 jeff814 (mimi) 的大作中提到: 】
: PCA一般是用来降维用或者数据分析。如果数据没有类别标志,则PCA压缩属性维数的效果
: 肯定是不错的。但对于带有类别标志的数据来说,PCA则是基于总体熵最小化为目标寻..
: 换矩阵。即这时候的矩阵是无类别标志情况下的斜方差矩阵的类别分布加权:
: S=P1*Q1+P2*Q2+....
: 其中P1是类别1的概率,Q1为类别1中的斜方差矩阵,以此类推。
:
: 这样做,特征维数肯定是压缩了,但分类的精度是否会比没有压缩时的要差呢?
:
: 有做过这方面实验的,请介绍介绍结果及经验!
jeff814 (mimi) 于Tue Jun 10 17:08:39 2003)
提到:
1. 你这里所说的“数据的概率分布”是指类别分布概率P1、P2……吗?当然,对于是小样
本问题,会因为样本个数过少而难以得到后验概率的比较准确的估计。是这个意思吧?
2. “只能退而求其次,再求其次……”,“其次”是指的什么情况?是没有考虑类别,只
对属性做PCA吗?怎么有些不明白呢!
3. 有没有试过没有噪声的情况?
【 在 nope 的大作中提到: 】
:
: 不一定会差,很多情况下会提高。一种看法是原始数据含有噪声,对应的就是小特征..
: 所对应的特征分量,这样做了忽略后,分类的效果会提高。比如人脸识别中的
: eigenface方法。
:
: 因为我们并不知道数据的概率分布,如果是小样本问题,就很难得到测试样本的后验..
: 率,因此就只能退而求其次,再求其次,运用数据的矩对数据进行分析,pca一般假定
: 数据和噪声都是正态分布。ica是一种用于非正态分布数据的降维方法。
:
:
: 【 在 jeff814 (mimi) 的大作中提到: 】
: (以下引言省略...)
nope (etadpu) 于Tue Jun 10 18:44:55 2003)
提到:
【 在 jeff814 的大作中提到: 】
: 1. 你这里所说的“数据的概率分布”是指类别分布概率P1、P2……吗?当然,对于
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -