📄 91.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: [合集]如何将一个数据集随机的分成两个数据集
发信站: 南京大学小百合站 (Tue Jun 3 21:55:35 2003)
fpzh (fpzh) 于Sat May 24 01:10:15 2003)
提到:
有两个问题向大家请教
1. 对于一组数据,做SVM的Model Selection时,通过训练随机选择的70%的数据、测试
其余30%的数据(只做一次划分,而不像10fold那样训练10次)来估计Validation Per
formance(预测精度或者说推广能力),可行否
2. (1)对于多类数据,这70%的数据如何随机选择?是各类单独采样还是对全体数据
统一采样(后者各类的数据可能不均衡);(2)采样应采取“取出后不再放入”的方式
,即从数据中随机选出一个样本i,以后不再考虑样本i?
miningboy (找矿男孩) 于Sat May 24 10:58:45 2003)
提到:
选数据的时候如果要保持训练集和测试集中的分布都和原来的相同
可以参考类似十倍交叉验证的取样方法。
当然这种应该属于非重复取样,跳出xi后要将xi删除
【 在 fpzh 的大作中提到: 】
: 有两个问题向大家请教
: 1. 对于一组数据,做SVM的Model Selection时,通过训练随机选择的70%的数据、
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -