📄 524.txt
字号:
大家看的时候稍微注意些吧。
【 在 txytxy (nils) 的大作中提到: 】
: 精彩的回答,谢谢。
: 【 在 GzLi 的大作中提到: 】
: (以下引言省略 ... ...)
aaahchi (aaahchi) 于Tue Dec 24 00:10:07 2002)
提到:
前一个问题,“很多最新的机器学习理论都是基于训练样例和测试样例分部一致这一
假设”
是不是翻译成“目前多数机器学习理论都依赖于……”更合适些?
关于样例example,目的是为了与样本sample区别开,而且为了突出单个可数的概
念,后面第五章有样本sample,表示example的集合,单独翻译成例 或例子又不好听,
不知大家有什么更好的建议否?
【 在 GzLi (笑梨) 的大作中提到: 】
: 偶看了一下原书,感觉有些用词好像还是看原著要恰当,
: 就象刚才的问题,我看了一下原著,还是有点点区别,特别是需要仔细琢磨的地方。
: 还有的用词我觉得不太合乎习惯,不如“样例”一词,刚刚看张钹的讲座,用的
: 是“样本”,我也一直用样本,不知道什么时候成“样例”了。
: 大家看的时候稍微注意些吧。
: 【 在 txytxy (nils) 的大作中提到: 】
GzLi (笑梨) 于Tue Dec 24 12:06:04 2002)
提到:
【 在 aaahchi (aaahchi) 的大作中提到: 】
: 前一个问题,“很多最新的机器学习理论都是基于训练样例和测试样例分部一致这一
: 假设”
: 是不是翻译成“目前多数机器学习理论都依赖于……”更合适些?
对阿,主要是有个“最新”,显得好像有些不是最新的算法都不是基于...一样。
还有最后一句话,“这个假设经常是不成立的”,
--应该是“经常不是严格成立”等意思吧。
: 关于样例example,目的是为了与样本sample区别开,而且为了突出单个可数的概
: 念,后面第五章有样本sample,表示example的集合,单独翻译成例 或例子又不好听,
: 不知大家有什么更好的建议否?
谢谢你的解释,或许到后面再讨论这个问题更好吧。
: 【 在 GzLi (笑梨) 的大作中提到: 】
jueww (觉·无我) 于Wed Dec 25 10:14:56 2002)
提到:
我觉得这是机器学习的一大缺陷。如果是聚类问题,这个问题是不存在的。
我想要在机器学习框架克服这个缺陷,可以引入知识发现的概念。就是将机器学习
所发现的结果分为几个层次,每个层次有不同的建模能力。训练集与测试集不一致肯定
会存在的,但很不一致又是不太可能的,一般是细节上有所不同。所以可以抛弃从
训练集中学得的细节信息,保留轮廓信息,再在测试时根据测试数据自适应调整细节信息
。
(如果调整有待研究,呵呵)
一个例子是贝叶斯网络,它的模型包括两个层次:有向无环图和其上的概率参数。
如果认为有向无环图表示稳定性较高的因果信息,概率参数表示变量间的细节,那么
就可以用上述做法实现调整。
说得不清楚,见谅。
【 在 txytxy 的大作中提到: 】
: 书中说,“许多最新ML理论基于训练例与测试例一致的假设,而这在实际中往往不成..
: ,这是否是说,没有“普适”的ML方法,能够对付一切问题,因为ML只能处理哪些能..
: 到具有代表性训练数据的领域的问题。这个前提很强,是否能成为一个问题是否能用..
: 解决的判断标准?
:
: 【 在 GzLi 的大作中提到: 】
GzLi (笑梨) 于Thu Dec 26 09:29:17 2002)
提到:
有的时候可能学习到的轮廓信息是不完整的,细节信息是完整的。
比如机械设备的诊断中,故障信号频率的平移。
而且你说的训练集与测试集很不一致是不太可能的。其实也是一个假设,就是训练集
与测试集比较一致。
【 在 jueww (觉·无我) 的大作中提到: 】
: 我觉得这是机器学习的一大缺陷。如果是聚类问题,这个问题是不存在的。
: 我想要在机器学习框架克服这个缺陷,可以引入知识发现的概念。就是将机器学习
: 所发现的结果分为几个层次,每个层次有不同的建模能力。训练集与测试集不一致肯定
: 会存在的,但很不一致又是不太可能的,一般是细节上有所不同。所以可以抛弃从
: 训练集中学得的细节信息,保留轮廓信息,再在测试时根据测试数据自适应调整细节信息
: 。
: (如果调整有待研究,呵呵)
: 一个例子是贝叶斯网络,它的模型包括两个层次:有向无环图和其上的概率参数。
: 如果认为有向无环图表示稳定性较高的因果信息,概率参数表示变量间的细节,那么
: 就可以用上述做法实现调整。
: 说得不清楚,见谅。
:
: 【 在 txytxy 的大作中提到: 】
eastcamel (Happy Digger!) 于Thu Dec 26 09:34:15 2002)
提到:
为什么聚类问题下这个问题就不存在?
你是说“一致”的问题还是“普适”的问题?
【 在 jueww (觉·无我) 的大作中提到: 】
: 我觉得这是机器学习的一大缺陷。如果是聚类问题,这个问题是不存在的。
: 我想要在机器学习框架克服这个缺陷,可以引入知识发现的概念。就是将机器学习
: 所发现的结果分为几个层次,每个层次有不同的建模能力。训练集与测试集不一致肯定
: 会存在的,但很不一致又是不太可能的,一般是细节上有所不同。所以可以抛弃从
: 训练集中学得的细节信息,保留轮廓信息,再在测试时根据测试数据自适应调整细节信息
: 。
: (如果调整有待研究,呵呵)
: 一个例子是贝叶斯网络,它的模型包括两个层次:有向无环图和其上的概率参数。
: 如果认为有向无环图表示稳定性较高的因果信息,概率参数表示变量间的细节,那么
: 就可以用上述做法实现调整。
: 说得不清楚,见谅。
:
: 【 在 txytxy 的大作中提到: 】
jueww (觉·无我) 于Thu Dec 26 10:50:28 2002)
提到:
很不可能也是有可能的,比如一些采集正例比较方便,而采集反例代价很大或很少出现
时的情况。
pearl2000写了一本关于因果发现的书,就是讨论manipulation的影响。
我说的轮廓信息只是指物体特征中比较稳定的部分。
【 在 GzLi 的大作中提到: 】
: 有的时候可能学习到的轮廓信息是不完整的,细节信息是完整的。
: 比如机械设备的诊断中,故障信号频率的平移。
: 而且你说的训练集与测试集很不一致是不太可能的。其实也是一个假设,就是训练集
: 与测试集比较一致。
: 【 在 jueww (觉·无我) 的大作中提到: 】
GzLi (笑梨) 于Thu Dec 26 10:54:12 2002)
提到:
【 在 jueww (觉·无我) 的大作中提到: 】
: 很不可能也是有可能的,比如一些采集正例比较方便,而采集反例代价很大或很少出现
: 时的情况。
: pearl2000写了一本关于因果发现的书,就是讨论manipulation的影响。
: 我说的轮廓信息只是指物体特征中比较稳定的部分。
~~~~~~~
在机器学习的过程中,如何判定呢?
:
: 【 在 GzLi 的大作中提到: 】
jueww (觉·无我) 于Thu Dec 26 10:54:44 2002)
提到:
这是由应用的特性决定的,聚类时往往不存在测试集,训练集就是所有需要考察的数据。
通过聚类,可以看到数据大致是什么样的分布,大致可以分为几类,等等。
当然存在一些需要外推能力聚类的应用,但那时聚类的作用不大,更多的是分类。
【 在 eastcamel 的大作中提到: 】
: 为什么聚类问题下这个问题就不存在?
: 你是说“一致”的问题还是“普适”的问题?
: 【 在 jueww (觉·无我) 的大作中提到: 】
GzLi (笑梨) 于Thu Dec 26 10:58:59 2002)
提到:
是啊,如果只有一个数据集的话,一切都很OK的。
就没有数据分布是否一致这个问题的存在意义了。
【 在 jueww (觉·无我) 的大作中提到: 】
: 这是由应用的特性决定的,聚类时往往不存在测试集,训练集就是所有需要考察的数据。
:
: 通过聚类,可以看到数据大致是什么样的分布,大致可以分为几类,等等。
: 当然存在一些需要外推能力聚类的应用,但那时聚类的作用不大,更多的是分类。
:
: 【 在 eastcamel 的大作中提到: 】
jueww (觉·无我) 于Thu Dec 26 10:59:27 2002)
提到:
这个需要先验判断吧。机器学习就是一种问题定义十分清晰明确的东西,
所以再我看来存在许多在实际应用中经常碰到、值得讨论但却在ML中避而不谈的问题。
【 在 GzLi 的大作中提到: 】
: 【 在 jueww (觉·无我) 的大作中提到: 】
: ~~~~~~~
: 在机器学习的过程中,如何判定呢?
GzLi (笑梨) 于Thu Dec 26 11:01:04 2002)
提到:
的确是先验知识在学习算法中的应用是一个很重要的问题。
不知道现在研究的如何?
您能否介绍一二。
【 在 jueww (觉·无我) 的大作中提到: 】
: 这个需要先验判断吧。机器学习就是一种问题定义十分清晰明确的东西,
: 所以再我看来存在许多在实际应用中经常碰到、值得讨论但却在ML中避而不谈的问题。
:
: 【 在 GzLi 的大作中提到: 】
jueww (觉·无我) 于Thu Dec 26 11:07:00 2002)
提到:
数据集只有一个,问题的关键在于如何对未知的测试数据的分布的变化进行估计,
以及在遇到分布“漂移”时如何方便的修改分类器,从而保证预测精度。
现有的技术依然是通过大规模的采集数据回避这个问题。
【 在 GzLi 的大作中提到: 】
: 是啊,如果只有一个数据集的话,一切都很OK的。
: 就没有数据分布是否一致这个问题的存在意义了。
: 【 在 jueww (觉·无我) 的大作中提到: 】
GzLi (笑梨) 于Thu Dec 26 12:35:32 2002)
提到:
数据中有分布“飘移”,
这个问题是时间序列的一个基本问题,可以通过某种手段把数据中的一个普遍趋势
给去掉的。
【 在 jueww (觉·无我) 的大作中提到: 】
: 数据集只有一个,问题的关键在于如何对未知的测试数据的分布的变化进行估计,
: 以及在遇到分布“漂移”时如何方便的修改分类器,从而保证预测精度。
: 现有的技术依然是通过大规模的采集数据回避这个问题。
:
: 【 在 GzLi 的大作中提到: 】
GzLi (笑梨) 于Thu Dec 26 15:00:14 2002)
提到:
第一节的讨论暂时结束,如果大家还有什么主题可以重新开题讨论。
【 在 GzLi (笑梨) 的大作中提到: 】
: 数据中有分布“飘移”,
: 这个问题是时间序列的一个基本问题,可以通过某种手段把数据中的一个普遍趋势
: 给去掉的。
: 【 在 jueww (觉·无我) 的大作中提到: 】
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -