📄 11.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: [合集]关于机器学习的讨论-第一节
发信站: 南京大学小百合站 (Thu Dec 26 15:00:49 2002)
GzLi (笑梨) 于Mon Dec 23 10:52:04 2002)
提到:
看好多论文,讲机器学习比讲Mitchell的这本书,所以它的定义一定要
理解好。我先抄上,起个头,大家开始讨论
简要说:通过经验提高性能的某类程序。
本文仅做抛砖引玉。
helloboy (hello) 于Mon Dec 23 11:10:44 2002)
提到:
继续抛砖。......
本节通过几个实际的例子为我们解释了机器学习的出现背景,应用和需要解决的问题
机器学习的出现是由于:
近来算法理论的发展,数据量增长,足够的计算能力和广阔的应用。
应用有:数据挖掘,一些不能手工编程的应用系统,自定制程序。
应用机器学习算法,可以解决:
数据挖掘- 手术风险预测,信誉投资风险分析,客户购买行为,保留客户,处理过程优化
一些不能手工编程的应用系统- 高度公路的无人架使??
自定制程序-个性化软件和网站。
需要考虑对学习问题进行建模,目标函数的制定和表示,学习算法的选定和设计等。
【 在 GzLi (笑梨) 的大作中提到: 】
: 看好多论文,讲机器学习比讲Mitchell的这本书,所以它的定义一定要
: 理解好。我先抄上,起个头,大家开始讨论
: 简要说:通过经验提高性能的某类程序。
: 本文仅做抛砖引玉。
GzLi (笑梨) 于Mon Dec 23 12:34:43 2002)
提到:
继续写我的小结。
1.先说学习方法,我觉得Tom的ps做的挺好,要点都已经写好了,所以最好先看ps,然后
看书,这样有个提纲在自己心里,看的容易明白些。最后每章书上有个总结,也能把
要点列出,这一章看了什么,懂了什么,什么没有懂,比较明白。
2.这一讨论节,主要象ps中讲了四个问题:
why,what,example,questions(以后要讲的东西)
我觉得这一章是要读的,因为它给了一个机器学习的框架。
3。关于why-helloboy已经总结过了,我只作一点感想。
本来我还在想在这个板开展机器学习的讨论,是否不太务正业,抢了人家(AI)的
生意,看来这个讨论就应该在我们板搞,因为ML跟AI有关系,但是第一大用户是
数据挖掘的人,所以搞DM的同仁不管是做规则提取还是神经网络还是聚类分析,
都had better读读这本书,参加讨论。不要事不关己,高高挂起。
4.关于what,什么是机器学习,就这个概念来说,Tom的定义是最权威的,很多论文讲
机器学习都要说我的定义是遵循Tom的,所以一定要理解掌握吧,以后看论文省力。
我做神经网络多一些,看到好的论文,一般都要首先定义问题是什么(任务T),采用
什么样的评价标准(性能标准P),比如有预测值跟实际值之间的RMSE、MAE、COE等等
in regression problems,对于分类问题,有RECALL,accuracy等。大作光这个能写
上two pages。对于训练经验E,要么是标准测试样本集,要么是自己做的,也要详细
介绍的。
5.通过一个example介绍了西洋棋的学习问题。可能有的人(我)觉得罗嗦,我仔细想想
主要是我以前作的问题,很多步骤,缺省用的别人的东西,所以我自己都没有想过
这些问题,很重要,比如为什么用到我的楼上一文中的10foldCV,因为要保证1.2.1中
的第三条,训练样本的分布要较好的表示实际样本的分布。
最后得到四个核心环节的一个学习程序。这四个部分也很关键。
在我做的特征选择问题中,也是要分为四部分,特征生成,特征训练,子集验证,
子集的使用。大家也可以把自己的问题往上套。
6.关于ML的问题,我想Tom是为了告诉大家以后学习的内容吧,以后我们再讨论。
先写这些。边总结,自己又有了一些收获,大家也写写,共同分享阿。
【 在 helloboy (hello) 的大作中提到: 】
: 继续抛砖。......
: 本节通过几个实际的例子为我们解释了机器学习的出现背景,应用和需要解决的问题
: 机器学习的出现是由于:
: 近来算法理论的发展,数据量增长,足够的计算能力和广阔的应用。
: 应用有:数据挖掘,一些不能手工编程的应用系统,自定制程序。
: 应用机器学习算法,可以解决:
: 数据挖掘- 手术风险预测,信誉投资风险分析,客户购买行为,保留客户,处理过程优化
: 一些不能手工编程的应用系统- 高度公路的无人架使??
: 自定制程序-个性化软件和网站。
: 需要考虑对学习问题进行建模,目标函数的制定和表示,学习算法的选定和设计等。
: 【 在 GzLi (笑梨) 的大作中提到: 】
helloboy (hello) 于Mon Dec 23 15:02:12 2002)
提到:
斑竹,我只看了ps的outline.
书在哪?有电子版吗?
【 在 GzLi (笑梨) 的大作中提到: 】
: 继续写我的小结。
: 1.先说学习方法,我觉得Tom的ps做的挺好,要点都已经写好了,所以最好先看ps,然后
: 看书,这样有个提纲在自己心里,看的容易明白些。最后每章书上有个总结,也能把
: 要点列出,这一章看了什么,懂了什么,什么没有懂,比较明白。
: 2.这一讨论节,主要象ps中讲了四个问题:
: why,what,example,questions(以后要讲的东西)
: 我觉得这一章是要读的,因为它给了一个机器学习的框架。
: 3。关于why-helloboy已经总结过了,我只作一点感想。
: 本来我还在想在这个板开展机器学习的讨论,是否不太务正业,抢了人家(AI)的
: 生意,看来这个讨论就应该在我们板搞,因为ML跟AI有关系,但是第一大用户是
: 数据挖掘的人,所以搞DM的同仁不管是做规则提取还是神经网络还是聚类分析,
: 都had better读读这本书,参加讨论。不要事不关己,高高挂起。
: 4.关于what,什么是机器学习,就这个概念来说,Tom的定义是最权威的,很多论文讲
: 机器学习都要说我的定义是遵循Tom的,所以一定要理解掌握吧,以后看论文省力。
: 我做神经网络多一些,看到好的论文,一般都要首先定义问题是什么(任务T),采用
: 什么样的评价标准(性能标准P),比如有预测值跟实际值之间的RMSE、MAE、COE等等
: in regression problems,对于分类问题,有RECALL,accuracy等。大作光这个能写
: 上two pages。对于训练经验E,要么是标准测试样本集,要么是自己做的,也要详细
: 介绍的。
: 5.通过一个example介绍了西洋棋的学习问题。可能有的人(我)觉得罗嗦,我仔细想想
: (以下引言省略 ... ...)
txytxy (nils) 于Mon Dec 23 16:11:44 2002)
提到:
书中说,“许多最新ML理论基于训练例与测试例一致的假设,而这在实际中往往不成立”
,这是否是说,没有“普适”的ML方法,能够对付一切问题,因为ML只能处理哪些能够拿
到具有代表性训练数据的领域的问题。这个前提很强,是否能成为一个问题是否能用ML来
解决的判断标准?
【 在 GzLi 的大作中提到: 】
: 看好多论文,讲机器学习比讲Mitchell的这本书,所以它的定义一定要
: 理解好。我先抄上,起个头,大家开始讨论
: 简要说:通过经验提高性能的某类程序。
: 本文仅做抛砖引玉。
helloboy (hello) 于Mon Dec 23 17:46:54 2002)
提到:
ftp://211.80.38.17/datamining/lily上载区/book
【 在 helloboy (hello) 的大作中提到: 】
: 斑竹,我只看了ps的outline.
: 书在哪?有电子版吗?
: 【 在 GzLi (笑梨) 的大作中提到: 】
: (以下引言省略 ... ...)
GzLi (笑梨) 于Mon Dec 23 18:22:33 2002)
提到:
偶觉得这个问题好,
这句话的意思,我理解是很多ML方法是基于这个假设的,那么有的方法不是这个假设,
我觉得我做的神经网络方面的方法都是要这个假设的,否则效果很差。
既然有的方法不是这个假设,(我不知道,)那么不能用这个标准判断ML能否解决问题,
但是可以作为选择ML方法解决问题时的标准。
反面讲,
ML在研究的时候,训练数据和测试数据一定要选择恰当,否则效果会很不理想。
【 在 txytxy (nils) 的大作中提到: 】
: 书中说,“许多最新ML理论基于训练例与测试例一致的假设,而这在实际中往往不成立”
: ,这是否是说,没有“普适”的ML方法,能够对付一切问题,因为ML只能处理哪些能够拿
: 到具有代表性训练数据的领域的问题。这个前提很强,是否能成为一个问题是否能用ML来
: 解决的判断标准?
:
: 【 在 GzLi 的大作中提到: 】
GzLi (笑梨) 于Mon Dec 23 19:53:30 2002)
提到:
From daniel:
说“很多ML方法基于这个假设”以及“训练数据和测试数据要选择恰当”,
是不准确的。在解决问题时,我们手上只有数据(训练数据),我们无从知道
由它建立的模型的好坏。而测试数据其实是我们对真实问题的一种模拟,即通过
利用这些数据进行测试,来帮助判断模型的好坏。但实际上这种做法(其实也
没有更好的做法)是存在问题的,如果我们的测试数据偏离了真实问题,那么
根据它得到的评估指标是误导的。因此,一般来说,我们假定选择的测试数据
是真正能反映问题本身的(否则就丧失了测试的意义)。另一方面,如果我们
得到的训练数据本身就是误导的,没有反映真实问题,那么无论如何学习也
不可能得到好的结果,这就如同让你用天气预报的数据学习预测股市一样。因此,
我们必须假定训练数据反映了真实问题。也就是说,我们实际上有两个假设,
一个是训练数据,一个是测试数据,都要求它们能反映真实问题。但实际上,
在进行研究时,我们往往只能确保(或者更恰当地说,相信)其中之一成立,
例如在做学习算法测试时,我们拿到的数据实际上只是训练数据,而由于我们
没有参与取样过程,因此,我们只能假定它是反映了真实问题的。这时候,
我们要求测试数据反映真实问题,实际上就是要求测试数据与训练数据一致,
这也是我们常用分层(stratified)测试的原因。在测试数据被“相信”为
反映真实问题时,训练数据会受到同样的制约。因此,总的来说,在进行
研究时,我们总会假定两者一致,其隐含义是两者之中至少一个是反映了真实
问题的。但在解决实际问题时,要得到”好的“训练或测试数据本身就是很
困难的事,真实世界太复杂,因此,上面的假设是很难成立的。
【 在 GzLi (笑梨) 的大作中提到: 】
: 偶觉得这个问题好,
: 这句话的意思,我理解是很多ML方法是基于这个假设的,那么有的方法不是这个假设,
: 我觉得我做的神经网络方面的方法都是要这个假设的,否则效果很差。
: 既然有的方法不是这个假设,(我不知道,)那么不能用这个标准判断ML能否解决问题,
: 但是可以作为选择ML方法解决问题时的标准。
: 反面讲,
: ML在研究的时候,训练数据和测试数据一定要选择恰当,否则效果会很不理想。
: 【 在 txytxy (nils) 的大作中提到: 】
txytxy (nils) 于Mon Dec 23 20:23:55 2002)
提到:
精彩的回答,谢谢。
【 在 GzLi 的大作中提到: 】
: From daniel:
: 说“很多ML方法基于这个假设”以及“训练数据和测试数据要选择恰当”,
: 是不准确的。在解决问题时,我们手上只有数据(训练数据),我们无从知道
: 由它建立的模型的好坏。而测试数据其实是我们对真实问题的一种模拟,即通过
: 利用这些数据进行测试,来帮助判断模型的好坏。但实际上这种做法(其实也
: 没有更好的做法)是存在问题的,如果我们的测试数据偏离了真实问题,那么
: 根据它得到的评估指标是误导的。因此,一般来说,我们假定选择的测试数据
: 是真正能反映问题本身的(否则就丧失了测试的意义)。另一方面,如果我们
: 得到的训练数据本身就是误导的,没有反映真实问题,那么无论如何学习也
: 不可能得到好的结果,这就如同让你用天气预报的数据学习预测股市一样。因此,
: 我们必须假定训练数据反映了真实问题。也就是说,我们实际上有两个假设,
: 一个是训练数据,一个是测试数据,都要求它们能反映真实问题。但实际上,
: 在进行研究时,我们往往只能确保(或者更恰当地说,相信)其中之一成立,
: 例如在做学习算法测试时,我们拿到的数据实际上只是训练数据,而由于我们
: 没有参与取样过程,因此,我们只能假定它是反映了真实问题的。这时候,
: 我们要求测试数据反映真实问题,实际上就是要求测试数据与训练数据一致,
: 这也是我们常用分层(stratified)测试的原因。在测试数据被“相信”为
: 反映真实问题时,训练数据会受到同样的制约。因此,总的来说,在进行
: 研究时,我们总会假定两者一致,其隐含义是两者之中至少一个是反映了真实
: 问题的。但在解决实际问题时,要得到”好的“训练或测试数据本身就是很
: (以下引言省略...)
GzLi (笑梨) 于Mon Dec 23 21:34:01 2002)
提到:
偶看了一下原书,感觉有些用词好像还是看原著要恰当,
就象刚才的问题,我看了一下原著,还是有点点区别,特别是需要仔细琢磨的地方。
还有的用词我觉得不太合乎习惯,不如“样例”一词,刚刚看张钹的讲座,用的
是“样本”,我也一直用样本,不知道什么时候成“样例”了。
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -