29.txt
来自「This complete matlab for neural network」· 文本 代码 · 共 144 行
TXT
144 行
发信人: GzLi (笑梨), 信区: DataMining
标 题: [合集]给个建议~~关于医学数据挖掘的~
发信站: 南京大学小百合站 (Sat May 10 18:47:55 2003)
eehsay (反函数) 于Sun May 4 17:52:32 2003)
提到:
用决策树进行医学数据的挖掘。
C5处理网上下载的数据库可以得到较好的结果的
但是实际中应用到我拿到的数据结果很差,错误率很高~
我的样本只有不到200个,而且每个属性都有较多的缺损值~
大家有什么建议嘛,我是该放弃还是可以选择其他的方法试试,
或者在数据的预处理方面做点工作〉?
GzLi (笑梨) 于Sun May 4 20:32:26 2003)
提到:
1.可以考虑用fuzzy的方法处理缺失值,
2. 你用来处理网上数据结果好,不一定代表你已经很好掌握了c5
3. 可以使用其它方法试验一下。
比如nn
【 在 eehsay (反函数) 的大作中提到: 】
: 用决策树进行医学数据的挖掘。
: C5处理网上下载的数据库可以得到较好的结果的
: 但是实际中应用到我拿到的数据结果很差,错误率很高~
: 我的样本只有不到200个,而且每个属性都有较多的缺损值~
: 大家有什么建议嘛,我是该放弃还是可以选择其他的方法试试,
: 或者在数据的预处理方面做点工作〉?
eehsay (反函数) 于Sun May 4 22:19:11 2003)
提到:
要求得到显示规则的,用nn不行吧~
还有当数据缺失到多少的时候此属性不适于考虑呢?
??%
【 在 GzLi (笑梨) 的大作中提到: 】
: 1.可以考虑用fuzzy的方法处理缺失值,
: 2. 你用来处理网上数据结果好,不一定代表你已经很好掌握了c5
: 3. 可以使用其它方法试验一下。
: 比如nn
: 【 在 eehsay (反函数) 的大作中提到: 】
strawman (独上江楼思渺然) 于Mon May 5 09:58:21 2003)
提到:
你可以试试用现有训练集训练一个ensemble,然后用ensemble产生新的训练集,然后用
新产生的训练集用c4.5rules产生规则。
【 在 eehsay (反函数) 的大作中提到: 】
: 要求得到显示规则的,用nn不行吧~
: 还有当数据缺失到多少的时候此属性不适于考虑呢?
: ??%
: 【 在 GzLi (笑梨) 的大作中提到: 】
GzLi (笑梨) 于Mon May 5 11:50:28 2003)
提到:
索性告诉他参考哪篇文章呗
Zhi-Hua Zhou Yuan Jiang Medical diagnosis with C4.5 rule preceded
by artificial neural network ensemble Information Technology in
Biomedicine, IEEE Transactions on On page(s): 37- 42 Volume: 7, Issue:
1, Mar 2003
不过这样的工作太复杂了,连c4.5都做不出结果,上面的太难。
不妨参考这个
C. Z. Ye, J. Yang, D.Y. Geng, Y. Zhou, and N.Y. Chen, Fuzzy Rules
to Predict Degree of Malignancy in Brain Glioma, Medical&Biological
Computing and Engineering, 40(2002) 145-152
我做的东西可惜正在审还没有结果。
【 在 strawman (独上江楼思渺然) 的大作中提到: 】
: 你可以试试用现有训练集训练一个ensemble,然后用ensemble产生新的训练集,然后用
: 新产生的训练集用c4.5rules产生规则。
: 【 在 eehsay (反函数) 的大作中提到: 】
daniel (飞翔鸟) 于Mon May 5 16:26:07 2003)
提到:
【 在 eehsay (反函数) 的大作中提到: 】
: 用决策树进行医学数据的挖掘。
: C5处理网上下载的数据库可以得到较好的结果的
: 但是实际中应用到我拿到的数据结果很差,错误率很高~
: 我的样本只有不到200个,而且每个属性都有较多的缺损值~
: 大家有什么建议嘛,我是该放弃还是可以选择其他的方法试试,
: 或者在数据的预处理方面做点工作〉?
这个问题不是换一种学习方法就能解决的。首先你的样本太少,如果用交叉验证
等手段来估计训练好的系统的误差,其估计结果的可信度是很低的。也就是说,
即使你估计出来错误率很低,也未必是真的低。更大的问题是每个属性都有较多
的缺失值。C4.5对缺失值的处理能力已经算不错了,但如果缺失值多到一定程度,
没什么机器学习方法能处理得了(你还可以试试贝叶斯网,但我对此并不乐观)。
所以,如果一定要做,一方面是多收集数据(这可以降低缺失率,另外也可以
增加估计的可信度),另一方面是做预处理,尽可能利用一些领域知识。
daniel (飞翔鸟) 于Mon May 5 16:30:31 2003)
提到:
【 在 GzLi (笑梨) 的大作中提到: 】
: 索性告诉他参考哪篇文章呗
: Zhi-Hua Zhou Yuan Jiang Medical diagnosis with C4.5 rule preceded
: by artificial neural network ensemble Information Technology in
: Biomedicine, IEEE Transactions on On page(s): 37- 42 Volume: 7, Issue:
: 1, Mar 2003
: 不过这样的工作太复杂了,连c4.5都做不出结果,上面的太难。
过段时间这玩意儿的代码或者演示版可能会被share出来
: 不妨参考这个
: C. Z. Ye, J. Yang, D.Y. Geng, Y. Zhou, and N.Y. Chen, Fuzzy Rules
: to Predict Degree of Malignancy in Brain Glioma, Medical&Biological
: Computing and Engineering, 40(2002) 145-152
: 我做的东西可惜正在审还没有结果。
: 【 在 strawman (独上江楼思渺然) 的大作中提到: 】
eehsay (反函数) 于Tue May 6 16:41:32 2003)
提到:
叶的那篇文章在那里可以找到?
【 在 GzLi (笑梨) 的大作中提到: 】
: 索性告诉他参考哪篇文章呗
: Zhi-Hua Zhou Yuan Jiang Medical diagnosis with C4.5 rule preceded
: by artificial neural network ensemble Information Technology in
: Biomedicine, IEEE Transactions on On page(s): 37- 42 Volume: 7, Issue:
: 1, Mar 2003
: 不过这样的工作太复杂了,连c4.5都做不出结果,上面的太难。
: 不妨参考这个
: C. Z. Ye, J. Yang, D.Y. Geng, Y. Zhou, and N.Y. Chen, Fuzzy Rules
: to Predict Degree of Malignancy in Brain Glioma, Medical&Biological
: Computing and Engineering, 40(2002) 145-152
: 我做的东西可惜正在审还没有结果。
: 【 在 strawman (独上江楼思渺然) 的大作中提到: 】
⌨️ 快捷键说明
复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?