35.txt

来自「This complete matlab for neural network」· 文本代码 · 共 23 行

TXT

23 行

发信人: mnls (蒙娜丽莎的微笑), 信区: DataMining
标  题: Re: 如何构造中文文本分类问题的训练集测试集
发信站: 南京大学小百合站 (Sat Apr 19 10:39:19 2003)

人民日报语料库
【 在 supermoon (supermoon) 的大作中提到: 】
: 终于到了可以实际分类的时候，
: 可是却不知道到哪里去找合适的训练集和测试集，
: 好像没有现成的语料库。
: 需要存文本格式的语料库，做二类问题的分类，
: 不知道该如何构造。
: 最开始选了“世界杯”的很多文章做语料库，
: 把其中支持韩国队的作为“正例”，反对韩国队的
: 作为“反例”，但是还有很多的中性文章，不知如何处理。
: 有同学提出下载两个专题的文章，如“体育”和“电脑”，
: 将其中一个类别的文章作为正例，另一个作为反例，
: 自己觉得这样做类别可分性太强，这样构造训练集、测试集是不是
: 主观性太强？到底该如何构造训练集和测试集，有没有什么标准？


--
※ 来源:．南京大学小百合站 bbs.nju.edu.cn．[FROM: 166.111.11.221]

35.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 35.txt 源码文件，采用文本编程语言编写，共 23 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?