📄 10.txt
字号:
发信人: WbAI (wbAI), 信区: DataMining
标 题: 路透社的数据集的使用帮助(一)
发信站: 南京大学小百合站 (Sat Oct 12 20:23:51 2002)
Retuers共有22个文件。前21个,每个中包含1000个文档。Reut2-021.sgm包含578个。
文件格式是SGML格式的。每个文件第一行者是:
<!DOCTYPE lewis SYSTEM "lewis.dtd">
文件中的每篇文章都以<REUTERS TOPICS=?? LEWISSPLIT=?? CGISPLIT=?? OLDID=?? NEWI
D=??>开头,以</REUTERS>结束
===============================
Topics=”yes”表示的是在共135个类别中,存在与这篇文章相对应的类别
Topics=”no”表示的是在共135个类别中,不存在与这篇文章相对应的类别
Topics=”bypass”表示的是在共135个类别中,不存在与这篇文章相对应的类别
当然上述表达不是绝对的。可能Topics=”no”但存在与这篇文章相对应的类别,也可能。
。。。。
===============================
LEWISSPLIT=“TRAINING” 表示在LEWIS的实验中,该文章用于做训练例
LEWISSPLIT=“TEST” 表示在LEWIS的实验中,该文章用于做训练例
LEWISSPLIT=“NOT-USED” 表示在LEWIS的实验中,该文章没用到
================================
CGISPLIT=“TRAINING-SET”表示在HAYES的实验中用作训练例
CGISPLIT=“PUBLISHED-TESTSET” 表示在HAYES的实验中用作测试例
OLDID和NEWID分别表示在Retuer-22173和Retuers-21578两个版本中的ID
=================================
(没完哟)
--
※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 218.246.96.6]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -