📄 readme.txt
字号:
TextPreProcessing程序说明
本程序希望对文本文件进行以下预处理,包括:
1. 删除文件中的中文、西文空格
2. 将篇章切分为一个个的句子,切分标志为:。 ! ? … ;等,句中如果有引号,要求左右匹配
3. 对句子按长度从大到小分行排序。
4. 在每行句子前加上序号
5. 统计一个文件中各种长度的句子的频次,按照句长频次降序输出统计结果
以上功能一般按照1-5的顺序执行
6. 将特定格式的普通文本文件加上XML标记,以.xml后缀输出(文本文件格式不合要求,程序会出错)
7. 将经过分词和词性标注的文件还原为普通文本文件(尚未实现)
示例文本文件放在 \test\目录下
AnnotatedText.txt 为经过分词和词性标注的人民日报语料
CorporaSample1.txt 为从北大中文系语料库中抽取出来的一个特定格式的文本文件(现当代文学作品)
PeopleDailySample.txt 为从北大中文系语料库中抽取出来的一个特定格式的文本文件(人民日报语料)
test1.txt 用于测试“文本断句”功能,该文件句中有回车隔断
test2.txt 用于测试“文本断句”功能,该文件句中无回车隔断,段落之间有回车分隔
test3.txt 用于改进“文本断句”功能,注意: !”有时候不能作为断句的标志。
2002/10/22
詹卫东
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -