⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 readme.txt

📁 这个软件对文本文档进行预处理
💻 TXT
字号:
TextPreProcessing程序说明

本程序希望对文本文件进行以下预处理,包括:

1. 删除文件中的中文、西文空格
2. 将篇章切分为一个个的句子,切分标志为:。 ! ? … ;等,句中如果有引号,要求左右匹配
3. 对句子按长度从大到小分行排序。
4. 在每行句子前加上序号
5. 统计一个文件中各种长度的句子的频次,按照句长频次降序输出统计结果

以上功能一般按照1-5的顺序执行

6. 将特定格式的普通文本文件加上XML标记,以.xml后缀输出(文本文件格式不合要求,程序会出错)
7. 将经过分词和词性标注的文件还原为普通文本文件(尚未实现)


示例文本文件放在 \test\目录下

AnnotatedText.txt 为经过分词和词性标注的人民日报语料
CorporaSample1.txt 为从北大中文系语料库中抽取出来的一个特定格式的文本文件(现当代文学作品)
PeopleDailySample.txt 为从北大中文系语料库中抽取出来的一个特定格式的文本文件(人民日报语料)
test1.txt 用于测试“文本断句”功能,该文件句中有回车隔断
test2.txt 用于测试“文本断句”功能,该文件句中无回车隔断,段落之间有回车分隔
test3.txt 用于改进“文本断句”功能,注意: !”有时候不能作为断句的标志。

2002/10/22
詹卫东

 

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -