📄 说明.txt
字号:
1. 双击PosTagger.exe文件启动程序(config.ini文件必须和PosTagger.exe文件在同一目录下)
2. 打开词库文件
数据\ 目录下有两个词库文件(access文件):
Lexicon.mdb:是已经包含了词条及其词性标记,频度信息的词典(如果用户要直接使用词库进行词性标注,可以使用这个词库)
Lexicon_NoData.mdb:是一个空词库(如果用户要对自己的语料进行训练,可以打开这个词库文件)
3. 打开词性标记集文件
数据\ 目录下有两个跟词性标记有关的文件:
posset.txt 中是本词性标注软件使用的词性标记集。 ;后是注释。如果要对自己的语料进行训练,可以打开这个文件
posset.@#$ 中是通过训练语料获得的词性标记频度及词性二元转移矩阵频度信息。如果要直接进行标注,可以打开这个文件
4. 训练语料
训练语料的格式要求:
每个词以 / 分隔, / 后是该词的词性标记。词性标记后至少要有一个空格。一个句子的所有词必须在同一行中。
训练得到的词性转移数据存放在posset.@#$文件中(posset.@#$是一个二进制文件)。
此外,为便于直观地查看词性标记的二元转移数据,训练结束后,还生成了一个posmatrix.txt文本文件。该文件中记录了训练语料中所有词性标记的二元转移数据
训练语料中包含的所有词汇及其词频(含词性标记频度)数据存放在词典数据库中。
训练语料\ 目录下的199801.txt文件,是北大计算语言所加工的人民日报1998年1月份的分词和词性标注语料。
如果训练语料很大,需要等待较长时间。
训练语料文件和待标注文件每行字节长度不超过20000。
5. 点击“开始词性标注”选取文本文件(一次可以选择多个)进行标注处理。
打开 a.txt 文件后,标注结果将自动保存为 a.pos 文件,标注过程记录将保存在 a.trc 文件中。
6. 用户可以手工向词库中加入新的词条。如果该词条在原词库中已经存在,将把用户输入的频度值累加到已有的频度值上。
詹卫东
2005.12.6
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -