📄 -
字号:
2007年5月
* KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法
* 主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力
* 主要性能指标:
* 分词准确度:90%以上(有待专家的权威评测)
* 处理速度: 600KBytes/s
*
* 版本: V1.0 Bata
* Copyright(c) 2007 http://www.kaitoo.com
* 作者:肖波
* 授权: 开源GPL
* 公司网站: http://www.kaitoo.com
* 个人博客: http://blog.csdn.net/eaglet; http://www.cnblogs.com/eaglet
* 联系方式: blog.eaglet@gmail.com
代码采用 Visual Studio 2005 编译通过,需在.net framework 2.0 下运行
目录说明
Demo : 演示程序代码及解决方案
DictSeg : 分词算法组件代码
FTAlgorithm: 全文分析时用的一些基本算法
2007年6月2日
版本更新说明
V1.2.01
1、 增加中文人名判断
2、 增加了正向匹配分词和反向匹配分词的选项
3、 增加了停用词过滤
4、 增加了词性标注
2007年6月5日
版本更新说明
V1.2.02
1、 修改如下bug, 连续输入重复词如"蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝蓝",效率会随着重复次数的增加
急剧变慢。
2008年5月29日
V1.3.01
1、 修改字典格式,提高字典加载速度
2、 增加对英文专业名词的支持 如C++,C#等只要加入字典就可以被分出来
3、 增加词频判断功能,在无法取舍时根据词频取舍
4、 增加优先优先词频选项,通过这个选项动态决定分词粒度 需打开 FreqFirst
5、 增加中文人名前后缀统计和根据该统计定位人名的功能
6、 增加中文人名和未登录词出现频率统计功能
7、 增加自动更新字典功能,对超过阈值的人名和未登录词自动插入字典 需打开 AutoInsertUnknownWords 开关 并设置 UnknownWordsThreshold,(不推荐自动插入,推荐手工插入)
8、 增加定期保存字典和统计结果功能 需设置 AutoSaveInterval
9、 增加KTDictSeg.xml配置文件来配置分词参数
10、增加对Lucene.net 的支持,提供 KTDictSegAnalyzer 分析器给Lucene.net
11、增加字典管理功能,可以添加删除修改字典
12、字典管理中提供从未登录词中批量插入字典功能,可帮助使用者手工选择合适的未登录词插入字典(推荐)
13、提供一个新闻搜索的简单例子,采用Lucene.net+KTDictSegAnalyzer+KTDictSeg,项目名为Demo.KTDictSegAnalyzer
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -