📄 1.txt
字号:
Google的中文分词技术采用的是美国一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。业界评论海量科技的分词技术目前被认为是国内最好的中文分词技术,其分词准确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率很低。
(以上内容摘录自附录1)
二、计算所汉语词法分析系统 ICTCLAS
中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90% 召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。
下载页面: http://www.nlp.org.cn/project/project.php?proj_id=6
由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。
(1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502
(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载
(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: http://www.donews.net/accesine
三、海量智能分词研究版
海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。
下载页面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8
四、其他
(1)CSW中文智能分词组件
运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。
简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。
下载页面: http://www.vgoogle.net/
(2) C# 写的中文分词组件
据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。
下载页面: http://www.rainsts.net/article.asp?id=48
Stanford parser相当不错,之前用它作英文的分析处理,最近发现它对中文的支持也相当好。
举个例子:
国务院日前发出紧急通知,要求各地切实落实保证市场供应的各项政策,维护副食品价格稳定。
java -mx1g -cp “stanford-parser.jar” edu.stanford.nlp.parser.lexparser.LexicalizedParser -tLPP edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams -sentences newline -escaper edu.stanford.nlp.trees.international.pennchinese.ChineseEscaper -outputFormat “penn,typedDependencies” -outputFormatOptions “removeTopBracket” xinhuaFactoredSegmenting.ser.gz sampleInput.txt
分析结果:
Parsing file: chinese-onesent-unseg-gb18030.txt with 1 sentences.
Parsing [sent. 1 len. 24]: [国务院, 日前, 发出, 紧急, 通知, ,, 要求, 各, 地, 切
实, 落实, 保证, 市场, 供应, 的, 各, 项, 政策, ,, 维护, 副食品, 价格, 稳定, 。]
(IP
(NP (NN 国务院))
(VP
(NP (NT 日前))
(VP
(VP (VV 发出)
(NP
(ADJP (JJ 紧急))
(NP (NN 通知))))
(PU ,)
(VP (VV 要求)
(NP
(DP (DT 各))
(NP (NN 地)))
(IP
(VP
(VP
(ADVP (AD 切实))
(VP (VV 落实)
(NP
(CP
(IP
(VP (VV 保证)
(NP (NN 市场) (NN 供应))))
(DEC 的))
(DP (DT 各)
(CLP (M 项)))
(NP (NN 政策)))))
(PU ,)
(VP (VV 维护)
(NP (NN 副食品) (NN 价格) (NN 稳定))))))))
(PU 。))
nsubj(发出-3, 国务院-1)
tcomp(发出-3, 日前-2)
amod(通知-5, 紧急-4)
dobj(发出-3, 通知-5)
ccomp(发出-3, 要求-7)
det(地-9, 各-8)
dobj(要求-7, 地-9)
advmod(落实-11, 切实-10)
ccomp(要求-7, 落实-11)
rcmod(政策-18, 保证-12)
nmod(供应-14, 市场-13)
dobj(保证-12, 供应-14)
cpm(保证-12, 的-15)
det(政策-18, 各-16)
clf(各-16, 项-17)
dobj(落实-11, 政策-18)
ccomp(落实-11, 维护-20)
nmod(稳定-23, 副食品-21)
nmod(稳定-23, 价格-22)
dobj(维护-20, 稳定-23)
Parsed file: chinese-onesent-unseg-gb18030.txt [1 sentences].
Parsed 24 words in 1 sentences (7.21 wds/sec; 0.30 sents/sec).
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -