庖丁解羊中文分词器
官方说明:“刨丁解羊中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词速度约为3000万字/分钟,网页分词速度约为277.8个网页/秒。该软件采用基础...
官方说明:“刨丁解羊中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词速度约为3000万字/分钟,网页分词速度约为277.8个网页/秒。该软件采用基础...
lucene.net 2.0的中文分词器,采用最大向前匹配算法,附上源代码和lucene.net.dll,希望这方面有兴趣的互相交流一下。...
一个简单的中文分词器,java语言描述,并附带...
IKAnalyzer中文分词器 v3.2 ...