中文分词程序源代码.txt

来自「前几天因为好久没发blog了」· 文本代码 · 共 201 行

TXT

201 行

前几天因为好久没发blog了，就拿我毕设中的一段算法凑数，没想到引起很多人的兴趣。因此就把我的分词算法单独拎出来做了一个项目叫作DartSplitter。暂时把分词算法的名称叫做树状词库分词法。




刚刚统计了一下源代码，一共也就950多行代码，加上测试用例共1200行代码。看来确实还是想法比实现重要。说明如下：



1、由于不能用原来的专业词库，因此我特地去网上找了个Access的词库，一共有一万条记录左右，还有很多单字，因此分词的效果不会太理想。不过我这里只是为了演示一下功能，幸好从数据库转成我现的词库并不复杂，我的演示程序里提供了例子，后面还会有说明。而且，真正好的词库可能还要加入机器学习等功能，真正全面的分词可能还需要将基于词库的分词与无意义的分词结合，不过这些功能都不是那么简单的啦。



2、由于测试对词库的依赖性太强了，因此我的测试用例里没有用太多的assert，只是简单地log一下结果。而且考虑到大家用TestNG的还比较少，因此我把测试用例都改成JUnit了。测试用例与外部资源的依赖一直是困扰着我的问题，不知大家有何良策？



3、由于我现在写程序已经对Spring产生依赖症了，因此虽然我希望我程序依赖的包越少越好，但还是用了Spring，这样的好处是所有接口与关联都是可配置的。因此如果要替换掉某一部分实现也会比较简单，例如从关系数据库的词库取词的接口肯定是要重写，只要配置文件里修改一行就可以了，这个在后面说明。



4、为了方便大家使用我特意写了示例splitterTest，里面提供了两个main，一个是建词库(DictSerializationMain)，另一个是对一篇文章的analysis(AnalysisTest)，用了SimpleAnalyzer，StandardAnalyzer和我的TreeDictAnalyzer进行对比。



5、系统在设计的时候就是与lucene紧耦合，分词的单位也是lucene中token。这是通用性与效率平衡的结果，最后我选择了效率，而且毕竟lucene是大家用得最多的全文检索引擎包。




下面讲一下使用说明：



1、如果不需要修改源代码的话，只要下载dartsplitter-0.3.jar就可以了。



2、需要在新建项目的source的etc下放入以下配置文件（示例项目里都有，只要copy就行了）：dartSplitter.properties, dictJdbc.properties, dartSplitterContext.xml。



dartSplitter.properties的大概内容如下：



splitter.dictDir=f:/WebDict （指定了词典的路径，主要用于lazy load，目前还没用到）



splitter.dictFile=f:/WebDict/common.dict （词典的文件名，只要将词典文件与配置对就行了）



splitter.maxWordLength=20 （放入词库的最大词长，load之后相当于树的高度）



演示的字典文件名位于dict文件夹下：common.dict。 commonDict.mdb则是当时找来的access文件。




dictJdbc.properties的内容如下：



dict.jdbc.driverClassName=sun.jdbc.odbc.JdbcOdbcDriver



dict.jdbc.url=jdbc:odbc:commonDict



dict.jdbc.username=



dict.jdbc.password=



其实就是词库文件对应的Jdbc链接啦。




dartSplitterContext.xml是Spring的配置文件，除了建词库时访问关系数据库的DAO配置要改动外，其它都不要去动。




3、建自己的词库



A、自己implements一下DictDAO接口，提供自己的实现，DictDAO的接口定义很简单，只要实现两个方法就行了，可参考CommonDictDAO的实现：



public interface DictDAO {



/**



* @param strPrefix 词的首个字



* @return 以这个字为首字的词对象(@see cn.edu.zju.dartsplitter.data.DictValue)的列表



*/



public List<DictValue> getDictValues(String strPrefix);




/**



* @return 词库中所有词的首字列表



*/



public List<String> getAllPrefixes();



}



B、修改dartSplitterContext.xml的配置：



<bean id="dictTree" class="cn.edu.zju.dartsplitter.impl.DictTreeImpl">



<property name="rebuild"><value>false</value></property>



<property name="maxWordLength"><value>${splitter.maxWordLength}</value></property>



<property name="fileName"><value>${splitter.dictFile}</value></property>



<property name="dictDAOList">



<list>



<ref local="commonDictDAO "/>



</list>



</property>



</bean>



只要在以下这段里将替换commonDictDAO为自己的DAO就行了，也可以加入新的DAO，因为我们考虑到有多个数据来源的情况，因此可以把多个DAO实现一起放入List里。



C、执行一下包里或者示例程序里的DictSerializationMain就OK了




最后感谢要一下blueGuitar，如果没有当时与他讨论时的灵感，就不会有现在的算法。还要谢谢车东，是他引导我使我对中文分词感兴趣的。

中文分词程序源代码.txt - 源码说明

本页面展示了「前几天因为好久没发blog了」中的中文分词程序源代码.txt 源码文件，采用文本编程语言编写，共 201 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与blog相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?