搜索结果
找到约 290 项符合
分词 的查询结果
按分类筛选
- 全部分类
- 多国语言处理 (135)
- Java编程 (45)
- 技术资料 (26)
- 人工智能/神经网络 (16)
- 其他 (14)
- 编译器/解释器 (11)
- 软件设计/软件工程 (7)
- 数据结构 (4)
- 软件 (3)
- Applet (3)
- 文件格式 (3)
- 系统设计方案 (3)
- 源码 (2)
- Jsp/Servlet (2)
- Linux/uClinux/Unix编程 (1)
- 数值算法/人工智能 (1)
- 书籍源码 (1)
- 其他书籍 (1)
- 开发工具 (1)
- 实用工具 (1)
- 电子书籍 (1)
- 源码/资料 (1)
- Linux/Unix编程 (1)
- 技术管理 (1)
- 通讯编程文档 (1)
- 文章/文档 (1)
- Delphi/CppBuilder (1)
- JavaScript (1)
- MySQL数据库 (1)
- 并行计算 (1)
技术资料 Lucene.Net-2.9.4源码
Lucene.Net-2.9.4源码
Net最近居然升级了,到了2。9.4 后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了。
其他 汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)
汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58 (973专家组评测),未登录词识别召回率均高于90 ,其中中国人名的识别召回率接近98 处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输 ...
技术资料 基于压缩倒排文件的中文全文检索仿真系统
探讨基于压缩倒排文件的中文全文检索技术,包括数据压缩方法、存储、检索与排名机制。借助中科院的高精度ICTCLAS中文分词系统,采用C++/STL语言仿真实现了一个中文全文检索系统。该文列出部分关键代码
多国语言处理 XPDF:把pdf文档转化为TEXT文档的库
XPDF:把pdf文档转化为TEXT文档的库,如需中文支持,请到官方网站下载中文语言包
HTM2TXT:把HTML文件转化为TEXT文件的库
ICTCLAS:对中文字符串进行分词的库
PS2TXT:把Postscript文件转化为TEXT文件的源码
技术资料 中文词频分析
分析和统计文档里的中文词语的词频,-说明--
□字频
只统计汉字, 不计标点符号和西文字母;
□词频
只统计汉语词频, 不计英文单词和标点符号;
采用机器自动分词, 可能存在分词错误.
"识别专名"是指进行"人名/地名/机构名称"等的自动识别. 识别专名有可能带来新的错误.
"最小化词语颗粒度"是指采用本程序中定义的 ...
人工智能/神经网络 基于朴素贝叶斯算法实现的中文文本分类程序。可以对中文文本进行分类识别
基于朴素贝叶斯算法实现的中文文本分类程序。可以对中文文本进行分类识别,使用时先对分类器进行训练,然后进行识别。该Beta版本仅支持对3类文本进行分类,使用简单的中文分词方法,本程序尚不具备实用性,用于算法研究和改进。 ...
技术资料 面向生物学文献的自动分类的研究
本文从生物学文献数据库标引现状出发,针对提出的文献数据库深度加工两项措施,分析生物学文献的特点,实现了生物学文献的自动分词,在此基础上提出了一种生物学文献自动分类模型,最后指出将来的工作。
技术资料 一种无词典快速抽词算法的设计和实现
中文抽词在中文自然语言处理中是最基础的工作。本文提出了一种无词典的t-score 和二分相结合的抽词算法。它首先对原始文本进行预处理,利用噪音词的辅助信息来做初始切分,经过处理后一部分词被抽取