搜索：分词 - 虫虫下载站

技术资料  ROST资料

ROST新闻分析工具采集多个搜索引擎的网页和新闻，分词和词性分析，构建语义网络，对采集回来的网页进行统计，存放于MDB库中，并可自由导出，完全免费。

https://www.eeworm.com/dl/848923.html

下载: 8

查看: 4857

rost

技术资料  Lucene.Net-2.9.4源码

Lucene.Net-2.9.4源码 Net最近居然升级了,到了2。9.4 后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了。

https://www.eeworm.com/dl/988476.html

下载: 7

查看: 404

Lucene 源码

其他  汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)

汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，该系统的功能有：中文分词；词性标注；未登录词识别。分词正确率高达97.58 (973专家组评测)，未登录词识别召回率均高于90 ，其中中国人名的识别召回率接近98 处理速度为31.5Kbytes/s。ICTCLAS的特色还在于：可以根据需要输 ...

https://www.eeworm.com/dl/534/421599.html

下载: 189

查看: 1136

Technology Computing Institute Analysis

技术资料  基于压缩倒排文件的中文全文检索仿真系统

探讨基于压缩倒排文件的中文全文检索技术，包括数据压缩方法、存储、检索与排名机制。借助中科院的高精度ICTCLAS中文分词系统，采用C++/STL语言仿真实现了一个中文全文检索系统。该文列出部分关键代码

https://www.eeworm.com/dl/923710.html

下载: 8

查看: 6527

压缩倒排

多国语言处理  XPDF:把pdf文档转化为TEXT文档的库

XPDF:把pdf文档转化为TEXT文档的库，如需中文支持，请到官方网站下载中文语言包 HTM2TXT:把HTML文件转化为TEXT文件的库 ICTCLAS:对中文字符串进行分词的库 PS2TXT:把Postscript文件转化为TEXT文件的源码

https://www.eeworm.com/dl/637/377391.html

下载: 178

查看: 1103

XPDF TEXT 文档

技术资料  中文词频分析

分析和统计文档里的中文词语的词频，-说明-- □字频只统计汉字, 不计标点符号和西文字母; □词频只统计汉语词频, 不计英文单词和标点符号; 采用机器自动分词, 可能存在分词错误. "识别专名"是指进行"人名/地名/机构名称"等的自动识别. 识别专名有可能带来新的错误. "最小化词语颗粒度"是指采用本程序中定义的 ...

https://www.eeworm.com/dl/873886.html

下载: 7

查看: 6590

分析

人工智能/神经网络  基于朴素贝叶斯算法实现的中文文本分类程序。可以对中文文本进行分类识别

基于朴素贝叶斯算法实现的中文文本分类程序。可以对中文文本进行分类识别，使用时先对分类器进行训练，然后进行识别。该Beta版本仅支持对3类文本进行分类，使用简单的中文分词方法，本程序尚不具备实用性，用于算法研究和改进。 ...

https://www.eeworm.com/dl/650/149232.html

下载: 197

查看: 1182

贝叶斯算法文本分类分类程序

技术资料  面向生物学文献的自动分类的研究

本文从生物学文献数据库标引现状出发，针对提出的文献数据库深度加工两项措施，分析生物学文献的特点，实现了生物学文献的自动分词，在此基础上提出了一种生物学文献自动分类模型，最后指出将来的工作。

https://www.eeworm.com/dl/907345.html

下载: 6

查看: 8243

面向生物学文献

技术资料  一种无词典快速抽词算法的设计和实现

中文抽词在中文自然语言处理中是最基础的工作。本文提出了一种无词典的t-score 和二分相结合的抽词算法。它首先对原始文本进行预处理，利用噪音词的辅助信息来做初始切分，经过处理后一部分词被抽取

https://www.eeworm.com/dl/922212.html

下载: 5

查看: 677

抽词算法词典

技术资料  C++中文分类

C++中文分类代码，基于中科院的分词数据，适用于文本处理和自然语言处理任务。该代码提供了高效的中文文本分类功能，能够帮助开发者快速实现中文文本的自动分类。适用于需要对大量中文文本进行处理和分类的应用场景。

https://www.eeworm.com/dl/995055.html

下载: 3

查看: 39

C++ 中文分类文本处理自然语言处理

搜索结果

按分类筛选