虫虫首页| 资源下载| 资源专辑| 精品软件
登录| 注册

637

  • 计算所汉语词法分析系统ICTCLAS介绍 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位

    计算所汉语词法分析系统ICTCLAS介绍 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。该系统得到了专家的好评,并有多篇论文在国内外发表。 计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态连接库ICTCLAS.dll和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,输出格式也可以定制,开发者在分词和词性标注的基础上继续上层开发。

    标签: ICTCLAS 汉语 计算

    上传时间: 2014-01-02

    上传用户:15736969615

  • ICTCLAS的JNI调用接口文件: Title:ICTCLAS Caller * <p>Description:do chinese word segmentation.do

    ICTCLAS的JNI调用接口文件: Title:ICTCLAS Caller * <p>Description:do chinese word segmentation.don t change the pakage and CLASS name, orelse you can t use it. * 请不要改变包名、类名以及native的方法名,否则调用将失效。 * 由于ICTCLAS本身存在很多鲁棒性问题,调用segSentence时,string参数请保证不要过长或带有乱码。调用次数过多(如处理几十G的数据)会有可能造成内存溢出。 * 故基本只能用于较小规模数据(相对几十G来说)。 * 请运行时设置jvm足够的堆栈空间。

    标签: ICTCLAS segmentation Description chinese

    上传时间: 2014-01-25

    上传用户:it男一枚

  • 中文字体简繁转化代码

    中文字体简繁转化代码,方便快捷,使用灵活!

    标签: 字体 代码 转化

    上传时间: 2013-12-25

    上传用户:270189020

  • 网上收集到的

    网上收集到的,中文转拼音的java代码,没找到作者,不好意思

    标签:

    上传时间: 2013-12-28

    上传用户:frank1234

  • 用c++写的分词算法

    用c++写的分词算法,简单,实用,详情看里面的帮助文件!

    标签: 算法

    上传时间: 2015-05-14

    上传用户:rishian

  • psp上的reader 这个是以月光老大的cnreader为基础 增加了zip文件浏览功能

    psp上的reader 这个是以月光老大的cnreader为基础 增加了zip文件浏览功能,象浏览目录一样浏览zip文件。 zip内部的中文文件名可以正常显示 修正了原版的cnreader不能显示中文路径名的问题(同处理中文文件名一样处理)。 我只有1.5的,所以1.0没有测试过。 zlib用的是网上流行的版本,可能是1.2.2版,这个版本已经确认了有一些安全问题,稍候后我会研究一下最新1.2.3版本。 我这样做的原因是现在rip过的game都是正好放进512m的棒子里,结果为了几兆空间不得不删掉很多书,相当不爽的说。 这个版本最方便的是可以把很多书放进一个zip文件里,同时解决了中文文件名乱麻问题。 原版的cnreader之所以很大是因为他把字库也整合进去了。 下一步是准备把字库抽出来也进行zip处理。最大限度的减少占用的空间。 文档表明zlib有内存内压缩功能,就是管道处理,有兴趣的朋友一起来研究一下吧 我没有在看书的时候听歌的习惯,我觉得那样会让我分心。所以下一步除了提取字库之外只打算控制频率以实现节能(到目前为止,我还没有看到任何测试证明低频率可以节能)通过动态调整频率在节能和处理速度上达到平横。

    标签: cnreader reader psp zip

    上传时间: 2014-01-13

    上传用户:zhliu007

  • 字体生成工具源代码(Visual Studio 2005项目): psp_eReader字体生成工具(包含12,14,16点阵生成): 注意: 不要用英文字体转换

    字体生成工具源代码(Visual Studio 2005项目): psp_eReader字体生成工具(包含12,14,16点阵生成): 注意: 不要用英文字体转换,已知第三方不使用unicode编码的字体可能不支持

    标签: psp_eReader Visual Studio 2005

    上传时间: 2014-01-11

    上传用户:change0329

  • 一个电话本程序 可以添加、删除、插入、查找、规定了长度

    一个电话本程序 可以添加、删除、插入、查找、规定了长度

    标签: 电话 删除 程序 长度

    上传时间: 2015-05-20

    上传用户:z1191176801

  • psp上最好的 ereader0.9更新: [+] 制作了个简单的软件图标 [+] 记住上次退出时选择/阅读的文件 [+] 增加mp3快进/快退功能 (左/右按键, 因为CPU的速度问题

    psp上最好的 ereader0.9更新: [+] 制作了个简单的软件图标 [+] 记住上次退出时选择/阅读的文件 [+] 增加mp3快进/快退功能 (左/右按键, 因为CPU的速度问题,因此快进运行比较慢) [+] 增加mp3列表控制 (在mp3控制界面按SELECT键) [+] 退出时mp3列表自动保存到music.lst [+] mp3控制界面增加电池剩余量和时间显示 [+] 字体可以放在压缩文件fonts.zip里以节约空间(旧的fonts目录存放方法也可以用) [+] 在书签界面可以切换自动保存书签与否的选项 (见书签界面的底部行说明) [+] 可以用L和R快速切换前景色和背景色的数值 [!] 修正html的Javascript中document.write()函数的解析 [!] 修正FAT32读取 [!] 优化了一些代码以提高稳定性和性能 [!] 修正一些其它bug

    标签: ereader psp 0.9 CPU

    上传时间: 2013-12-18

    上传用户:manking0408

  • PSP YDICT ver0.3 改进的功能 1。在《牛津现代英汉双解词典》中

    PSP YDICT ver0.3 改进的功能 1。在《牛津现代英汉双解词典》中,正确显示音标。 (对YDICT ver0.2版本的《牛津现代英汉双解词典》的词库,作了部分修正。) 2。在单词右侧标示出不同难度,CET4,CET6,TOEFL,GRE,方便记忆。 CET4及以下难度,绿色标记 CET6, 浅蓝色标记 TOEFL, 黄色标记 GRE, 紫色标记 3。可以标记已查过的单词,翻阅已查单词。类似标签功能。 在当前单词的解释最后一页,按一次“X”键,可以标记单词。被标记的单词显示背景色。 再按一次“X”键,可以再次标记单词,背景色加亮。 再按一次“X”键,取消标记。 “L”键,“R”键,在已标记单词中前后翻页。 4。更方便的显示方式,翻阅单词列表时,直接显示单词解释。

    标签: YDICT PSP 0.3 ver

    上传时间: 2015-05-21

    上传用户:妄想演绎师