问题重述:有一个内含有大约40万条常用词汇的词库。现给定一篇文章,使用这个词库分析出常用词汇的出现次数,并按出现次数由高到低排序这些词语。 改进算法的思路: 1. 通常一篇文章所包含的词语远少于词库中40万的数量; 2. 数据库建立索引之后,可采用“二分法”对词语进行快速定位; 3. 逐字缩小查询范围,如果查询到某个字符时范围已经为0,那么可以预测其后的词一定也不存在,(例如查询到forest时已经没有匹配的词了,就可以到此结束)。
标签: 词汇
上传时间: 2017-02-25
上传用户:busterman
1,修正合并栏目与移动小说时章节显示错误的问题 2,修正移动小说栏目计算错误的问题 3,修正小说后台生成栏目HTML只生成首页的问题 4,修正封面图片不能是HTTP协议的问题 5,修正“外部栏目”是相对地址引发的问题 6,修正当栏目为非ASP形式时Novel.Asp跳转章节的问题 7,修正删除章节、删除小说HTML不删除的问题 8,开放百度HTML索引地图功能!
标签:
上传时间: 2014-05-28
上传用户:星仔
中文编码转换,大5码转GBK码等 多音字字库组织和运用 组织海量名称数据,如何建立名称简拼索引
标签: 编码转换
上传时间: 2013-12-30
上传用户:wab1981
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。 latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看到,一个简单的larbin的爬虫可以每天获取500万的网页,实在是非常高效。
上传时间: 2017-03-02
上传用户:lili123
里面有5个工程文件,功能分别为搜索引擎建立索引与查询功能、java的MD5算法、HashMap的功能、FileDao文件操作大全、动态生成验证码,可定制字体,图片背景,和干扰线等。
标签: 工程
上传时间: 2013-12-23
上传用户:lht618
操作系统课程设计 模拟的文件系统编写程序,模拟混合索引形式的文件系统。能接收建立、删除、读、写和查询属性的命令,并在模拟文件系统中进行操作。提供一个可供操作者建立、删除、读、写文件和查看文件属性的交互界面。
上传时间: 2017-03-16
上传用户:as275944189
用java实现二叉树的建立,以及索引功能
上传时间: 2014-01-19
上传用户:lixinxiang
SQLite 是用C语言编写的开源数据库,主要用于嵌入式,你也可以把它集成在自己的桌面程序中,也有人将其替代Access,用作后台数据库。 SQLite 支持多数SQL92标准,例如:索引、限制、触发和查看支持。 支持 NULL、INTEGER、REAL、TEXT 和 BLOB 数据类型,支持事务。
上传时间: 2013-12-11
上传用户:gmh1314
清华+殷人昆C++数据结构 幻灯片教学课件 通过本课程的学习,应达到知识和技能两方面的目标: 1、知识方面:从数据结构的类定义和对象的使用,以及存储表示和操作的实现两个层次,系统地学习和掌握常用的基本数据结构(包括数组、顺序表、多项式、字符串、链表、栈与队列、优先级队列、广义表、树与森林、二叉树、堆、集合、图、搜索结构、索引结构、散列结构等)及其不同的实现,了解并掌握分析、比较和选择不同数据结构、不同存储结构、不同算法的原则和方法,为后续课程的学习打好基础。
上传时间: 2017-04-11
上传用户:jichenxi0730
向量空间模型算法,给定一个经过分词的文档集,可以输出向量空间模型、特征词典、倒排索引表等功能,很经典的VSM算法源代码
上传时间: 2014-01-14
上传用户:小眼睛LSL