1.基于luncene倒排索引格式的高性能索引数据访问接口。 2. 实现若干中文分词的的分词算法。
1.基于luncene倒排索引格式的高性能索引数据访问接口。 2. 实现若干中文分词的的分词算法。...
1.基于luncene倒排索引格式的高性能索引数据访问接口。 2. 实现若干中文分词的的分词算法。...
首先对中文文档建立倒排文档,然后根据建立的倒排文档,按照此检索算法对文档进行检索...
首先对英文文档建立倒排文档,然后根据建立的倒排文档,按照此检索算法对文档进行检索...
以行为单位对行中以空格或标点符号为分隔的所有单词进行倒排,同时去 除标点符号,之后把已处理的字符串(应不含标点符号)仍按行重新存入字符串数组xx中...
本系统实现了分词和倒排索引,分词采用正向最大匹配,...
中文信息处理,建立文件的倒排表,形成词频链表...
对文件进行操作,对索引倒排表中的文件进行相应的操作...
整个实验是在Windows环境下使用delphi完成的。选取了600篇文档,数据集共分教育,商业与经济,计算机与因特网,娱乐与休闲,自然科学5个类别, 教育类包括31篇文档, 商业与经济类有9...
整个实验是在Windows环境下使用delphi完成的。选取了600篇文档,数据集共分教育,商业与经济,计算机与因特网,娱乐与休闲,自然科学5个类别, 教育类包括31篇文档, 商业与经济类有9...
向量空间模型算法,给定一个经过分词的文档集,可以输出向量空间模型、特征词典、倒排索引表等功能,很经典的VSM算法源代码...