⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 stopwordmaker.java

📁 基于最大匹配算法的的中文分词组件
💻 JAVA
字号:
/*
 * @作者:Hades , 创建日期:2007-1-25
 *
 * 汕头大学03计算机本科
 * 
 */
package edu.stu.cn.lucene.analysis;

import java.util.Set;

import org.apache.lucene.analysis.StopFilter;

/**
 * @author Hades Guan 分隔符制造器
 */
public class StopWordMaker
{
    /**
     * 英文数字字符集
     */
    private static final String CHAR_AND_NUM = "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz";

    /**
     * 分隔符结合
     */
    private static Set stopWords = null;

    /**
     * 返回分隔符集合
     * 
     * @return 分隔符集合
     */
    public static Set retreive()
    {
        if (stopWords == null)
        {
            // 初始化分隔符
            StringBuffer buffer = new StringBuffer();
            for (char c = '\u0000'; c <= '\u007F'; c++)
            {
                // 不过滤英文、数字字符
                if (CHAR_AND_NUM.indexOf(c) < 0)
                    buffer.append(c);
            }
            for (char c = '\uFF00'; c <= '\uFFEF'; c++)
                buffer.append(c);
            buffer.append(" \r\n《》?,。、:“;‘’”『』【】-―—─=÷+§·~!◎#¥%…※×() 的啊阿呀");
            stopWords = StopFilter.makeStopSet(buffer.toString().toLowerCase()
                    .trim().split(""));
        }
        return stopWords;
    }
}

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -