newscontentfilter.java

来自「用来为垂直搜索引擎抓取数据的采集系统」· Java 代码 · 共 41 行

JAVA
41
字号
/*
 * *****************************************************
 * Copyright (c) 2005 IIM Lab. All  Rights Reserved.
 * Created by xuehao at Dec 1, 2005
 * Contact: zxuehao@mail.ustc.edu.cn
 * *****************************************************
 */
package org.indigo.db.fieldfilter;

import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.indigo.util.*;
/**
 * 在采集新闻时,用到的一个类,主要是把和config中NewsRE中的参数值匹配的正则表达式内容去掉。
 * @author wbz
 *
 */
public class NewsContentFilter
{
    private static NewsContentFilter itsInstance=new NewsContentFilter();
    private NewsContentFilter()
    {
        
    }
    public static NewsContentFilter getInstance()
    {
        return itsInstance;
    }
    public String filter( String str )
    {
        String reText = MainConfig.getInstance().getProperty( "NewsRE" );
//        System.out.println( reText );
        
        Pattern p = Pattern.compile( reText, Pattern.CASE_INSENSITIVE );
        Matcher m = null;
        m = p.matcher( str );
        str = m.replaceAll( "" );
        return str;
    }
}

⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?