⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 regextest.java

📁 用来为垂直搜索引擎抓取数据的采集系统
💻 JAVA
字号:
package org.indigo.tests;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

import junit.framework.TestCase;

import org.indigo.parser.Parser;
import org.indigo.util.TaskProperties;

public class RegexTest {
   
	public  static void testparserWithRegex()
    {   Parser p=new Parser();
        p.setUrl("http://www.ahnw.gov.cn/2006schq/price.asp?page=2&BigClass=&MarketID=0&LittleClass=");
        String itsPageStr=p.parseAll();
        TaskProperties tp=new TaskProperties();
        tp.open("J:\\MyEsapce\\大马帮\\taskconfig\\农业网站\\价格\\安徽省\\安徽农网\\价格行情\\Test.task");
        String ss=tp.getProperty("Front1");
        String ee=tp.getProperty("Back2");
    	Pattern spattern = Pattern.compile(ss);//("<td align=\"center\" bgcolor=\"[0-9a-fA-F]{6}\">");//\\s*.*([\u4e00-\u9fa5]+)</td>");
	    Pattern bpattern=Pattern.compile(ee);
    	Matcher m=spattern.matcher(itsPageStr);
    	int s=-1;
    	String midStr=null;
		if(m.find())
		{
			System.out.println(m.group());
			 s=m.start()+m.group().length();
			 itsPageStr=itsPageStr.substring(s);
			m=bpattern.matcher(itsPageStr);
			
			if(m.find())
			{
			midStr=itsPageStr.substring(0, m.start());//m.group(1);
			itsPageStr=itsPageStr.substring(midStr.length()+m.group().length());
			}
			System.out.println(midStr);
		}
		//return midStr;
    }
	public static void main(String args[])
	{
		RegexTest.testparserWithRegex();
	}
}

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -