htmlparsergetlexerurls.java

来自「Lucene+nuctch一书的全部源码测试源码和几个简单的项目」· Java 代码 · 共 56 行

JAVA

56 行

package chapter9;

import org.htmlparser.util.*;
import org.htmlparser.Parser;
import org.htmlparser.filters.*;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.NodeFilter;
import org.htmlparser.nodes.TextNode;
import org.htmlparser.lexer.*;
import org.htmlparser.lexer.Stream;
import org.htmlparser.Node;
import java.io.*;
import java.net.*;

import org.htmlparser.http.ConnectionManager;
import org.htmlparser.visitors.TextExtractingVisitor;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.filters.HasSiblingFilter;

import org.htmlparser.util.ParserException;


public class HtmlParserGetLexerUrls {

	  public static void main (String[] args) throws ParserException
	  {
		  try {
			  getLexerUrls("http://www.bnu.edu.cn/","GB2312");
		  } catch(ParserException e)
		  {
			  e.printStackTrace();
		  }
 	  }
	  
	  public static void getLexerUrls(String url , String pageEncoding) throws ParserException
	  { 
		Node node = null;
		Lexer lexer = null;
		try { 		
			ConnectionManager connmgr;
			connmgr = Page.getConnectionManager();           // 生成链接管理器
		    lexer = new Lexer(connmgr.openConnection(url));  // 生成分析器
		    lexer.getPage().setEncoding(pageEncoding);       // 设置网页编码
			node = lexer.nextNode();
			while(node != null ) {                           // 循环遍历每个节点
			   System.out.println(node.toString());
			   node = lexer.nextNode();
		 	}	
		} catch (ParserException e) { 
			   e.printStackTrace();
		 }
	  }
	  
}

htmlparsergetlexerurls.java - 源码说明

本页面展示了「Lucene+nuctch一书的全部源码测试源码和几个简单的项目」中的 htmlparsergetlexerurls.java 源码文件，采用 Java 编程语言编写，共 56 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与Lucene相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?