testhtmlparser.java

来自「html 解析处理代码」· Java 代码 · 共 77 行

JAVA

77 行

package org.htmlparser.tests.mytest;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;
/**
 * 得到纯文本，去掉html标记
 * @author Administrator
 *
 */

public class TestHTMLParser {

	public static void testHtml() {
	    try {
	        String sCurrentLine;
	        String sTotalString;
	        sCurrentLine = "";
	        sTotalString = "";
	        java.io.InputStream l_urlStream;
	        java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");
	        java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
	        l_connection.connect();
	        l_urlStream = l_connection.getInputStream();
	        java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
	        while ((sCurrentLine = l_reader.readLine()) != null) {
	          sTotalString += sCurrentLine+"\r\n";
	        }

	        String testText = extractText(sTotalString);
	        System.out.println(testText);
	    } catch (Exception e) {
	        e.printStackTrace();
	    }

	  }
	 
	  public static String extractText(String inputHtml) throws Exception {
	    StringBuffer text = new StringBuffer();
	    Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");
	    // 遍历所有的节点
	    NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
	        public boolean accept(Node node) {
	          return true;
	        }
	    });

	    System.out.println(nodes.size());
	    for (int i=0;i<nodes.size();i++){
	         Node nodet = nodes.elementAt(i);
	        text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"\r\n");          
	    }
	    return text.toString();
	  }
	 
	  public static void test5(String resource) throws Exception {
	    Parser myParser = new Parser(resource);
	    myParser.setEncoding("GBK");
	    String filterStr = "table";
	    NodeFilter filter = new TagNameFilter(filterStr);
	    NodeList nodeList = myParser.extractAllNodesThatMatch(filter);
	    TableTag tabletag = (TableTag) nodeList.elementAt(11);
	     

	  }

	  public static void main(String[] args) throws Exception {
	     //test5("http://www.ggdig.com");
	    testHtml();
	  }


}

testhtmlparser.java - 源码说明

本页面展示了「html 解析处理代码」中的 testhtmlparser.java 源码文件，采用 Java 编程语言编写，共 77 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与html相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?