parseurl.java

来自「是个java写的sipder,非常不错!能承受很大的压力,每天采集的数量在100」· Java 代码 · 共 73 行

JAVA

73 行

package cn.yicha.subject.spider.store;

import java.net.URL;

public class ParseUrl
{	
	/**
	* 从内容中读取HTML标题
	*/
	public static String getTitle(String content)
	{
		final String prefix = "<title>";
		final String appendix = "</title>";

		String transContent = content.toLowerCase();
		int pos1 = transContent.indexOf(prefix);
		if (pos1 < 0)
			return "";		
		pos1 += prefix.length();
		
		int pos2 = transContent.indexOf(appendix);
		if (pos2 < 0)
			return "";

		String title = transContent.substring(pos1, pos2);
		return title;
	}

	/**
	* 去掉HTML网页的标记，导出原始内容
	*/
	public static String exportContext(String content)
	{
		final String beginTag = "<";
		final String endTag = ">";
		int loc = 0;
		StringBuffer result = new StringBuffer();

		int pos1 = content.indexOf(endTag, loc);
		while (pos1 >= 0)
		{
			int pos2 = content.indexOf(beginTag, pos1);

			if (pos2 < 0)
				break;

			if (pos2 > pos1 + 1) 
			{
				result.append(content.substring(pos1+1, pos2));
				result.append(" ");
			}

			pos1 = content.indexOf(endTag, pos2);
		}
		return result.toString();
	}

	/**
	* 取得URL地址的域名
	*/
	public static String getDomainName(URL url)
	{
		String host = url.getHost();
		int pos = host.indexOf(".");
		if (pos > 0) {
			return host.substring(pos);
		}
		else {
			return host;
		}
	}
}

parseurl.java - 源码说明

本页面展示了「是个java写的sipder,非常不错!能承受很大的压力,每天采集的数量在10000万」中的 parseurl.java 源码文件，采用 Java 编程语言编写，共 73 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与sipder相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?