mannergather.java

来自「一个主题相关的网络爬虫,实现与某一主题相关的网页的爬取」· Java 代码 · 共 64 行

JAVA

64 行

package com.manner;

import java.net.*;
import java.util.*;
import java.io.*;

//礼貌采集类
public class MannerGather {
	// 判断urlToCheck对应的网页是否允许采集
	public boolean isRobotAllowed(URL urlToCheck) {
		HashMap<String, ArrayList<String>> disallowListCache = new HashMap<String, ArrayList<String>>();

		String host = urlToCheck.getHost().toLowerCase();// 获取给出RUL的主机

		// 获取主机不允许搜索的URL缓存
		ArrayList<String> disallowList = disallowListCache.get(host);

		// 如果还没有缓存,下载并缓存。
		if (disallowList == null) {
			disallowList = new ArrayList<String>();
			try {
				URL robotsFileUrl = new URL("http://" + host + "/robots.txt");
				BufferedReader reader = new BufferedReader(
						new InputStreamReader(robotsFileUrl.openStream()));

				// 读robot文件，创建不允许访问的路径列表。
				String line;
				while ((line = reader.readLine()) != null) {
					if (line.indexOf("Disallow:") == 0) {// 是否包含"Disallow:"
						String disallowPath = line.substring("Disallow:"
								.length());// 获取不允许访问路径

						// 检查是否有注释。
						int commentIndex = disallowPath.indexOf("#");
						if (commentIndex != -1) {
							disallowPath = disallowPath.substring(0,
									commentIndex);// 去掉注释
						}

						disallowPath = disallowPath.trim();
						disallowList.add(disallowPath);
					}
				}

				// 缓存此主机不允许访问的路径。
				disallowListCache.put(host, disallowList);
			} catch (Exception e) {
				return true; // web站点根目录下没有robots.txt文件,返回真
			}
		}

		String file = urlToCheck.getFile();
		for (int i = 0; i < disallowList.size(); i++) {
			String disallow = disallowList.get(i);
			if (file.startsWith(disallow)) {
				return false;
			}
		}

		return true;
	}

}

mannergather.java - 源码说明

本页面展示了「一个主题相关的网络爬虫,实现与某一主题相关的网页的爬取」中的 mannergather.java 源码文件，采用 Java 编程语言编写，共 64 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与网络爬虫相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?