⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 spider.java

📁 网页采集系统 ================= 安装配置 ------- 1 程序我就不说了 2 配置文件 applicationContext.xml 里面有详细的注释 3 已经
💻 JAVA
字号:
package com.laozizhu.search.spider;

import java.util.List;
import java.util.regex.Pattern;

/**
 * 蜘蛛接口。<br>
 * 用来解析一个列表。
 * 
 * @author 老紫竹(laozizhu.com)
 */
public interface Spider {

  /**
   * 解析页面的所有URL。<br>
   * 限当前域名。
   * 
   * @param url
   *          被解析的页面
   * @return 符合条件的链接列表
   */
  public List<String> parseList(String url);

  /**
   * 解析页面下符合正则规范的链接。<br>
   * 所有链接必须符合正则的要求。
   * 
   * @param url
   *          被解析的页面
   * @param pattern
   *          正则,null代表不使用正则。
   * @return 符合条件的链接列表
   */
  public List<String> parseList(String url, Pattern pattern);

  /**
   * 递归解析页面下符合正则规范的链接。<br>
   * 所有链接必须符合正则的要求。且递归解析里面的页面
   * 
   * @param url
   *          被解析的页面
   * @param pattern
   *          正则
   * @param recursionLevel
   *          递归解析的深度,0代表不递归解析
   * @return 符合条件的链接列表
   */
  public List<String> parseList(String url, Pattern pattern, int recursionLevel);
}

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -