⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 reptile-config.xml

📁 用java做的一个类似网页爬虫的东西
💻 XML
字号:
<?xml version="1.0" encoding="GBK"?>
<!-- reptile config file -->
<reptile>
	<!-- 站点名称 (不能为空,用来标志一个站点,并在初次使用时用来创建CacheFile) -->
	<websitename>Test</websitename>
	<!-- 站点地址 如果不是以具体的页面名结束,在最后加上'/' (不能为空) -->
	<website>http://192.168.0.1/</website>
	<!-- 要抓取的URL,(如果这里不填写默认等同于website节点的值,如果不是以具体的页面名结束,在最后加上'/', 
	如果需要抓取多个部分,在各个URL之间用';'隔开) -->
	<url></url>
	<!-- 禁止抓取的URL,如果有多个,在各个URL之间用';'隔开 -->
	<forbidurl>http://192.168.0.1/admin;</forbidurl>
	<!-- 存放这个站点的缓存文件(默认文件名为websitename节点的值) -->
	<cachefile>D:\temp\reptile\cache\snoics.reptile</cachefile>
	<!-- 抓取下的网页保存路径 -->
	<filerootpath>D:\temp\reptile\file</filerootpath>
	<!-- 首页文件名 -->
	<indexpage>index.htm;index.html;index.jsp;index.jspa;index.php;index.asp;default.html;default.htm,default.jsp;default.jspa;default.php;;</indexpage>
	<!-- 保存的文件名长度 (默认长度32)-->
	<filenamelength>32</filenamelength>
	<!-- 抓取一个网页之前是否删除这个网页的本地旧文件(默认值true) -->
	<deleteoldfile>true</deleteoldfile>
	<!-- 是否要修改抓取的页面中的URL(默认值true) -->
	<relink>true</relink>
	<!-- 缓存单元大小 (系统缓存由多个缓存单元组成,缓存单元个数由网站的页面数和缓存单元的大小决定,默认值为10000) -->
	<cacheunitsize>10000</cacheunitsize>
	<!-- 线程 -->
	<thread>
		<!-- 是否激活线程(默认false) -->
		<isactive>true</isactive>
		
		<!-- 线程操作类(必须实现 com.snoics.reptile.thread.ReptileDo接口 默认com.snoics.reptile.main.ReptileDoImpl ) -->
		<classname>com.snoics.reptile.main.ReptileDoImpl</classname>
		<!-- 
		==============================================================
		|   如果同时满足fixtime和looptime中的条件,将优先执行fixtime的操作, |
		|   looptime的操作推迟到下一个循环时间执行                         |
		==============================================================
		-->
		<!-- 固定执行时间(留空为不设置固定时间,多个时间之间用';'隔开 例如 06:30:00;22:00:00;) 
		第一起启动时,如果fixtime包括当前时间之前一个小时之内的时间,将会执行一次操作 -->
		<fixtime>07:00:00;08:00:00;09:50:00;10:30:00;11:00:00;</fixtime>
		<!-- 每次执行的时间间隔(留空为不执行),分钟 默认为不执行-->
		<looptime>5</looptime>
		<!-- 线程sleep时间 毫秒 默认600000毫秒 -->
		<sleeptime>60000</sleeptime>
	</thread>
	<!-- Log Type 日志形式日志级别,用来控制日志信息的输出。(默认 4)
	6 < 5 < 4 < 3 < 2 < 1 < 0 (Level_ALL < Level_DEBUG < Level_INFO < Level_WARN < Level_ERROR < Level_FATAL < Level_OFF) -->
	<logtype>5</logtype>
</reptile>

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -