1、锁定某个主题抓取; 2、能够产生日志文本文件,格式为:时间戳(timestamp)、URL; 3、抓取某一URL时最多允许建立2个连接(注意:本地作网页解析的线程数则不限) 4、遵守文明蜘蛛规则:必须分析robots.TXT文件和meta tag有无限制;一个线程抓完一个网页后要sleep 2秒钟; 5、能对HTML网页进行解析,提取出链接URL,能判别提取的URL是否已处理过,不重复解析已crawl过的网页; 6、能够对spider/crawler程序的一些基本参数进行设置,包括:抓取深度(depth)、种子URL等; 7、使用User-agent向服务器表明自己的身份; 8、产生抓取统计信息:包括抓取速度、抓取完成所需时间、抓取网页总数;重要变量和所有类、方法加注释; 9、请遵守编程规范,如类、方法、文件等的命名规范, 10、可选:GUI图形用户界面、web界面,通过界面管理spider/crawler,包括启停、URL增删等
标签: 日志
上传时间: 2013-12-22
上传用户:wang5829
D12 For uCos-II PDIUSBD12 在EasyARM2200开发板上运行,uCos-II下的源码. D12 For uCos-II PDIUSBD12 设备端演示软件 ZLG_D12.pdf USB驱动程序软件包简要说明及应用例子 常见问题及解决.TXT 遇到问题请阅读该文件
上传时间: 2014-11-26
上传用户:邶刖
里面有三个PDF文件,关于R软件如何画图的,还有一个TXT文件,里面是一些程序,希望对大家画图有所帮助!
标签:
上传时间: 2013-12-28
上传用户:kristycreasy
简单的单词检测程序,能够检查出以TXT文件格式的英文文章
上传时间: 2013-12-30
上传用户:Pzj
% 文件名:randlsbget.m % 程序员:余波 % 编写时间:2007.6.25 % 函数功能: 本函数将完成提取隐秘于上的秘密信息 % 输入格式举例:result=( scover.jpg ,56, secret.TXT ,2001) % 参数说明: % output是信息隐藏后的图象 % len_total是秘密信息的长度 % goalfile是提取出的秘密信息文件 % key是随机间隔函数的密钥 % result是提取的信息 function result=randlsbget(output,len_total,goalfile,key) ste_cover=imread(output) ste_cover=double(ste_cover) % 判断嵌入信息量是否过大 [m,n]=size(ste_cover) frr=fopen(goalfile, a ) % p作为信息嵌入位计数器将信息序列写回文本文件 p=1 % 调用随机间隔函数选取像素点 [row,col]=randinterval(ste_cover,len_toal,key) for i=:len_toal if bitand(ste_cover(row(i),col(i)),1)==1 fwrite(frr,1, bit1 ) result(p,1) else fwrite(frr,0, bit1 ) result(p,1)=0 end if p==len_total break end p=p+1 end fclose(frr)
标签: randlsbget result scover 2007
上传时间: 2015-11-10
上传用户:yzhl1988
加油站管理系统所用到的数据库,运行加油站管理系统之前请先使用SQL Server 2000的查询分析器创建此数据库。在SQL SERVER2000的查询分析器中打开sql目录中的"加油站管理系统数据库.TXT"文件,全选所有代码后按下F5运行创建运行本程序所需要的数据库。
上传时间: 2014-01-08
上传用户:sardinescn
扫描器程序,读源程序,去除空白和注释,结果写入另一文件。 要求:1.删除空白、回车、以及制表符等等。 2.删除各类注释。 源程序为一文本文件“scanner.TXT”,程序执行后装入另一个文件“result.TXT”中。
上传时间: 2013-12-19
上传用户:fanboynet
用java编写的用蝶式算法实现的fft,用来计算两个多项式的乘积,输入文件的格式如压缩包中的data5.TXT,结果输出到result.TXT中。
上传时间: 2013-12-27
上传用户:waizhang
递归算法求一个有向图的强连通分量,输入格式如压缩包中data4.TXT,第一行为顶点个数。输出到result.TXT中。
上传时间: 2015-11-16
上传用户:gxrui1991
DES加密解密程序的主程序在 FileDES类中 运行时使用的例子是本目录下的111.doc文件,运行后自动生成222.doc文件和333.doc文件。 其中111.doc文件加密后的文件是222.doc文件,222.doc文件解密后文件是333.doc文件。 可以操作的文件类型我实验了TXT、DOC、JAVA等都没有问题,且Word文档中包含图片也没问题
上传时间: 2014-01-17
上传用户:520