1、锁定某个主题抓取; 2、能够产生日志文本文件,格式为:时间戳(timestamp)、URL; 3、抓取某一URL时最多允许建立2个连接(注意:本地作网页解析的线程数则不限) 4、遵守文明蜘蛛规则:必须分析robots.txt文件和meta tag有无限制;一个线程抓完一个网页后要sleep 2秒钟; 5、能对HTML网页进行解析,提取出链接URL,能判别提取的URL是否已处理过,不重复解析已crawl过的网页; 6、能够对spider/crawler程序的一些基本参数进行设置,包括:抓取深度(depth)、种子URL等; 7、使用User-agent向服务器表明自己的身份; 8、产生抓取统计信息:包括抓取速度、抓取完成所需时间、抓取网页总数;重要变量和所有类、方法加注释; 9、请遵守编程规范,如类、方法、文件等的命名规范, 10、可选:GUI图形用户界面、web界面,通过界面管理spider/crawler,包括启停、URL增删等
标签: 日志
上传时间: 2013-12-22
上传用户:wang5829
目前,有许多勘探目标无法使用常规地震成像方法进行识别,而利用叠前深度成像技术,作业公司可以对包括最复杂构造在内的地质特征进行清晰成像。这种准确的结果可以降低风险并帮助确定储量
标签:
上传时间: 2015-11-16
上传用户:dragonhaixm
本教程主要讲述计算机指令运行机制及汇编语言的相关知识,并用详实的例子来讲解如何使用O汇编语言来编写程序。汇编语言是计算机低级语言,它直接对应的是计算机机器指令,据有执行高效的特点,但由于它的底层性,指令浩繁复杂,如果你熟悉如MASM、FASM或者NASM等其它的汇编语言,那么你将能够很容易地学会使用O语言,它的内部机制与其它汇编语言是一致的;如果你没有接触过汇编语言,那么本教程将为你打开计算机语言的大门,深入细致地解剖聪明的计算机大脑的思考轨迹。如果你使用过C或者其它的计算机语言将对学习O语言有一定的帮助。
上传时间: 2013-12-26
上传用户:yiwen213
Jesse和Eric可以教你如何使用当前的 Ant,他们做得相当棒。这本书提供了颇有深度的信息,对于一些以往从未考虑到的工作,书中还介绍了如何扩展Ant来完成这些工作的详细内容。不论你是偶尔使用Ant,还是需要管理各种大型工程,这都是一本需要持之在手的工具书。”
上传时间: 2015-11-25
上传用户:gut1234567
1.首先选定图的类别(有向图、无向图),再选定图的存储结构,根据输入的顶点或者边建立图;并把相应的邻接表或者邻接矩阵输出; 2.根据已有的邻接矩阵或邻接表用递归方法编写深度优先搜索遍历算法,并输出遍历结果;
标签: 无向图
上传时间: 2013-12-21
上传用户:gaojiao1999
恶意代码机理与防范技术研究,一篇非常好的博士毕业论文,对于恶意代码讲解全面而有深度,对于恶意代码研究很有帮助,.nh格式,使用CAJViewer打开
上传时间: 2015-12-15
上传用户:784533221
经典的GPS原理书,有深度,并且有matlab实例
标签: GPS
上传时间: 2015-12-20
上传用户:
图的遍历中,因为图的任一顶点都可能与其余的顶点相邻接,所以在访问了某个顶点之后,可能沿着某条路径搜索之后又回到该顶点上。为了避免同一顶点被访问多次,在遍历图的过程中必须记下每个已访问过的顶点。深度优先搜索从图的某个顶v点出发,访问此顶点,然后依次从v的未被访问的邻接点出发深度优先遍历图。遍历图的过程实质上是对每个顶点查找其邻接点的过程。其耗费的时间则取决于所采用的存储结构。
标签:
上传时间: 2014-01-11
上传用户:lacsx
实现图的临接矩阵,邻接表,广度优先遍历和深度优先遍历。
标签: 矩阵
上传时间: 2013-12-21
上传用户:彭玖华
新型SAA7115 将扩展飞利浦半导体在个人视频录象市场的视频解码器领导供应商的地位。为实现更丰富的个人视 频录象体验,飞利浦重新设定了视频逼真度的标准,并增强了内容保护的深度,这会进一步鼓励内 容供应商继续进行引人入胜的编程开发
上传时间: 2016-01-07
上传用户:wangzhen1990