1、锁定某个主题抓取; 2、能够产生日志文本文件,格式为:时间戳(timestamp)、URL; 3、抓取某一URL时最多允许建立2个连接(注意:本地作网页解析的线程数则不限) 4、遵守文明蜘蛛规则:必须分析robots.txt文件和meta tag有无限制;一个线程抓完一个网页后要sleep 2秒钟; 5、能对HTML网页进行解析,提取出链接URL,能判别提取的URL是否已处理过,不重复解析已crawl过的网页; 6、能够对spider/crawler程序的一些基本参数进行设置,包括:抓取深度(depth)、种子URL等; 7、使用User-agent向服务器表明自己的身份; 8、产生抓取统计信息:包括抓取速度、抓取完成所需时间、抓取网页总数;重要变量和所有类、方法加注释; 9、请遵守编程规范,如类、方法、文件等的命名规范, 10、可选:GUI图形用户界面、web界面,通过界面管理spider/crawler,包括启停、URL增删等
标签: 日志
上传时间: 2013-12-22
上传用户:wang5829
本书专门讨论Windows网络编程技术,覆盖Windows 95/98/NT 4/2000/CE平台。内容包括NetBIOS和Windows重定向器方法、Winsock方法、客户端远程访问服务器方法。本书论述深入浅出、用大量实例详解了微软网络API函数的应用。配套光盘包含了所有实例代码,方便读者使用。本书适合中、高级程序设计人员以及网络设计与管理人员参考。
上传时间: 2014-01-11
上传用户:zhuyibin
作 者 何强 何英 [同作者作品] 【出 版 社】 清华大学出版社 【书 号】 7-900641-80-7 本书以MATLAB扩展编程及其应用实例为主线,以MATLAB与C程序、Visual Basic、Excel、网络和系统硬件的接口为核心,采用图文并茂的方式、简捷明快的手法和通俗易懂的语言,配合大量的代码实例以及一个简单的语音识别系统的具体实现,系统介绍了MATLAB的新特性、常用的代码优化方法和功能扩展途径。全书分为3部分,共13章。第1部分(第1章—第6章):MATLAB 6的安装和运行、MatrixVB、Excellink、MATLAB Web Server、MATLAB的数据结构和编程技巧、MATLAB图形用户界面编程:第2部分(第7章—第11章):MATLAB引擎、MATLAB可执行程序、MATLAB C++数学库和图形库、MATLAB Runtime Server、MATLAB访问系统硬件;第3部分(第12章、第13章):MATLAB的录音工具、基于MATLAB的语音识别系统。 本书面向有一定MATLAB、C/C++语言编程基础的理工科学生、科研人员和教学工作者,既是新手进阶提高的读物,又是中高级MATLAB用户的必备手册。
上传时间: 2015-11-07
上传用户:kikye
Windows环境下不同文件夹下文件的比较、合并,使用的都是基本的WindowsAPI,适合windows编程的地初学者
上传时间: 2015-11-07
上传用户:liansi
本书专门讲述了GDI+编程中与开发自定义控件相关的功能,重点放在Windows Forms自定义控件的创建上,同时也讨论了ASP.NET服务器控件的创建问题。全书共分为4个部分:第1部分是对GDI+的用途和结构的概述,第2部分结合代码实例讲述了GDI+编程的具体细节,如绘图表面、坐标系、钢笔和笔刷、文本和字体、图像和图像操作、路径和区域、变换的处理和打印等。其中涉及了GDI+在自定义控件中的应用最相关的所有的类、方法、属性和事件。第3部分集中讲解了自定义控件的设计和开发,包括自定义控件的定义、特征,控件与VS.NET的集成,在控件中如何实现滚动等。第4部分讲述了GDI+功能在Web应用程序中的使用。如在Internet上提供了GDI+图像、创建ASP.NET服务器控件使用GDI+创建Web服务等知识。
上传时间: 2015-11-08
上传用户:yy541071797
详细介绍Java 3D编程的一本电子书,该书详细介绍Java 3D API及使用方法,并附有详尽的编程实例,讲解Java 3D图形绘制及其交互操作实现方法,是希望提高Java 3D编程水平的爱好者、专业人员不可多得的好书。
上传时间: 2014-01-12
上传用户:zl5712176
Unix.Shell编程(第三版),本书以POSIX标准Shell为讲解对象,介绍了用Unix shell编写程序所涉及到的方方面面。包括Unix基本命令、Shell编程要用到的主要工具、Shell程序的基本内容以及子Shell编程中的高级特性。
上传时间: 2015-11-11
上传用户:colinal
模拟实现可变分区存储管理 一、设计目的 在熟练掌握计算机分区存储管理方式的原理的基础上,利用C程序设计语言在windows操作系统下模拟实现操作系统的可变分区存储管理的功能,一方面加深对原理的理解,另一方面提高根据已有原理通过编程解决实际问题的能力,为进行系统软件开发和针对实际问题提出高效的软件解决方案打下基础。 二、各功能模块分析实现 设计合理的数据结构来描述存储空间: 对于未分配出去的部分,用空闲分区链表来描述。
上传时间: 2014-08-27
上传用户:jackgao
华为公司的软件编程规范,包括以下内容: 1.排版 2.注释 3.标识符命名 4.可读性 5.变量、结构 6.函数、过程 7.可测性 8.程序效率 9.质量保证 10.代码编辑、编译、审查 11.代码测试、维护 12.宏
上传时间: 2015-11-16
上传用户:671145514
熟悉SQL设计软件的一般步骤、SQL的基本语法语句、辅助课堂教学为目的,提高同学的编程开发软件的能力,进一步巩固数据库课程
上传时间: 2013-12-30
上传用户:1583060504