Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 数值算法/人工智能 10016 K 132 次下载 2015-11-29