imagecrawler.py

来自「Harvestman-最新版本」· Python 代码 · 共 49 行

49 行

#!/usr/bin/env python"""imagecrawler.py - Demonstrating custom crawler writing bysubscribing to events. This is a crawler which downloadsonly images from the web.Created by Anand B Pillai <abpillai at gmail dot com> Copyright (C) 2008 Anand B Pillai"""import sysimport __init__from harvestman.apps.spider import HarvestManfrom harvestman.lib.common.macros import *class ImageCrawler(HarvestMan):    """ A crawler which saves only images to disk """        def write_this_url(self, event, *args, **kwargs):                url = event.url        if url.is_image() or url.starturl:            return True        else:            return False    def include_links(self, event, *args, **kwargs):        url = event.url        if url.is_image():            return True        else:            passif __name__ == "__main__":    spider=ImageCrawler()    spider.initialize()    config = spider.get_config()    config.robots = 0 # You might want to re-enable this!    config.verbosity = 3    # Need in-mem data mode to obtain data for    # web-page URLs to parse them!    config.datamode = CONNECTOR_DATA_MODE_INMEM     spider.bind_event('writeurl', spider.write_this_url)    spider.bind_event('includelinks', spider.include_links)    spider.main()

imagecrawler.py - 源码说明

本页面展示了「Harvestman-最新版本」中的 imagecrawler.py 源码文件，采用 Python 编程语言编写，共 49 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与Harvestman相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?