python 运行 多个spider

python 运行 多个spider

默认情况下,当您执行 scrapy crawl 时,Scrapy每个进程默认运行一个spider。 当然,Scrapy通过 内部(internal)API 也支持单进程多个spider。 下面以 mytest,mytest1 作为例子来说明如何同时运行多个spider: from scrapy.crawler import CrawlerRunner from scrapy.utils.project import get_project_settings from twisted.internet import reactor,defer runner = CrawlerRunner(get
阅读 6 次
scrapy 每次访问robots.txt

scrapy 每次访问robots.txt

在学习scrapy中发现每次都会请求/robots.txt 通过配置settings.py 中的 ROBOTSTXT_OBEY = False即可关闭 ROBOTSTXT_OBEY = False 默认为True,就是要遵守robots.txt 的规则,如果不知道/robots.txt是什么协议,自行百度 若设置为False则不遵守robots.txt协议
阅读 8 次