分布式爬虫scrapy-redis - 《Python 网络爬虫教程》

Scrapy并没有提供内置的机制支持分布式(多服务器)爬取。不过还是有办法进行分布式爬取，取决于您要怎么分布了。

如果想要在多个机器上运行一个单独的spider，那您可以将要爬取的url进行分块，并发送给spider。例如:

首先，准备要爬取的url列表，并分配到不同的文件url里:

scrapy-redis巧妙的利用redis队列实现 request queue和 items queue，利用redis的set实现request的去重，将scrapy从单台机器扩展多台机器，实现较大规模的爬虫集群