首先上图:(因为工作原因,项目名需要打码)
由于各方面原因,需要将多个爬虫部署在一起,scrapy可以很好的解决这个问题。
接下来,开始无脑CV大法做实验:
1:创建一个scrapy程序:scraps startproject MySpides
2.疯狂创建项目: scrapy genspider Baidu Baidu.com
scrapy genspider taobao taobao.com
scrapy genspider jianshu jianshu.com
… …
3.配置问题:
面对每一个爬虫,配置也不一样,这时候,该怎么办?没错! 看到custom_settings.py文件了吗?就是这个,我将每个爬虫单独的配置放在里面了.对于settings.py我将公共配置(例如延迟,U-A等等)放在里面。
4.启动配置:
在scrapy中提供了一个custom_settings 关键字,可以在爬虫项目中使用其指向该项目的配置.
custom_settings =custom_settings_for_baidu
将这句话添加作为项目的类函数就好