中文手册
http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html
创建项目
scrapy startproject 项目名称
打开项目
项目目录结构
创建爬虫
scrapy genspider 爬虫名称 网站域名
爬虫文件介绍
运行爬虫
解析手段
- xpath(框架自身推荐)
- css
- 正则
创建数据相关Item
settings文件的字段说明
反反爬虫相关设置
- robots协议
- 时间间隔
- User-Agent
- 请求代理
- 禁用Cookie