-
Accept
User-Agent - 三方库fake-useragent
Referer
Accept-Language
- 检查网站生成的Cookie。
- 如何处理脚本动态生成的Cookie
- 抓取动态内容。
- Selenium + WebDriver
- Chrome / Firefox - Driver
- 限制爬取的速度。
- 处理表单中的隐藏域。
- 在读取到隐藏域之前不要提交表单
处理表单中的验证码。
OCR(Tesseract) - 商业项目一般不考虑
- 绕开“陷阱”。
- 网页上有诱使爬虫爬取的爬取的隐藏链接(陷阱或蜜罐)
- 通过Selenium+WebDriver+Chrome判断链接是否可见或在可视区域
隐藏身份。