• Accept

      • User-Agent - 三方库fake-useragent

      • Referer

      • Accept-Language

    1. 检查网站生成的Cookie。
      • 如何处理脚本动态生成的Cookie
    2. 抓取动态内容。
      • Selenium + WebDriver
      • Chrome / Firefox - Driver
    3. 限制爬取的速度。
    4. 处理表单中的隐藏域。
      • 在读取到隐藏域之前不要提交表单
    5. 处理表单中的验证码。

      • OCR(Tesseract) - 商业项目一般不考虑

    1. 绕开“陷阱”。
      • 网页上有诱使爬虫爬取的爬取的隐藏链接(陷阱或蜜罐)
      • 通过Selenium+WebDriver+Chrome判断链接是否可见或在可视区域
    2. 隐藏身份。