爬虫之概念相关
涂寐 Lv4

声明

本教程仅供学习参考,请勿用在非法途径上,违者后果自负,与笔者无关。 –涂寐

爬虫过程

  • 编程–>模拟上网–>抓取数据

    爬虫性质

  • 法律不禁止,使用有风险

    爬虫风险

  • 干扰网站正常运营
  • 非法抓取网站数据

    防进橘子

  • 优化程序,避免干扰网站运营
  • 审查爬取内容,避免敏感内容爬取

    使用场景

  • 通用爬虫:
    • 抓取系统重要组成–>整个页面数据
  • 聚焦爬虫:
    • 通用爬虫基础上–>抓取特定数据
  • 增量式爬虫:
    抓取网站最近更新数据

    爬虫利弊

  • 网站希望获得更大知名度
  • 网站害怕敏感数据被爬取

    反爬机制

  • 门户网站通过制定某些策略和技术来防止爬虫爬取网站数据

    反反爬策略

  • 爬虫程序通过制定某些策略和技术来绕过门户网站的反爬机制,进而爬取其中数据

    robots.txt协议

  • 规定该门户网站可爬取的数据范围

    http协议

  • 服务器与客户端进行数据交互的一种形式

    常用请求头

  • User-Agent:UA,请求方的身份标识
  • Connection:请求完成后的连接状态

    常用响应头

  • Content-Type:服务器对客户端响应数据的类型

    https协议

  • http+SSL,安全的超文本传输协议

    加密方式

  • 对称密钥加密
  • 非对称密钥加密
  • 证书密钥加密
  • 本文标题:爬虫之概念相关
  • 本文作者:涂寐
  • 创建时间:2021-12-06 23:17:29
  • 本文链接:https://0xtlu.github.io/article/c2461216.html
  • 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
 评论