2021-02-15 分类: 网站建设
爬虫定义、分类和流程
爬虫定义
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。爬虫就是模拟浏览器的行为,越像越好,越像就越不容易被发现。原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。爬虫的分类
通用爬虫:通常指搜索引擎的爬虫
聚焦爬虫:针对特定网站的爬虫
爬虫的用途
爬虫的流程
robots 协议
Robots 协议:网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,但它仅仅是道德层面上的约束 例如:淘宝的 robots 协议总结
HTTP 与 HTTPS 的概念
HTTP
概念:HTTP(超文本传输协议)是应用层上的一种客户端/服务端模型的通信协议,它由请求和响应构成,且是无状态的。 协议:协议规定了通信双方必须遵守的数据传输格式,这样通信双方按照约定的格式才能准确的通信。 无状态:无状态是指两次谅解通信之间是没有任何联系的,每次都是一个新的连接,服务端不会记录前后的请求信息。HTTP 请求流程
五层网络模型
HTTP协议结构图
网络模型对应关系
url 地址格式
HTTP 请求
请求格式
案例
请求方式描述GET请求指定的页面信息,并返回实体主体。HEAD类似于 get 请求,只不过返回的响应中没有具体的内容,用于获取报头POST向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST 请求可能会导致新的资源的建立和/或已有资源的修改。PUT从客户端向服务器传送的数据取代指定的文档的内容DELETE请求服务器删除指定的页面。CONNECTHTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。OPTIONS允许客户端查看服务器的性能。TRACE回显服务器收到的请求,主要用于测试或诊断。
请求头作用CookieCookieUser-Agent浏览器名称Referer页面跳转处Host主机和端口号Connection链接类型Upgrade-Insecure-Requests升级为 HTTPS 请求Accept传输文件类型Accept-Encoding文件编解码格式x-requested-with : XMLHttpRequestajax 请求
HTTP 响应
响应头作用Location这个头配合 302 状态码使用,告诉用户端找谁。Set-Cookie设置和页面关联的 CookieContent-Type服务器通过这个头,回送数据的类型Server服务器通过这个头,告诉浏览器服务器的类型Content-Length服务器通过这个头,告诉浏览器回送数据的长度Connection服务器通过这个头,响应完是保持链接还是关闭链接
分类分类描述1**信息,服务器收到请求,需要请求者继续执行操作2**成功,操作被成功接收并处理3**重定向,需要进一步的操作以完成请求4**客户端错误,请求包含语法错误或无法完成请求5**服务器错误,服务器在处理请求的过程中发生了错误
HTTPS
1- HTTP + ssl (安全套接字层),即带有安全套接字层的超本文传输协议 2- 默认端口号:443
文章名称:学习网络爬虫需要了解哪些知识?
分享地址:/news16/101066.html
成都网站建设公司_创新互联,为您提供静态网站、响应式网站、网站设计公司、定制开发、做网站、关键词优化
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联
猜你还喜欢下面的内容