SEO入门：搜索引擎蜘蛛的工作原理

2013-07-02 分类：网站建设

　　不少SEO优化专员在做搜索引擎优化的时候，一开始都着急跟着技巧方式来执行，没有把原理吃透。其实如果能够花点时间去对搜索引擎蜘蛛抓取的原理进行了解，相关的SEO方法原理也能够很快上手。而且还能够指导我们开展工作，下面同创新互联一起来了解蜘蛛是怎么开展工作的吧。

SEO入门：搜索引擎蜘蛛的工作原理

　　一、常见蜘蛛抓取的策略：

　　1、深度优先遍历策略

　　简单理解，深度优先遍历策略主要是指建立一个起点，按照这个起点的顺序，顺序抓取链条上，没有被抓取的每个节点。但有的时候，面对“无限循环”节点的时候，这一策略便显得捉禁见肘。

　　2、PR优先策略

　　RP优先策略是一个非常注明的链接分析方法，它用于衡量网页的重要性，通常它会计算一个页面上URL的PR，按照从高到低的顺序进行抓取。

　　由于PR值的计算，需要不断的迭代更新，通常这里所采用的都是非完全PageRank策略。

　　3、反链策略

　　反链策略，并没有一个明确的官方文档说明，这里蝙蝠侠IT认为，它主要是基于反链的数量以及种子页面的权威度，二者进行加权评估后，按照优先顺序抓取。

　　4、宽度优先遍历策略

　　宽度优先便利策略，是早期搜索引擎常用的一种抓取策略，主要流程是提取整个页面中的URL，其中未被抓取的URL，就被放入待抓取列队，以此循环。

　　5、社会化媒体分享策略

　　社会化媒体分析策略，主要是指一个URL在社交媒体中的流行度，它的转载量，评论，转发量，综合指标的评估。

　　言外之意，如果你的URL最先没有在百度网址提交，而是出现在社交媒体中，比如：头条文章，也是很有可能被百度抓取的。

　　二、一般蜘蛛抓取的流程：

　　对于搜索引擎而言，常见的抓取流程包括：种子页URL提取->整理新的待抓取URL集合->合并更新链接(包括已经抓取过的链接)->解析页面内容->进入链接总库(索引库)

　　其中，在解析页面内容，进入索引库的时候，它需要经过多层复杂的系统计算，评估目标URL的质量，从而决定是否进入低质量库。

　　如何引蜘蛛爬行页面？

　　对于合理引导蜘蛛爬行页面，具体常见的操作是：

　　1、内容更新频率

　　理论上，如果你的页面更新频率相对较高，那么搜索引擎自然爬虫就是频繁来访，目的是抓取更多潜在的优质内容。

　　2、网站页面稳定

　　服务器的连通率是决定，搜索引擎蜘蛛是否能够顺利抓取的主要因素，如果你的网站经常产生延迟，识别对抓取与索引产生重要影响。

　　3、内容更新质量

　　言外之意，如果你长期频繁更新低质量内容，是不可取的，特别是百度爬虫而言，如果你定期输出高质量且具有稀缺性的内容(独特的视角)你会发现蜘蛛的来访频率很高，并且经过一定周期的信任度累积，很容易达到“秒收录”。

　　4、整站目标权重

　　这是一个综合性指标的考虑，通常而言，高权重的站点，更受搜索引擎的亲睐，蜘蛛抓取的也相对频繁，但这个评级，并不是咱们SEO专员，简单通过站长工具查询的结果，而是百度自身，一个非常私密的评估体系。

　　以上只是针对搜索引擎蜘蛛的工作原理做了基本的框架介绍，为SEO优化人员带来了简单的梳理，希望对大家的优化工作有所帮助。

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容