各搜索引擎蜘蛛介绍，搜索引擎蜘蛛爬取网站，抓取数据的规则

2022-11-18 分类：网站建设

各搜索引擎蜘蛛介绍，搜索引擎蜘蛛爬取网站，抓取数据的规则

1、百度蜘蛛：BaiduSpider

常见的Baiduspider和Baiduspider-image（抓取图片）

百度公司还有其它几个蜘蛛：Baiduspider-video（抓取视频）、Baiduspider-news（抓取新闻）、Baiduspider-mobile（抓取wap），都不常见

百度蜘蛛爬虫UA：

PC端：Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

移动端：Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

图片：“Baiduspider-image+(+http://www.baidu.com/search/spider.htm)”

2、谷歌蜘蛛：Googlebot

有人说谷歌蜘蛛是GoogleBot，官方谷歌蜘蛛最新名称为Googlebot，还发现了Googlebot-Mobile，看名字是应该是抓取wap内容的

谷歌蜘蛛爬虫UA：“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

3、360蜘蛛：360Spider

它是一个十分“勤奋抓爬”的蜘蛛

360蜘蛛爬虫UA：

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);

4、搜狗蜘蛛：Sogou News Spider

搜狗公司还有其它几个蜘蛛：Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider，冬镜在日志中只发现了常见的Sogou News Spider。（参考大神百度的robots文件，搜狗蜘蛛名称可以用Sogou概括，但有没有用就不知道了.）

搜狗蜘蛛爬虫UA：

“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”

5、必应蜘蛛：bingbot

必应蜘蛛爬虫UA：

“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”

6、SOSO蜘蛛：Sosospider

腾讯已玩死，交给搜狗公司了

soso蜘蛛爬虫UA：“Sosospider+(+http://help.soso.com/webspider.htm)”

7、雅虎蜘蛛：Yahoo! Slurp China（雅虎中国）或Yahoo! Slurp（雅虎英文）

雅虎蜘蛛爬虫UA：

雅虎中国：“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”

雅虎英文：“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”

8、MSN蜘蛛：msnbot，msnbot-media

重庆SEO好像只见到msnbot-media在狂爬……

MSN蜘蛛爬虫UA：*msnbot/1.0 (+http://search.msn.com/msnbot.htm”)

其它还有一搜蜘蛛：YisouSpider、Alexa蜘蛛：ia_archiver、宜搜蜘蛛：EasouSpider、即刻蜘蛛：JikeSpider，以及还有YandexBot、AhrefsBot和ezooms.bot等这些蜘蛛，据说这几个国外的蜘蛛都不咋好

各搜索引擎蜘蛛介绍

搜索引擎蜘蛛是搜索引擎的一个自动程序。它的作用是访问互联网上的网页、图片、视频等内容，建立索引数据库，使用户能在搜索引擎中搜索到您网站的网页、图片、视频等内容。

一般用法为“ spider+URL”，后面的URL(网址)是搜索引擎的痕迹，如果要查看某搜索引擎是否来爬取过你们的网站，可查看服务器的日志里是否有该URL,同时还能查看来的时间、频率等…

1、百度蜘蛛：可以根据服务器的负载能力调节访问密度，大大降低服务器的服务压力。根据以往的经验百度蜘蛛通常会过度重复地抓取同样的页面，导致其他页面无法被抓取到而不能被收录。这种情况可以采取 robots协议的方法来调节。

2、谷歌蜘蛛：谷歌蜘蛛属于比较活跃的网站扫描工具，其间隔28天左右就派出“蜘蛛”检索有更新或者有修改的网页。与百度蜘蛛大的不同点是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。

3、雅虎中国蜘蛛：如果某个网站在谷歌网站下没有很好的收录，在雅虎下也不会有很好的收录和爬行。雅虎蜘蛛的数量庞大，但平均的效率不是很高，相应的搜索结果质量不高。

4、微软必应蜘蛛：必应与雅虎有着深度的合作关系，所以基本运行模式和雅虎蜘蛛差不多。

搜索引擎蜘蛛爬取网站

搜索引擎蜘蛛的抓取规则，如下四点提供参考：

1、搜索引擎蜘蛛要能看到链接文字

这个是搜索引擎蜘蛛爬行时能够检索到的文字，如果文字或链接是通过JavaScript调用，蜘蛛是检索不到的。页面的文字内容中主要内容位置越靠前越有利，例如产品名称放到页面越靠前的位置，对该页面产品关键词的排名越有利。

2、搜索引擎蜘蛛能爬行未经 nofollow处理过的链接

这一项列出的是搜索引擎蜘蛛能够检索到链接，蜘蛛能够通过这些链接访问网站其他页面，越靠前的链接，被蜘蛛爬行的几率就越大，被搜索引擎收录的可能性越高。

3、搜索引擎蜘蛛能发现图片链接并能阅读到这些图片所包含的含义

这里主要展示该页面被搜索引擎蜘蛛和国际W3C标准化监测器所检索到的图片，搜索引擎能够根据图片at="" 去判断该图片的类型，性质和主题，对于判断该图片链接的页面的主题有巨大帮助，能有效提高商品展示页的搜索引擎排名根据W3C标准，页面上所有图片都必须添加alt="" 图片注释，网站Logo使用网站名称加简短描述，商品图片使用商品名称，网页框架图片留空。

4、搜索引擎蜘蛛能很好地识别HTML代码

模拟搜索引擎蜘蛛爬行该页面时，获得的“最简化代码->是指过滤css， JavaScript后的代码”，由此可以看出减少代码空行，换行，空格等多余代码空间非常重要。

5、搜狗蜘蛛：搜狗蜘蛛的爬取速度比较快，抓取的数量比起速度来说稍微少点。大的特点是不抓取 robot. text文件。

6、搜搜蜘蛛：搜搜早期是运用谷歌的搜索技术，谷歌有收录，搜搜肯定也会收录。2011年搜搜已经宣布采用自己的独立搜索技术，但搜搜蜘蛛的特性和谷歌蜘蛛的特点还是有着相似的地方。

8、有道蜘蛛：和其他搜索引擎蜘蛛一样，凡是高权重网站的链接一般都能将其收录。爬行原理也是通过链接之间的爬行。

网页标题：各搜索引擎蜘蛛介绍，搜索引擎蜘蛛爬取网站，抓取数据的规则
URL地址：/news38/214938.html

成都网站建设公司_创新互联，为您提供服务器托管、网站建设、品牌网站制作、App开发、网页设计公司、手机网站建设

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容