【SEO优化】如何设置让网站禁止被爬虫收录

2022-04-05    分类: 网站建设

网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重。

以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。

  1、通过 robotstxt 文件屏蔽

可以说 robotstxt 文件是最重要的一种渠道(能和搜索引擎建立直接对话),给出以下建议:

Useragent Baiduspider

Disallow /

Useragent Googlebot

Disallow /

Useragent GooglebotMobile

Disallow /

Useragent GooglebotImage

Disallow/

Useragent MediapartnersGoogle

Disallow /

Useragent AdsbotGoogle

Disallow /

UseragentFeedfetcherGoogle

Disallow /

Useragent Yahoo Slurp

Disallow /

Useragent Yahoo Slurp China

Disallow /

Useragent YahooAdCrawler

Disallow /

Useragent YoudaoBot

Disallow /

Useragent Sosospider

Disallow /

Useragent Sogou spider

Disallow /

Useragent Sogou web spider

Disallow /

Useragent MSNBot

Disallow /

Useragent iaarchiver

Disallow /

Useragent Tomato Bot

Disallow /

Useragent

Disallow /

  2、通过 meta tag 屏蔽

在所有的网页头部文件添加,添加如下语句:

<meta name='robots' content='index,follow' />:可以抓取本页,也可以顺着本页继续索引别的链接

<meta name='robots' content='noindex,follow' />:禁止抓取本页,但可以抓取跟踪本页的其它链接

<meta name='robots' content='index,nofollow'/>:可以抓取本页,禁止抓取和跟踪本页的其它链接

<meta name='robots' content='noindex,nofollow' />:禁止抓取本页,禁止抓取和跟踪本页的其它链接

<meta name='robots' content='noarchive' />:禁止搜索引擎建立快照

  3、通过服务器(如:Linux/nginx )配置文件设置

直接过滤 spider/robots 的IP 段。


以上就是《SEO优化之如何设置让网站禁止被爬虫收录》的全部内容,仅供站长朋友们互动交流学习,SEO优化是一个需要坚持的过程,希望大家一起共同进步。

文章题目:【SEO优化】如何设置让网站禁止被爬虫收录
文章来源:/news25/145325.html

成都网站建设公司_创新互联,为您提供虚拟主机营销型网站建设品牌网站建设App开发星空体育app最新版本(2024已更新)网站营销

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

外贸网站制作