说不清楚SEO的爬取收录和索引?

2014-01-16    分类: 网站收录

你是怎么去学习做seo优化的呢?入门第一步是什么还记得吗?是不是去买一本关于“seo优化”的书籍去看,发现一开端就会讲到的根底概念,让你云里雾里,想要强记下来发现彻底不能理解?

 说不清楚SEO的爬取收录和索引?

大多数没人带想自学的朋友都会有这样一个苦楚的开端。而来佛系站长的新人,咱们一般都是安排这些新人从写文章开端,先写再讲概念,培训的时候也会多次说到这些概念结合优化技巧来讲。再翻根底书籍的时候,才会清楚里边讲的究竟是些什么,并且你会发现,不同的阶段看同一本书,感触会彻底不相同,这就是“温故而知新”了。

 

但在这期间也会有新人不按常理出牌,觉得我会这些技巧就行了,为什么还要去理解概念呢?

 

原因很简单,概念是技巧描绘的总结和浓缩,它的一个字或两个字就会代表一个操作。现在您问身边的优化人员,爬行是什么?抓取是什么?索引是什么?收录是什么?他能描绘的清楚吗?

 

当然,并不是说说不清楚就代表他优化能力不行,而是他的“输出”能力不行,也就是不会总结。总结的越精辟也代表他对这块业务的理解更深刻。那么今天,佛系站长就带你来重温这些根底概念,希望能给初学者和没有“输出”主意的朋友提个醒。

 

爬行是什么?

 

爬行指的是搜索引擎蜘蛛从已知页面上解析出链接指向的URL,然后沿着链接发现新页面(也就是链接指向的URL)的过程。当然,蜘蛛并不是发现新URL马上就爬曩昔抓取新页面,而是把发现的URL存放到待抓地址库中,蜘蛛依照一定顺序从地址库中提取要抓取的URL。

 

抓取是什么?

 

抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL,拜访这个URL,把读取的HTML代码存入数据库。蜘蛛的抓取就是像浏览器相同打开这个页面,和用户浏览器拜访相同,也会在服务器原始日志中留下记载。

 

索引是什么?

 

索引指的是将一个URL的信息进行收拾,存入数据库,也就是索引库,用户搜索时,搜索引擎从索引库中提取URL信息并排序展示出来。

 

收录是什么?

 

从搜索引擎视点看,URL被收录了,也就是这个URL的信息在索引库中存在。

 

没有被抓取的页面是能够被索引的

 

也就是说,蜘蛛没有拜访和抓取这个页面(比方被robots文件制止抓取),这个页面却有信息存在索引库中,用户搜索时还能看到。

 

比方,淘宝整个网站用robots文件制止百度蜘蛛抓取,但没有用noindex制止索引,所以即便百度没有拜访和抓取淘宝页面,但淘宝许多页面是被百度索引的,用户能够搜到的:

 

百度从网上那么多链接知道淘宝主页的存在,通过链接的锚文字也知道这个页面标题大概是淘宝之类的,当然更知道百度口碑里的点评数。所以即便百度蜘蛛没有抓取淘宝主页,用户还是能搜到,并且显现一些百度知道的信息。

 

要想百度不能回来淘宝主页该怎么办呢?撤销robots文件的制止抓取,页面上用noindex制止索引。

 

被抓取的页面是能够不被索引的

 

最常见的就是上面说过的,页面头信息运用noindex制止索引,页面被抓取,读到noindex后,不被索引,不会在搜索成果中回来。老页面新加noindex也不是马上删除索引,还会保留索引一段时刻,但不会回来在搜索成果中。

 

加了noindex的页面上的链接是能够被跟踪一段时刻的,但时刻长了,有noindex的页面搜索引擎或许就不再抓取和索引了,上面的链接也就无效了。

 

还有或许是因为页面内容是抄袭、转载、低质量的,搜索引擎虽然抓取了页面,索引过程中检测出这些内容问题,被丢弃,没有被索引。所以页面没有被收录,一般要先查看原始日志,看看是否被抓取过,假如被抓取过,或许是内容质量问题,假如底子没被抓取,主张先看看网站结构是否有问题。

 

说了这么多,是不是晕了?别晕别晕,这些对于你做seo优化的时候会有许多协助的,不要以为一个概念是句废话,实际上是经过前人不停试验出的总结,最难的是那些没有界说的当地,你无法判定是对是错。

 

分享文章:说不清楚SEO的爬取收录和索引?
浏览地址:/news/5557.html

网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有网站营销网站收录

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

外贸网站制作