网站抓取有哪些问题,怎么解决?

2014-09-16    分类: 网站建设

当您面对大型网站可能遇到的上千个潜在问题时,您从哪里开始解决,这是我们在重建网站抓取时尝试解决的问题。答案几乎完全取决于您的网站,并且可能需要对其历史和目标的深入了解。

简单的操作有时是危险的,为什么?

以前,我们试图将网站初期的每个问题标记为高,中,低优先级。 这种简单的方法可能是有用的,但我们发现不能这样做,你可能会想知道为什么我们离开它。

首先,网站优化要素优先次序取决于您的意图。 如果搜索引擎在进行网站抓取的时候,误解你的意图可能会导致不好的结果,从混乱到彻底的灾难性的。比方说,我们在Moz上聘请了全新的seoER,发现网站存在以下问题:

一、网站同时存在几乎35,000个NOINDEX标签

如果采用搜索引擎优化工具赶紧删除这些标签,那么网站本身会受到很大的伤害,而不是意识到绝大多数这些指令是有意的。我们可以让我们的系统更聪明,但是他们看不懂,所以我们要对虚警报警谨慎。

二、其次,优先考虑的问题并不能帮助您了解这些问题的性质或如何解决这些问题。 我们现在将网站抓取问题分为四种描述类型之一:

历史数据问题

重定向问题

元数据问题

内容问题

网站抓取有哪些问题,怎么解决?


三、按类型进行分类可以让您更具seo技术。 例如,我们新的“重定向”类别中的问题将会有更多的共同点,这意味着它们可能有共同的修复。最终帮助您找到问题只是第一步。 我们希望能够更好地帮助您解决问题。

1.从严重的爬虫问题开始

这不是说一切都是主观的。 一些问题阻止抓取工具(不仅仅是我们的,而是搜索引擎)到达你的页面。我们将这些“关键爬虫问题”分组到我们的第一类,目前包括5XX错误,4XX错误和重定向到4XX。如果您在5XX错误中突然上升,您需要知道,几乎没有人有意将其重定向到404。

您会看到整个网站抓取界面中突出显示严重的爬网程序问题:

寻找红色的警报图标来快速找到关键问题。 首先解决这些问题。 如果无法抓取页面,那么每个其他抓取工具的问题都是无法解决的,对seo是极为不好的。

2.平衡流行率的问题

在解决您的技术性SEO问题时,我们还必须平衡严重性与数量。 不了解你的网站,我会说404错误可能值得在重复的内容之前解决 -但是如果你有十一个404和17,843个重复的页面呢 你的优先事项突然看起来很不一样。

我们已经为你做了一些seo数据分析,通过问题的普遍程度来加重紧迫性。这需要对优先级的一些假设,但如果您的时间有限,我们希望至少为您提供解决几个关键问题的快速起点。

3.解决多页问题

解决高额问题的另一个优点是。 在许多情况下,您可以通过一次修复来解决数百个(甚至数千个)页面上的问题。这是一个更加战术的方法可以为您节省大量时间和金钱的地方。

比方说,我想在Moz.com上挖掘916页,缺少元描述。 我马上注意到,其中一些页面是博客文章。 所以,可以通过URL过滤解决网站抓取问题:

我可以很快看到,这些页面占我缺少描述的392个,高达43%。如果我担心这个问题,那么可能我可以通过一个相当简单的CMS页面解决它,用几行代码擦除数百个问题。

在不久的将来,我们希望为您做一些这样的分析,但如果过滤不能完成此工作,您还可以将任何问题列表导出到CSV。 然后,转动和过滤到你的心脏的内容。


网站抓取有哪些问题,怎么解决?


4.通过PA和爬行深度潜入页面

如果您不能轻易找到明确的模式,或者如果您已经解决了一些重大问题,那么下一步呢一次修复数千个问题一个URL只是值得的,如果你知道这些URL很重要。

幸运的是,您现在可以按页面权限(PA)和网站抓取中的抓取深度进行排序。PA是我们自己的排名能力的内部指标(主要由链接权重判断),爬网深度是页面与主页的距离:

在这里,我可以看到我们的MozBar网址中有一个重定向链,这是一个非常高权限的页面。这可能是一个值得修复的问题,即使它不是一个明显的,更大的组织的一部分。

5.注意网站抓取中出现的突发问题。

最后,随着时间的推移,您还需要注意新问题,特别是如果网站抓取问题同一时间大量出现的情况。 这可能表明突然和潜在的破坏性变化。网站抓取现在可以轻松跟踪新问题,包括警报图标,图表和按类别的新问题的快速摘要:

任何爬网都会发现一些新的页面(内容机器永远不会休息),但是如果您突然看到数以百计的单一类型的新问题,重要的是迅速挖掘,确定没有任何问题。在一个好的世界中,SEO团队总是会知道其他人和团队对网站的改变,但我们都知道这不是一个好的世界。


网站题目:网站抓取有哪些问题,怎么解决?
当前地址:/news15/29665.html

成都网站建设公司_创新互联,为您提供网站制作标签优化品牌网站制作定制开发移动网站建设网站营销

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

成都网站建设公司