2022-07-28 分类: 网站建设
成都网站设计--创新互联小编来首先说/
去停止词:无论是英文还是中文,页面内容都会出现一些频率很高,却对内容没有影响的词,如“的“, “地“,”得“之类的助词,”啊“,”哈“,”呀“之类的感叹词,”从而“,”以“,”却“之类的副词和介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。英文中的常见停止词有the,a,an,to,of等。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无畏的计算量。成都网站设计--创新互联小编说第2点/来
消除噪音:绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字,导航条,广告等。以常见的博客导航为例,几乎每个博客页面上都会出现文章分类,历史存档等导航内容,但是这些页面本身与“分类”,“历史”这些词都没有任何关系。用户搜索“历史:,”分类“这些关键词时仅仅是因为页面上有这些关键词出现而返回博客帖子是豪无意义的,完全不相关。所以这些区块都是属于噪声,对页面主题只能起到分散作用。
搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消除的基本方法是根据html标签对页面分块,区分出页头,导航,正文,页脚,广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主题内容。成都网站设计--创新互联小编说第3点
去重:搜索引擎还需要对页面进行去重处理。同一篇文章经常会出现在不同网站及同一个网站上的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了,虽然都是内容相关的。搜索引擎只希望返回相同页面文章中的一篇,所以在进行搜索前还需要识别和删除重复内容,这个过程就成为”去重“。”去重“的基本方法是对页面特定的关键词计算指纹,也就是从页面主体中选取最具有代表性的一部分关键词(经常是出现频率高的关键词),然后计算出这些关键词的指纹。这里的关键词选取是在分词,去停止词,消噪之后。实验表明,通常选取10个特征关键词就可以达到比较高的计算准确性,再选取更多词对去重准确性提高也就大了。
典型的指纹计算方法如md5算法(信息摘要算法第5版)。这类指纹算法的特点是,输入(特征关键词及其顺序)有任何微小的变化,都会导致计算出的指纹有很大的差距。了解搜索引擎的计算方法,seo人员就应该知道简单的增加“的”,“地”,“得”,调换段落顺序这种的伪原创,并不能逃过搜索引擎的去重算法,因为这样的操作无法改变文章的特征关键词,也就无法改变指纹。而且,搜索引擎的算法很可能不止页面的级别,而是进行到段落级别,混合不同文章。交叉调换段落顺序也不能使转载和抄袭不能变成原创。和大家分享完这篇文章,成都网站设计
--创新互联小编自己对优化都思路清晰不少。
文章题目:(seo)去停止词 消除噪音 去重
URL分享:/news19/183069.html
成都网站建设公司_创新互联,为您提供网站导航、自适应网站、营销型网站建设、响应式网站、网站策划、微信公众号
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联
猜你还喜欢下面的内容