详解百度排名过程中搜索引擎对页面的预处理过程

2014-01-16 分类：网站建设

搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。搜索引擎数据库中的页面数量都在万亿级,用户输入搜索词后,如果靠排名程序实时对这些页面进行相关性分析,则计算量太大,不可能在一两秒内返回排名结果。因此,必须对抓取的页面进行预处理，也称为“索引”。下面，小编将详细为大家介绍百度排名中这些预处理都有哪些步骤：

百度排名过程

A.提取文字

现在的搜索引擎还是以文字内容为基础。在蜘蛛程序抓取的页面HTML代码中,除了用户在浏览器上可以看到的文字外,还包含大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取可以用于排名处理的网页文字内容。

B.中文分词

中文分词是中文搜索引擎特有的步骤。在中文语句中,词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的,所以搜索引擎首先必须分辨是哪几个字组成了一个词,以及哪些字本身就是一个词。中文分词方法有两种,一种是基于词典匹配,另一种是基于统计。

基于词典匹配的方法是指将待分析的一段中文与一个事先准备好的词典中的词条进行匹配,在待分析中文字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。基于统计的分词方法是指分析大量文字样本,统计出字与字相邻的情况出现的概率,几个字相邻的情况出现得越多,它们就越可能是一个词，基于统计的方法的优势是对新出现的词反应更快,也有利于消除歧义。在实际使用中,分词系统是混合使用两种方法的。搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不取决于页面本身,所以SEOer对分词能做的工作很少。 SEOer唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当成一个词处理,尤其是可能产生歧义的时候,如在页面标题、H标签及黑体中出现的关键词。

C.去除停止词

无论是英文还是中文,页面内容中都会有一些出现频率很高却对内容没有任何影响的词。例如,“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。英文中的常见停止词有the、a、an、to、of等。这些词被称为停止词,因为它们对页面的主要意思没有影响。搜索引擎在索引页面之前会去掉这些停止词,使索引数据的主题更为突出,减少无谓的计算量。

D.消除噪声

E.去除重复内容

同一篇文章经常会重复出现在不同网站及同一网站的不同网址,搜索引擎并不喜欢这种重复的内容。用户搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,体验就比较差了。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就称为“去重”。

了解了搜索引擎的去重算法之后, SEOer就应该知道,简单地增加“的”、“地”、“得”或者调换段落顺序这种所谓“伪原创”行为逃不过搜索引擎的去重算法,因为这样的操作无法改变文章的特征关键词,而且搜索引擎的去重算法很可能不止用在页面级别,而是进行到段落级别,所以混合不同文章的内容、交叉调换段落顺序也不能使转载和抄袭变成原创。

F.正向索引

经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词把页面转换为由关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如标题标签、黑体、H标签、锚文字等)、位置(如页面第1段文字等)。这样,每一个页面都可以记录为一串关键词的集合，其中每个关键词的词频、格式、位置等权重信息也都记录在案。

G.倒排索引

正向索引还不能直接用于排名。假设用户搜索关键词“2”,如果只存在正向索引,那么排名程序需要扫描所有索引库中的文件,找出包含关键词“2”的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求,因此需要搜索引擎将正向索引数据库重新构造成倒排索引,把文件到关键词的映射转换为关键词到文件的映射。

H.链接关系计算

现在所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。搜索引擎在抓取页面内容后,必须事前计算页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了哪些锚文字。这些复杂的链接指向关系形成了网站和页面的链接权重。由于页面和链接数量巨大,网上的链接关系又在随时更新,因此链接关系及PR的计算要耗费很长时间。

I.特殊文件处理

除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT等。我们在搜索结果中也经常会看到这些文件类型。但是,目前的搜索引擎还不能处理图片、视频、 Flash这类非文字內容,也不能执行脚本和程序。虽然搜索引擎在识别图片及从Flash中提取文字内容方面有些进步,但距离直接读取图片、视频、Flash内容返回结果的目标还差得很远。目前,搜索引擎对图片、视频内容的排名还依据与之相关的文字内容。

以上九点就是百度排名时搜索引擎蜘蛛抓取页面后的预处理过程，本文主要内容来源于网络，由小编整理发布，如有侵权请联系本网站删除，谢谢!

本文题目：详解百度排名过程中搜索引擎对页面的预处理过程
文章出自：/news/5553.html

成都网站建设公司_创新互联，为您提供虚拟主机、网站导航、微信公众号、电子商务、网页设计公司、外贸网站建设

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容