2020-01-17 分类: 网站建设
前面扼要介绍过了搜索引擎的索引体系,实际上在树立倒排索引的结尾还需要有一个入库写库的进程,而为了进步功率这个进程还需要将悉数term以及偏移量保存在文件头部,而且对数据进行紧缩,这涉及到的过于技能化在此就不多提了。今日扼要给咱们介绍一下索引之后的检索体系。
检索体系首要包含了五个有些,如下图所示:
(1)Query串切词分词行将用户的查询词进行分词,对之后的查询做准备,以“10号线地铁毛病”为例,能够的分词如下(近义词疑问暂时略过):
10 0x123abc
号 0x13445d
线 0x234d
地铁 0x145cf
毛病 0x354df
(2)查出含每个term的文档调集,即找出待选调集,如下:
0x123abc 1 2 3 4 7 9…..
0x13445d 2 5 8 9 10 11……
……
……
(3)求交,上述求交,文档2和文档9能够是咱们需要找的,整个求交进程实际上关系着整个体系的功能,这儿面包含了运用缓存等等手法进行功能优化;
(4)各种过滤,举例能够包含过滤掉死链、重复数据、色情、废物成果以及你懂的;
(5)结尾排序,将最能满意用户需要的成果排序在最前,能够包含的有用信息如:网站的全体评估、页面质量、内容质量、资源质量、匹配程度、分散度、时效性等等,之后会具体给咱们介绍。
名称栏目:上海网站建设公司:搜索引擎检索系统概述
文章源于:/news16/81216.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有网站建设等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联
猜你还喜欢下面的内容