蜘蛛爬行抓取的地址库和文件存储

2022-04-12 分类：网站建设

地址库
为了避免重复爬行和抓取网址，搜索引擎会建立一个地址库，记录已经被发现还没有抓取的页面，以及已经被抓取的页面地址库中的URL有几个来源:

(1)人工录入的种子网站。
(2)蜘蛛抓取页面后，从HTML中解析出新的链接URL与地址库中的数据进行对比，如果是地址库中没有的网址，就存入待访问地址库。
(3)站长通过搜索引擎网页提交表格提交进来的网址。
蜘蛛按重要性从待访问地址库中提取URL，访问并抓取页面，然后把这个URL，从待访问地址库中删除，放进已访问地址库中。
大部分主流搜索引擎都提供一个表格，让站长提交网址。不过这些提交来的网址都只是存入地址库而已，是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的。可以说提交页面基本上是毫无用处的，搜索引擎更喜欢自己沿着链接发现新页面。
文件存储
搜索引擎蜘蛛抓取的数据存入原始页面芜湖网站设计数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的，每个URL都有一个独特的文件编号。

分享标题：蜘蛛爬行抓取的地址库和文件存储
链接URL：/news25/145525.html

成都网站建设公司_创新互联，为您提供网页设计公司、微信小程序、虚拟主机、网站设计、Google、标签优化

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容

改善网络营销推广方案——推广概况 2022-04-12
做好百度优化，除外链建设之外，如何在内部网站上面下功夫？ 2022-04-12
新闻动态企业网站文化价值内容 2022-04-11
【SEO优化】为什么要和高质量网站交换友情链接?都有哪些好处? 2022-04-11