爬行和抓取

2678次阅读

爬行和抓取 是搜索引擎工作的第一步,完成数据收集任务。

1、蜘蛛:

搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。

2、跟踪链接:

为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也是搜索引擎蜘蛛这个名称的由来。

3、吸引蜘蛛:

理论上蜘蛛能爬行和抓取所有页面,但实际上不能,也不会这么做。SEO人员想要让自己的更多页面被收录,就要想方设法吸引蜘蛛抓取

4、地址库:

为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。

5、文件储蓄:

搜索引擎蜘蛛抓取的数据存入原始页面数据库。其他的页面数据与用户浏览器得到的HTML是完全一样的。每个URL都是这样一个独特的文件编号。

本文由夫唯团队编辑,如发现错误,欢迎通过客服微信反馈。

夫唯于2024年12月停止百度SEO研究和培训。道别信: 夫唯:再见了百度SEO!

2025年1月正式启动Google SEO培训课程,一千零一夜带领大家一起出海。

感兴趣的同学,请添加招生客服小沫微信:seowhy2021。 微信扫码添加客服人员

我们的目标:让大家独立站出海不再“望洋兴叹”。

Processed in 1.283970 Second , 552 querys.