什么是百度spider?
百度spider是百度搜索引擎的自动程序,主要是访问互联网上的网页,建立索引数据库,让用户在百度搜索引擎中能访问到你的网站。
百度spider遇到的问题有哪些?
1、为什么spider一直抓取网站?
答:如果你的网站上不断的产生新的页面,spider就会持续的抓取。可以通过观察网络日志spider访问是否正常,会出现恶意冒充spider来抓取网站,如果发现异常,可以在百度搜索资源平台反馈中心反馈。
2、网站上某些页面不想被spider访问,要怎么处理?
答:网站不想被spider抓取的页面,可以利用robots.txt文件禁止spider访问。
3、网站已经加了robots.txt,为什么还能在百度搜索出来?
答:搜索引擎索引数据库更新需要时间。虽然网站上设置了robots.txt禁止spider访问,但在百度搜索引擎数据库中已经建立的网页索引信息,短时间内不能快速清除的,也可以检查robots设置是否正确。
4、网站的内容只想被百度索引,不想被快照保存。
答:可以使用meta robots协议。在网页中设置meta,百度显示只对该网页建索引,不会在搜索结果中显示网页快照。
5、为什么spider抓取会造成宽带堵塞?
答:正常抓取的情况下是不会造成宽带堵塞的现象,除非是有人冒充spider抓取网站。如果遇到这类现象,提供网站该时段的访问日志给百度搜索资源平台反馈中心。
百度spider会遇到的问题总结了以上五点,问题是源源不断的,后续还会继续给大家总结更多的问题以及解决方案。
阅读本文的人还可以阅读: