当前位置:首页 > 技术资料

百度快照优化站点爬虫联通率低

1、 观察百度爬虫爬行网站的时间点的访问日志,观察web服务日志是否有问题。

2、议用户使用阿里云监控,监控系统负载,网络带宽使用率。观察系统负载以及网络带宽是否正常,如果偏高建议用户升级ECS服务器配置。

3、建议用户使用阿里云监控,监测网站的可用性的。

4、使用百度站长工具了解网站的连通率:

A. 利用抓取异常、抓取频次工具观察抓取情况

QQ???20150309180404.png

注:每个工具页面的右侧下方都有使用说明可以了解,如下:

QQ???20150309180114.png

QQ???20150309180122.png

B. 利用抓取诊断工具观察抓取情况

QQ???20150309180605.png

为了保证网站对百度蜘蛛的稳定访问性能,日常需要养成定期抓取诊断的习惯,另外抓取诊断不是说光看看状态是否“抓取成功”就行了。有下面几步进行:

A. 下拉选择分”pc”、 ”移动”进行抓取,”pc”意味着一般意义上的电脑端访问诊断,”移动”则是如手机、平板等移动设备端访问诊断。

B. 网站主要的引流页,如首页、详情页、内容页、专题页等都要进行抓取,另外可以重点几个时间段(比如网站高峰时间段)每天定期进行测试。

C. 抓取失败了,点击”抓取失败”查看提示信息,如果自己没有技术能力解决问题,可以跟空间商进行沟通,然后向工具提交报错。

QQ???20150309184107.png

D. 抓取成功后,也不能说就万事大吉了,还要点击”抓取成功”进去注意:提交网址、抓取网址、抓取UA、网站ip、下载时长、头部信息(服务器返回状态码、gzip等相关信息)、网页源码是否都正常。

QQ???20150312100706.png

特别说明:有很多站长就光注意抓取成功,却不知网站ip可能并非自己的实际ip,还可能每隔一段时间都变。当发现ip有问题,及时跟网络商沟通,并在网站ip旁点击“报错”按钮,百度会更新网站ip,但是切记不要ip变化频繁。此外当然还可能出现实际抓取网址、头部信息、网页源码等都不是自己本来设置的。

5. 测试抓取成功并能打开,这里主要注意DNS和空间的稳定性。

A. DNS的问题

--------下方为百度官方资料-------------
当心dns服务器不稳导致站点被屏
近期百度站长平台收到多个反馈,称网站从百度网页搜索消失,site查询发现连通率为0。
经追查发现这些网站都使用godaddy的DNS服务器 *.DOMAINCONTROL.COM,此系列DNS服务器存在稳定性问题,Baiduspider经常解析不到ip,在Baiduspider看来,网站是死站点。
此前我们也发现过多起小dns服务商屏蔽Baiduspider解析请求或者国外dns服务器不稳定的案例。
建议站长尽可能使用国内大型服务商提供的DNS服务,如dnspod等,以保证站点的稳定解析。
--------上方为百度官方资料-------------

B. 空间的稳定性

空间的资源不足,内存、并发连接等等,当访问量很少的时候,用户察觉不出,当用户量高流量大时候出现网站打开异常会导致时,建议用户使用云监控监控网站打开延迟以及ECS服务器性能监控,了解服务器的性能异常及时调整服务器状态。

6. 建议用户与百度收录取得联系,询问下这边连通率的问题的QQ???20150312102448.png


相关信息