【官方说法】全面解读 BaiduSpider 与站点死链
来源:百度站长平台
从最近几周收到的提问看,大家对死链越来越关注,毕竟死链直接关系到网站的抓取收录和流量转化。于是我们整合了学院之前的内容,又专门对 Baiduspider 工程师进行了咨询,给大家一个完整的系列答复。
问:robots 屏蔽对阻止百度抓取死链是否有效?
答:当然有效,百度严格遵守 robots 协议,若发现百度依然抓取,先确认是否为 Baiduspider,若确认,可以通过反馈中心进行投诉。
如何判断疯狂抓我们网站内容的蜘蛛是不是百度的?其实站长可以通过 DNS 反查 IP 的方式判断某只 spider 是否来自百度搜索引擎。根据平台不同验证方法不同,如 linux/windows/os 三种平台下的验证方法分别如下:
1、在 linux 平台下,您可以使用 host ip 命令反解 ip 来判断是否来自 Baiduspider 的抓取。Baiduspider 的
hostname 以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
2、在 windows 平台或者 IBM OS/2 平台下,您可以使用 nslookup ip 命令反解 ip 来 判断是否来自 Baiduspider 的抓取。打开命令处理器 输入 nslookup xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 来判断是否来自Baiduspider 的抓取,Baiduspider 的 hostname 以*.baidu.com 或*.baidu.jp 的格式命名,
非 *.baidu.com 或 *.baidu.jp 即为冒充。
3、 在 mac os 平台下,您可以使用 dig 命令反解 ip 来 判断是否来自 Baiduspider 的抓取。打开命令处理器 输入 dig xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 来判断是否来自 Baiduspider 的抓取,Baiduspider 的hostname 以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
问:已被百度抓取的死链,可以通过 robots 屏蔽的方式让百度删除吗?
答:不建议你这样做,最快最有效的方法是通过百度站长平台死链提交工具进行处理。
问:我已经通过死链工具进行提交了,可是通过日志发现百度还是在抓我们的死链
答:您提交规则后,spider 为了验证链接是否真的死掉,需要抓一部分回来验证。
问:百度对死链的抓取,对正常文章抓取的影响会有多大?
答:这个没有统一的标准,如果你没有设置 robots 也没有向百度提交,死链量还特别巨大的时候,有可能会占用你网站大量抓取配额,导致正常内容无法抓取。如果仅仅是 spider 为了验证死链规则抓一部分,那么对正常内容不会造成影响。
问:百度对死链的要求是什么?怎么设置死链效果最好?
答:目前百度支持协议死链、内容死链和跳转死链,其中效果最好的是协议死链。
问:百度站长平台是否有工具帮助我们发现网站内的未知死链?
答:可以通过链接分析工具中的死链分析功能,还有抓取异常工具进行发现分析。
发表评论 取消回复