robots协议robot协议是谁发明的?为什么不允许蜘蛛来

robots协议  时间:2021-07-12  阅读:()

网络爬虫必须遵守robot协议吗

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。

这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。

你说的这个情况应该是网站对搜索引擎做了一定的限制了。

比如:限制某个浏览器或者全部浏览器不能抓取整个网站,或者是限制某个浏览器或者所有浏览器不能抓取某个特定的页面。

robot协议是谁发明的?为什么不允许蜘蛛来

robots.txt并不是某一个公司制定的,而是早在20世纪93、94年就早已出现,当时还没有Google。

真实Robots协议的起源,是在互联网从业人员的公开邮件组里面讨论并且诞生的。

即便是今天,互联网领域的相关问题也仍然是在一些专门的邮件组中讨论,并产生(主要是在美国)。

1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即robots.txt协议。

在此之前,相关人员一直在起草这份文档,并在世界互联网技术邮件组发布后,这一协议被几乎所有的搜索引擎采用,包括最早的altavista,infoseek,后来的google,bing,以及中国的百度,搜搜,搜狗等公司也相继采用并严格遵循。

不允许蜘蛛来抓取的情况有很多,比如某个网站不靠搜索引擎导入流量,就可以通过robots.txt协议禁止搜索引擎抓取,因为搜索引擎频繁抓取页面会占用服务器的带宽,影响服务器性能;再比如会员登录后才能看到的内容、重复内容、程序文件等等都需要通过robots.txt文件来禁止搜索引擎抓取,一方面可以节约带宽,另一方面可以对搜索引擎友好。





CloudCone月付$48,MC机房可小时付费

CloudCone商家在前面的文章中也有多次介绍,他们家的VPS主机还是蛮有特点的,和我们熟悉的DO、Linode、VuLTR商家很相似可以采用小时时间计费,如果我们不满意且不需要可以删除机器,这样就不扣费,如果希望用的时候再开通。唯独比较吐槽的就是他们家的产品太过于单一,一来是只有云服务器,而且是机房就唯一的MC机房。CloudCone 这次四周年促销活动期间,商家有新增独立服务器业务。同样的C...

iON Cloud:新加坡cn2 gia vps/1核/2G内存/25G SSD/250G流量/10M带宽,$35/月

iON Cloud怎么样?iON Cloud升级了新加坡CN2 VPS的带宽和流量最低配的原先带宽5M现在升级为10M,流量也从原先的150G升级为250G。注意,流量也仅计算出站方向。iON Cloud是Krypt旗下的云服务器品牌,成立于2019年,是美国老牌机房(1998~)krypt旗下的VPS云服务器品牌,主打国外VPS云服务器业务,均采用KVM架构,整体性能配置较高,云服务器产品质量靠...

易探云服务器怎么过户/转让?云服务器PUSH实操步骤

易探云服务器怎么过户/转让?易探云支持云服务器PUSH功能,该功能可将云服务器过户给指定用户。可带价PUSH,收到PUSH请求的用户在接收云服务器的同时,系统会扣除接收方的款项,同时扣除相关手续费,然后将款项打到发送方的账户下。易探云“PUSH服务器”的这一功能,可以让用户将闲置云服务器转让给更多需要购买的用户!易探云服务器怎么过户/PUSH?1.PUSH双方必须为认证用户:2.买家未接收前,卖家...

robots协议为你推荐
g2g吉他的效果器的名称是什么意思?(G1G,G2G等等)wmiprvsewmiprvse.exe能禁用吗开票系统怎样开普通发票系统附清单fclose为什么fclose之后remove还是不成功md5值哈希值 散列值 MD5值 都是什么意思啊策略组电脑组策略详解空白代码html空格代码怎么写oracle索引oracle表加索引有什么用? 请举一个例子说明谢谢网关和路由器的区别网关和路由器的区别是什么deviceid怎么能知道安卓系统手机的DEVICE ID?
哈尔滨域名注册 免费cn域名 阿里云邮箱登陆首页 gitcafe 创宇云 轻量 镇江联通宽带 牛人与腾讯客服对话 嘟牛 华为4核 国外免费全能空间 jsp空间 91vps 稳定免费空间 福建铁通 idc查询 shopex主机 空间首页登陆 阿里云官方网站 服务器防御 更多