robots协议robot协议是谁发明的?为什么不允许蜘蛛来

robots协议  时间:2021-07-12  阅读:()

网络爬虫必须遵守robot协议吗

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。

这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。

你说的这个情况应该是网站对搜索引擎做了一定的限制了。

比如:限制某个浏览器或者全部浏览器不能抓取整个网站,或者是限制某个浏览器或者所有浏览器不能抓取某个特定的页面。

robot协议是谁发明的?为什么不允许蜘蛛来

robots.txt并不是某一个公司制定的,而是早在20世纪93、94年就早已出现,当时还没有Google。

真实Robots协议的起源,是在互联网从业人员的公开邮件组里面讨论并且诞生的。

即便是今天,互联网领域的相关问题也仍然是在一些专门的邮件组中讨论,并产生(主要是在美国)。

1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即robots.txt协议。

在此之前,相关人员一直在起草这份文档,并在世界互联网技术邮件组发布后,这一协议被几乎所有的搜索引擎采用,包括最早的altavista,infoseek,后来的google,bing,以及中国的百度,搜搜,搜狗等公司也相继采用并严格遵循。

不允许蜘蛛来抓取的情况有很多,比如某个网站不靠搜索引擎导入流量,就可以通过robots.txt协议禁止搜索引擎抓取,因为搜索引擎频繁抓取页面会占用服务器的带宽,影响服务器性能;再比如会员登录后才能看到的内容、重复内容、程序文件等等都需要通过robots.txt文件来禁止搜索引擎抓取,一方面可以节约带宽,另一方面可以对搜索引擎友好。





LightNode(7.71美元),免认证高质量香港CN2 GIA

LightNode是一家位于香港的VPS服务商.提供基于KVM虚拟化技术的VPS.在提供全球常见节点的同时,还具备东南亚地区、中国香港等边缘节点.满足开发者建站,游戏应用,外贸电商等应用场景的需求。新用户注册充值就送,最高可获得20美元的奖励金!成为LightNode的注册用户后,还可以获得属于自己的邀请链接。通过你的邀请链接带来的注册用户,你将直接获得该用户的消费的10%返佣,永久有效!平台目前...

阿里云秋季促销活动 轻量云服务器2G5M配置新购年60元

已经有一段时间没有分享阿里云服务商的促销活动,主要原因在于他们以前的促销都仅限新用户,而且我们大部分人都已经有过账户基本上促销活动和我们无缘。即便老用户可选新产品购买,也是比较配置较高的,所以就懒得分享。这不看到有阿里云金秋活动,有不错的促销活动可以允许产品新购。即便我们是老用户,但是比如你没有购买过他们轻量服务器,也是可以享受优惠活动的。这次轻量服务器在金秋活动中力度折扣比较大,2G5M配置年付...

NameCheap 2021年新年首次活动 域名 域名邮局 SSL证书等

NameCheap商家如今发布促销活动也是有不小套路的,比如会在提前一周+的时间告诉你他们未来的活,比如这次2021年的首次活动就有在一周之前看到,但是这不等到他们中午一点左右的时候才有正式开始,而且我确实是有需要注册域名,等着看看是否有真的折扣,但是实际上.COM域名力度也就一般需要51元左右,其他地方也就55元左右。当然,这次新年的首次活动不管如何肯定是比平时便宜一点点的。有新注册域名、企业域...

robots协议为你推荐
showwindowVB6.0中ShowWindow函数的使用数秦科技天津数沃科技公司怎么样?待遇和发展如何?有人知道么?清除电脑垃圾怎样清除电脑里的垃圾新手怎么制作表格我是初学者、电脑上怎么制作表格新手怎么制作表格怎么制作表格?银联商务招聘急问银联商务的客服待遇如何啊?疫苗之王被称为免疫之王的产品文件系统类型常见的文件类型有哪几种?文件系统类型文件系统的类型是 NTFS。无法决定卷版本和状态。CHKDSK 被终止?网络管理员教程如何自学成为网络管理员?
fc2新域名 工信部域名备案 3322动态域名 国内免备案主机 vultr美国与日本 koss 鲜果阅读 北京双线 泉州移动 1g空间 linux使用教程 in域名 域名dns starry lamp怎么读 摩尔庄园注册 金主 杭州电信 cdn服务 asp空间 更多