robots协议robot协议是谁发明的?为什么不允许蜘蛛来

robots协议  时间:2021-07-12  阅读:()

网络爬虫必须遵守robot协议吗

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。

这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。

你说的这个情况应该是网站对搜索引擎做了一定的限制了。

比如:限制某个浏览器或者全部浏览器不能抓取整个网站,或者是限制某个浏览器或者所有浏览器不能抓取某个特定的页面。

robot协议是谁发明的?为什么不允许蜘蛛来

robots.txt并不是某一个公司制定的,而是早在20世纪93、94年就早已出现,当时还没有Google。

真实Robots协议的起源,是在互联网从业人员的公开邮件组里面讨论并且诞生的。

即便是今天,互联网领域的相关问题也仍然是在一些专门的邮件组中讨论,并产生(主要是在美国)。

1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即robots.txt协议。

在此之前,相关人员一直在起草这份文档,并在世界互联网技术邮件组发布后,这一协议被几乎所有的搜索引擎采用,包括最早的altavista,infoseek,后来的google,bing,以及中国的百度,搜搜,搜狗等公司也相继采用并严格遵循。

不允许蜘蛛来抓取的情况有很多,比如某个网站不靠搜索引擎导入流量,就可以通过robots.txt协议禁止搜索引擎抓取,因为搜索引擎频繁抓取页面会占用服务器的带宽,影响服务器性能;再比如会员登录后才能看到的内容、重复内容、程序文件等等都需要通过robots.txt文件来禁止搜索引擎抓取,一方面可以节约带宽,另一方面可以对搜索引擎友好。





易探云:香港CN2云服务器低至18元/月起,183.60元/年

易探云怎么样?易探云最早是主攻香港云服务器的品牌商家,由于之前香港云服务器性价比高、稳定性不错获得了不少用户的支持。易探云推出大量香港云服务器,采用BGP、CN2线路,机房有香港九龙、香港新界、香港沙田、香港葵湾等,香港1核1G低至18元/月,183.60元/年,老站长建站推荐香港2核4G5M+10G数据盘仅799元/年,性价比超强,关键是延迟全球为50ms左右,适合国内境外外贸行业网站等,如果需...

特网云-新上线香港五区补货资源充足限时抢 虚拟主机6折,低至38元!

官方网站:点击访问特网云官网活动方案:===========================香港云限时购==============================支持Linux和Windows操作系统,配置都是可以自选的,非常的灵活,宽带充足新老客户活动期间新购活动款产品都可以享受续费折扣(只限在活动期间购买活动款产品才可享受续费折扣 优惠码:AADE01),购买折扣与续费折扣不叠加,都是在原价...

华圣云 HuaSaint-阿里云国际站一级分销商,只需一个邮箱即可注册国际账号,可代充值

简介华圣云 HuaSaint是阿里云国际版一级分销商(诚招募二级代理),专业为全球企业客户与个人开发者提供阿里云国际版开户注册、认证、充值等服务,通过HuaSaint开通阿里云国际版只需要一个邮箱,不需要PayPal信用卡,不需要买海外电话卡,绝对的零门槛,零风险官方网站:www.huasaint.com企业名:huaSaint Tech Limited阿里云国际版都有什么优势?阿里云国际版的产品...

robots协议为你推荐
ioeIOE是什么意思图片地址怎么获得图片地址wmiprvsewmiprvse云图片华为手机的云照片怎么不见了怎么办qq注册账号用QQ注册有几种方法?图片存储怎么把存图片存储另一种方式?优众网瑞达恒慧讯网是做什么的?中科红旗北京中科红旗软件技术有限公司的介绍基础设施即服务城市基础设施、公共服务设施、市政设施有什么区别?疫苗之王被称为免疫之王的产品
老域名 vps租用 如何注销域名备案 最便宜虚拟主机 注册cn域名 国内免备案主机 stablehost 老鹰主机 息壤备案 hawkhost优惠码 ix主机 博客主机 私人服务器 163网 服务器日志分析 win8升级win10正式版 免费mysql howfile 宁波服务器 169邮箱 更多