spidertxt在网站中的robots.txt是用来干什么的哦?对网站有什么影响啊?

spidertxt  时间:2021-01-07  阅读:()

robots.txt如何设置只能抓取目录下页面

在学习 seo 的过程中,robots.txt 的撰写是不可避免的,但是众多新手并不知道如何写 robots.txt,甚至连什么是 robots.txt 都不知道,我在刚开始的时候也是没有怎么认真写,我 们广州 seo 咨询室就写了一个空的 robots.txt 文件,现在想想,对它的研究是少了点,毕竟 robots.txt 文件对一个网站的收录和排名还是有很大的帮助的,写好了,就等于你牵着 se 的 鼻子走。

那什么是 robots.txt 呢 放在网站根目录,用于指定搜索引擎蜘蛛 spider 在您网站上的抓取范围的一个 txt 纯文本文 件,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部 分。

搜索引擎使用 spider 程序自动访问互联网上的网页并获取网页信息,spider 在访问一个 网站时,根据蜘蛛的工作原理,会首先检查该网站的根域下是否有一个叫做 robots.txt 的纯 文本文件。

而这个文件就是 robots.Txt 文件。

如何写 robots.Txt 文件 首先清楚它的格式: User-agent Disallow 其中 user 翻译过来是用户,agent 翻译过来是代理人,从语法学出发,user-agent 翻译过来是 施事者,意思就是针对“: ”后面的“” ,其中“”表示为对所有对象(仅代表蜘蛛)有效,但 如果要针对某个对象,必须是搜索引擎的蜘蛛,Baiduspider,Googlebot 或者其他 se 蜘蛛。

Disallow 翻译过来是不允许,可以写成 allow。

后面的“”表示所有文件,如果是某个文件 夹,则要表示为“文件夹 1” ,如: User-agent Baiduspider Disallow 则意思为,针对百度蜘蛛,不允许所有文件。

再如: User-agent Disallow cgi-bin Disallow tmp Disallow ~joe 这个意思则为针对搜索对象,不允许蜘蛛访问 cgi-bin,tmp,~joe 三个文件夹,但是值得注意 的是不能写成”Disallow cgi-bin tmp” 。

其他的例子还有: 1、禁止所有搜索引擎访问网站的任何部分: User-agent Disallow 2、允许所有的 robot 访问 User-agent Disallow 或者 User-agent Allow 注意,最直接的可以建一个空文件 “robots.txt” 3、仅允许 Baiduspider 访问您的网站 User-agent Baiduspider allow 或者: User-agent Baiduspider Disallow disallow:后面不写任何东西,则表示为空,意思为针对针百度蜘蛛,不允许文件为空,则 整体意思是仅允许 Baiduspider 访问该网站。

4、允许访问特定目录中的部分 url User-agent Allow cgi-binsee Allow tmphi Allow ~joelook Disallow cgi-bin Disallow tmp Disallow ~joe 5、使用” ”限制访问 url User-agent Disallow cgi-bin.htm 意为禁止访问 cgi-bin 目录下的所有以”.htm”为后缀的 URL(包含子目录)。

6、使用”$”限制访问 url User-agent Allow .htm$ Disallow 意为仅允许访问以”.htm”为后缀的 URL 7、禁止访问网站中所有的动态页面 User-agent Disallow 8、禁止 Baiduspider 抓取网站上所有图片 User-agent Baiduspider Disallow .jpg$ Disallow .jpeg$ Disallow .gif$ Disallow .png$ Disallow .bmp$ 意为仅允许抓取网页,禁止抓取任何图片 9、仅允许 Baiduspider 抓取网页和.gif 格式图片 User-agent Baiduspider Allow .gif$ Disallow .jpg$ Disallow .jpeg$ Disallow .png$ Disallow .bmp$ 意为允许抓取网页和 gif 格式图片,不允许抓取其他格式图片 10、仅禁止 Baiduspider 抓取.jpg 格式图片 User-agent Baiduspider Disallow .jpg$ 新手在学习 seo 的时候没有必要写这么详细的 robots.txt 文件,把主要的写出来就可以了, 如果写的不好还会得到不好的效果,上述的例子比较齐全,新手要认真的看,把思路理清, 整合一个适合自己网站的文件,熟悉之后就能使用到多个网站了。

朋友嬉 2012-7-22 下午 11:49:37

robotx.txt怎么写?对网站优化有什么好处

下面把robots.txt正确写法分享给大家! 我们先来了解一下什么是robots.txt? 搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。

spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。

您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。

请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。

如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件或者创建一个内容为空的robots.txt文件。

robots.txt 放置位置 robots.txt文件应该放置在网站根目录下。

举例来说,当spider访问一个网站(比如)时,首先会检查该网站中是否存在/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

robots.txt 格式 文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:”:”。

在该文件中可以使用#进行注解。

该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下。

User-agent: 该项的值用于描述搜索引擎robot的名字。

在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。

如果该项的值设为*,则对任何robot均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。

如果在”robots.txt”文件中,加入”User- agent:SomeBot”和若干Disallow、Allow行,那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。

Disallow: 该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问。

例 如”Disallow: /help”禁止robot访问/help*.html、/help/index.html, 而”Disallow: /help/”则允许robot访问/help*.html,不能访问/help/index.html。

"Disallow:"说明允许robot访问该网站的所有url,在”/robots.txt”文件中,至少要有一条Disallow记录。

如果”/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow: 该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。

例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/.html、 /.html。

一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的 Allow或Disallow行确定是否访问某个URL。

使用”*”和”$”: Baiduspider 支持使用通配符”*”和”$”来模糊匹配url。

“$” 匹配行结束符。

“*” 匹配0或多个任意字符。

robots.txt文件用法举例: 1. 允许所有的robot访问 User-agent: * Allow: / 或者 User-agent: * Disallow: 2. 禁止所有搜索引擎访问网站的任何部分 User-agent: * Disallow: / 3. 仅禁止Baiduspider访问您的网站 User-agent: Baiduspider Disallow: / 4. 仅允许Baiduspider访问您的网站 User-agent: Baiduspider Disallow: 5. 禁止spider访问特定目录 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ 6. 允许访问特定目录中的部分url User-agent: * Allow: /cgi-bin/see Allow: /tmp/hi Allow: /~joe/look Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ 7. 使用”*”限制访问url 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

User-agent: * Disallow: /cgi-bin/*.htm 8. 使用”$”限制访问url 仅允许访问以”.htm”为后缀的URL。

User-agent: * Allow: .htm$ Disallow: / 例9. 禁止访问网站中所有的动态页面 User-agent: * Disallow: /*?* 10. 禁止Baiduspider抓取网站上所有图片 仅允许抓取网页,禁止抓取任何图片。

User-agent: Baiduspider Disallow: .jpg$ Disallow: .jpeg$ Disallow: .gif$ Disallow: .png$ Disallow: .bmp$ 11. 仅允许Baiduspider抓取网页和.gif格式图片 允许抓取网页和gif格式图片,不允许抓取其他格式图片 User-agent: Baiduspider Allow: .gif$ Disallow: .jpg$ Disallow: .jpeg$ Disallow: .png$ Disallow: .bmp$ 12. 仅禁止Baiduspider抓取.jpg格式图片 User-agent: Baiduspider Disallow: .jpg$ 一般这个在网站未上线前使用,等网站做好之后 就把这个协议去掉了,便于搜索引擎的抓取。

在网站中的robots.txt是用来干什么的哦?对网站有什么影响啊?

本文我们将看一看机器人拒绝标准(Robots Exclusion Standard),这听起来像是科幻小说里的内容,其实它是一个用于阻止搜索引擎者蜘蛛(spider)或机器人(robots)访问网站内容的一个工具。

Robots.txt是一个纯文本文件,通过该文件可以控制搜索引擎蜘蛛(spider)访问网站的内容,必须将其放在网站的根目录才可以正常使用,且文件名应该为小写,比如“/robots.txt”,即使您的网站没有设置对搜索引擎访问的限制,最好也能放一个空白的robots.txt文件在网站根目录下。

创建一个Robots.txt 如果不希望任何机器人(robots)或者蜘蛛(spider)索引网站,可以在Robots.txt里键入如下规则: User-agent: * Disallow: / 在这个例子中,"*"是个通配符,表示此规则被应用到所有的搜索引擎(Search Engine),此通配符是 一个特殊的符号表示一切内容,一个典型的用法:如果键入 “d*ng” ,则计算机可以解释为: “ding”,"dang","dong","dung","dzing" 等更多的内容会符合。

Disallow表示不允许被搜索引擎访问的网页文件或者目录,对它的设置正确与否非常重要,如果设置 不当,也许会对网站造成极大的损失。

如果允许搜索引擎蜘蛛(spider)访问网站的全部内容,则设置方法如下: User-agent: * Disallow: 以上设置方法中,User-agent仍然是使用通配符*表示所有搜索引擎蜘蛛,Disallow为空表示允许搜索 引擎蜘蛛访问网站所有的文件,即不对搜索引擎做任何限制,完全敞开了让蜘蛛们任意访问。

如果让所有搜索引擎机器人不访问和索引网站根目录下的images目录,则可以使用如下写法: User-agent: * Disallow: /images/ 上面的例子表示让所有搜索引擎蜘蛛远离/images/目录及目录下所有的文件。

注意/images/后的“/” ,如果是/images的话,则比如/images.html , /images/index.html都不允许搜索引擎蜘蛛访问。

如果不允许搜索引擎蜘蛛访问指定的一个文件,则设置方法如下: User-agent: * Disallow: /images/biggorillaonatricycle.jpg 这时搜索引擎蜘蛛会扫描访问除了images目录下biggorillaonatricycle.jpg的所有文件,但是如果其 它目录比如imagestwo下有biggorillaonatricycle.jpg这张图片的话,那么搜索引擎蜘蛛一样会访问 到,因此我们可以使用如下设置方法: User-agent: * Disallow: /images/biggorillaonatricycle.jpg Disallow: /imagestwo/biggorillaonatricycle.jpg 下面的设置方法也不错: User-agent: * Disallow: /images/ Disallow: /imagestwo/ Disallow: /aboutus/ 上面例子告诉搜索引擎蜘蛛忽视指定的三个目录,但是也可以同时指定目录和文件: User-agent: * Disallow: /images/ Disallow: /imagestwo/ Disallow: /aboutus/wearereallyevil.html 限制指定的搜索引擎蜘蛛(spider)/机器人(Robots) 之前说到如何限制搜索引擎蜘蛛访问网站文件,下面开始如何限制指定的搜索引擎蜘蛛访问网站文件 。

如果想告诉某一个搜索引擎蜘蛛忽视网站的所有目录和文件,则使用如下设置方法: User-agent: Google-Bot Disallow: / Google-Bot表示为Google的搜索引擎蜘蛛/机器人 slurp 表示为Yahoo的搜索引擎蜘蛛/机器人 当然也可以告诉一个指定的搜索引擎蜘蛛,忽视网站的一个指定目录和文件,设置方法如下: User-agent: Google-Bot Disallow: /images/ Disallow: /secrets/globaldomination.html User-agent: slurp Disallow: /images/ Disallow: /secrets/globaldomination.html Disallow: /tmp/ User-agent: slurp Disallow: /images/ Disallow: /secrets/globaldomination.html User-agent: Google-Bot Disallow: /images/ Disallow: /secrets/globaldomination.html Disallow: /cgi-bin/ 参考资料:/index.php/archives/9/ 来自:

腾讯云轻量应用服务器关于多个实例套餐带宽

腾讯云轻量应用服务器又要免费升级配置了,之前已经免费升级过一次了(腾讯云轻量应用服务器套餐配置升级 轻量老用户专享免费升配!),这次在上次的基础上再次升级。也许这就是良心云吧,名不虚传。腾讯云怎么样?腾讯云好不好。腾讯云轻量应用服务器 Lighthouse 是一种易于使用和管理、适合承载轻量级业务负载的云服务器,能帮助个人和企业在云端快速构建网站、博客、电商、论坛等各类应用以及开发测试环境,并提供...

弘速云香港VPSVPS线路有CN2+BGP、CN2 GIA,KVM虚拟化架构,裸金属月付564元

弘速云怎么样?弘速云是创建于2021年的品牌,运营该品牌的公司HOSU LIMITED(中文名称弘速科技有限公司)公司成立于2021年国内公司注册于2019年。HOSU LIMITED主要从事出售香港vps、美国VPS、香港独立服务器、香港站群服务器等,目前在售VPS线路有CN2+BGP、CN2 GIA,该公司旗下产品均采用KVM虚拟化架构。可联系商家代安装iso系统。点击进入:弘速云官方网站地址...

hostyun评测香港原生IPVPS

hostyun新上了香港cloudie机房的香港原生IP的VPS,写的是默认接入200Mbps带宽(共享),基于KVM虚拟,纯SSD RAID10,三网直连,混合超售的CN2网络,商家对VPS的I/O有大致100MB/S的限制。由于是原生香港IP,所以这个VPS还是有一定的看头的,这里给大家弄个测评,数据仅供参考!9折优惠码:hostyun,循环优惠内存CPUSSD流量带宽价格购买1G1核10G3...

spidertxt为你推荐
海贼王644海贼王第644集在哪看火影忍者644集火影忍者佩恩施放地爆天星的是哪几集 说出前后几集、集数、片名 谢谢了!软银收购arm就只买苹果手机是崇洋媚外吗非主流桌面背景图片给我找几张好看的桌面图片??涡轮增压和自然吸气哪个好发动机涡轮增压好还是自然吸气好手机音乐播放器哪个好手机哪个音乐播放器的音质更好?网页传奇哪个好玩哪个传奇类网页游戏即好玩又不花钱??红茶和绿茶哪个好红茶和绿茶 那个更好电动牙刷哪个好有人懂电动牙刷吗?飞利浦的好用还是欧乐B好用百度空间登录百度空间怎么登陆
apache虚拟主机 域名中介 域名转让 谷歌域名邮箱 美国主机排名 域名商 sharktech 大硬盘 美国翻墙 blackfriday vmsnap3 softbank官网 搜狗12306抢票助手 铁通流量查询 vip购优惠 双线机房 阵亡将士纪念日 创速 免费赚q币 服务器是什么意思 更多