首页重庆seo服务 › 什么是robots?robots的作用和写法

什么是robots?robots的作用和写法

欢迎来到重庆seo优化技巧学习分享博客。上篇文章回顾,我们学习了什么是广告联盟?广告联盟呈现形式有哪些?接下来我们一起来学习robots.txt

1.什么是robots.txt

robots.txt它是一个文本的文件,是一种存放于网站根目录下的文本文件,它通常会告诉搜索引擎的抓取程序(又称网络爬虫或蜘蛛),这个网站中有哪些内容不应该被搜索引擎的抓取程序获取的,又有哪些是可以被抓取程序获取的。

网站根目录一般指的是存放我们网站的一个目录,不同的空间他的网站根目录都是不一样的,这个一般买空间的时候空间提供商都会有说明的,如果不知道就去咨询你的空间提供商。

robots.txt这个robots必须是要小写的,这是跟网络蜘蛛建立的一个协议,网络蜘蛛来你的网站的时候第一会去看的就是你网站根目录的robots.txt协议文件,它会根据你的规定来进行抓取,但是有些傲娇的网络蜘蛛它不遵循规则,一般网络蜘蛛都会会遵循的,要是你网站根目录没有这个文件的话网络蜘蛛就会沿着我们网站上面的链接一个一个进行抓取。

robots.txt

2.robots.txt的作用

(1)它可以引导搜索引擎的蜘蛛抓取指定的栏目或者是内容。相当于你去一个陌生的城市,有人给你带路一样。

(2)当我们网站改版或者是URL重写优化时屏蔽不好的链接。不到万不得已千万不要进行网站改版,这个对网站伤害很大的,会引起降权或者是排名收录全掉。

(3)可以屏蔽死链接和404错误页面。随着网站壮大,死链接和404错误页面是在所难免的。

(4)屏蔽那些无内容和无价值的页面。

(5)屏蔽重复页面,比如说评论页、搜索结果页。

(6)屏蔽任何不想被收录的页面。

(7)引导蜘蛛来抓取网站地图。让蜘蛛更快速来爬取我们网站的链接。

3.robots.txt的语法

3个语法:

(1)User-agent:(定义搜索引擎)。User-agent:*(是所有搜索引擎都可以抓取)。如果你只想让百度蜘蛛抓取的话就可以这样写User-agent:Baiduspide。不同的搜索引擎的搜索机器人有不要的名称,百度:Baiduspide、谷歌:Googlebot、好搜:360spider

(2)Disallow: (定义蜘蛛抓取的页面或目录)。Disallow: /(就是禁止所有蜘蛛不能抓取任何页面)。Disallow:/admin(禁止蜘蛛抓取admin目录)。Disallow:/abc.html(禁止蜘蛛爬取abc.html页面)。

(3)Allow:(定义允许蜘蛛来爬取的页面或子目录)。Allow:/admin/test(允许蜘蛛爬取admin下的test目录)。Allow:/admin/abc.html(允许蜘蛛爬取admin目录中的abc.html页面)

2个通配符

(1)匹配符”$“(匹配URL结尾的字符)就是只要是我们在这里不允许或者是允许某一个页面都需要在结尾写上一个$符号,就告诉搜索引擎这个一个URL结尾的页面或者文件。

(2)通配符”*“(匹配0或多个任意字符)User-agent:*Disallow:/*?*Disallow:/*.png$

如果我们网站页面所有都可以让搜索引擎来抓取的话就可以写一个空的文件,通用的robots.txt文件:

User-agent: *
Disallow:

这样就是所有搜索引擎蜘蛛可以抓取任意页面。

看完思考:robots.txt文件是用来干嘛的?

转载本站文章请注明出处:什么是robots?robots的作用和写法

文章出自:黄楼seo

上一篇:

下一篇:


博主精心推荐:
阿里云服务器(ECS) 阿里云精品网站模版 阿里云DDoS高防IP 阿里云服务器30元/月

公安备案图标渝公网安备 50010802001971号 网站地图 重庆seo
×
用户注册

 

登录 忘记密码?
×
用户登录

 

注册 忘记密码?
×
订阅图标按钮