您好,游客注册登录繁體
有问题找尘埃 SEO教程学习群
首页 >> SEO高级教程 >> 怎么写网站的robots.txt

怎么写网站的robots.txt

福建SEO 2016-04-21 0
浏览次数182

robots.txt是什么呢?robots可以认为是网站和搜索引擎之间的一个协议,通常存在与网站根目录下,是以txt结尾的记事本文档,也是各种搜索引擎蜘蛛、机器人来我们网站爬取的第一个文件。简单的可以理解为告诉那些蜘蛛,我的网站哪些可以抓取,哪些页面不能抓取。对于一个网站来说写一个robots是非常有必要的。

robots是站点和蜘蛛、机器人之间沟通的重要渠道,蜘蛛、机器人可以通过robots文件了解到该网站哪些东西可以抓取,哪些不可用抓取。或者指定只能抓取哪些东西。是站长设置可以防止搜索引擎抓取隐私的一种重要手段,通常在新站还未上线之前站长就需要做好robots文件。我们可以通过浏览器网站后面加上robots.txt来进行浏览。

那么作为SEOer我们要怎么写网站的robots.txt呢?

首先我们需要了解下robots的语法,这样我们再写robots的时候才能更加得心易手。下面让我们来了解一下:

User-agent:定义搜索引擎类型(User-agent: Baiduspiter??定义百度蜘蛛)

常见的蜘蛛有?谷歌蜘蛛:Googlebot、360蜘蛛:360Spider、SOSO蜘蛛:Sosospider、雅虎蜘蛛:“Yahoo!?Slurp?China”或者Yahoo!、有道蜘蛛:YoudaoBot、搜狗蜘蛛:Sogou?News?Spider、MSN蜘蛛:msnbot、必应蜘蛛:bingbot等等。我们可以自己改成需要的相应的蜘蛛,如果想要允许所有蜘蛛我们可以写成User-agent: *
Disallow:禁止搜索引擎抓取(Disallow: /abc??禁止搜索引擎抓取所有包含abc的文件页面)

"/"我们可以认为是根目录,所有的,其中我们要注意Disallow: /abcDisallow: /abc/这两个的区别,前者匹配度比后者更加广泛,后者只局限于abc这个目录,也可以理解为前者包含后者,后者包含于前者。
Allow:允许搜索引擎抓取(Allow: / 允许搜索引擎抓取你的整个网站)
“*”:通配符,匹配0或多个任意字符(Disallow: /*?*禁止搜索引擎抓取你网站的动态路径。其中?表示该路径是否是动态路径,*表示0或多个任意字符。如bbs.moonseo.cn/forum.php?mod=post&action=37)
“$”:通配符,匹配行结束符(Allow: /*.png$允许搜索引擎抓取所有.png结尾格式的图片)
注意事项:

robots是在.txt后缀的记事本文档中进行的
语法前不能加空格
所有语法及字符必须在英文半角下进行,开头首字母需要大写冒号后需要空格,如:User-agent: Baiduspiter。
新站上线前就要做好robots,并且新站避免屏蔽全站
robots生效时间为几天到两个月之内。
robots后续可以自行增加,协议按最完善的那条生效
robots一般什么情况下使用:
屏蔽死链(死链太多需要收集后去站长提交)
屏蔽垃圾页面
屏蔽空白页面
屏蔽重复页面(同一路径的静态路径页面和动态路径页面)
中文链接
安全隐私

分析了解自己的网站,写好一份自己站点的robots.txt是每个SEOer的必修课之一哦!

版权声明:本文著作权归尘埃SEO所有,欢迎分享本文,谢谢支持!

转载请注明:怎么写网站的robots.txt | 尘埃SEO博客

全部评论:0