找回密码
 立即注册

如何设置Robots.txt协议文件写法利于搜索擎化

wuweicm 发表于 [显示全部楼层]
     很多知名的建站系统如WordPress,织梦等都会自带robots.txt协议文件,都会放在网站的根目录下的,然而还有很多没有采用这些系统的网站,就没有robots.txt协议文件,在当下网站seo优化竞争越来越激烈,如果我们没有使用Robots协议,将会对网站有些无穷的后患。这时候对于robot.txt协议的设置就体现它的作用。
        那么对于robot.txt协义文件的设置有什么好处呢?对于站长都知道,很多的时候搜索引擎收录的网站页面都并不是我们所希望收录的页面,有些页面或路径是无用路径,如果蜘蛛发现了,而收录了这些无用的路径的话,有能分散网站的权重,降低了权重,从而对优化不利。

Robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,当一个搜索蜘蛛访问到了网站时,就会首先检查该站点根目录是否存在robots.txt文件,如果存在,那么搜索蜘蛛就会根据文件所设置的要需求访问网页内容,如果不存在的话,对于网站所有的内容搜索蜘蛛都会访问一遍。这个文件就是robots协议文件,也叫爬虫协议或机器人协议。
下面我们介绍一下,关于robots协议的语句
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
关于robots.txt写法举例
1、禁止所有搜索引擎访问网站的所有部分
User-agent: *
Disallow: /
2、禁止百度索引你的网站
User-agent: Baiduspider
Disallow: /
3、禁止Google索引你的网站
User-agent: Googlebot
Disallow: /
4、禁止除Google外的一切搜索引擎索引你的网站
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
5、禁止除百度外的一切搜索引擎索引你的网站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
6、禁止蜘蛛访问某个目录
(例如禁止admin\css\images被索引)
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
7、允许访问某个目录中的某些特定网址
User-agent: *
Allow: /css/my
Allow: /admin/html
Allow: /images/index
Disallow: /css/
Disallow: /admin/
Disallow: /images/
在编写协议规则时我们需要注意的是(:)和(/) 之间的需要有一个空格符号,如果没有这个空格符号那么这条语法是不能生效的。在我们需要屏蔽或允许目录访问的时候,需要我们特别的注意是文件夹前面一定要加”/” 符号,因为这是表示根路径,如果不带”/”符号的话,该条规则是无效的。当然,为了让我们的搜索引擎更快的收录到我们的内页面,我们可以采用网站地图(Sitemap) 其文件名为Sitemap.xml 里面列出了网站所有的可以收录的地址内容,百度蜘蛛可以直接快速的通过这个地图是行收录内容。

当我们的网站死链接很多,不能在很短的时间内处理好这些死链接,那么我们可以通过设置robots.txt 文件来屏蔽掉这些死链接的地址。从而避免搜索擎引抓取到从而降权。
设置robots.txt协议对于网站来说是,百有益而无一害的。对于robots里面的规则和写法,我们必须进行掌握,希望读者们通过本文章学习到robots协议相关的知识,从而做好设置robots.txt工作。

发表于 2018-8-14 09:56 | 显示全部楼层 |阅读模式

回复 | 使用道具 举报

该帖共收到 0 条回复!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部 返回列表