请选择 进入手机版 | 继续访问电脑版
网站怎样给搜索引擎一个好印象?有一个文件必不可少!
阅读数:99
网站想要获得更好的排名,想要把更多的信息展示在搜索引擎上面,就必要搜索引擎蜘蛛的抓取,但是网站上面有一些信息和链接(死链、无关信息等)是不渴望在搜索引擎显现的,那么当蜘蛛抓取的时间,做什么操作可以或许避免呢?

搜索引擎蜘蛛访问网站是,会起首查看网站根目次下有没有一个定名为robots.txt的文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或者指定抓取某些内容。
网站怎样给搜索引擎一个好印象?有一个文件必不可少!


什么是robots文件?

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,起首会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,

这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明。

该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。 请注意,仅当您的网站包含不渴望被搜索引擎收录的内容时,才必要使用robots.txt文件。

robots文件实用于全部搜索引擎
网站怎样给搜索引擎一个好印象?有一个文件必不可少!


robots.txt文件有什么详细作用?

1、屏蔽网站内的死链接。(网站改版后出现的死链、网站被攻击时来不及删除的目次文件和链接)

2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。

3、克制搜索引擎索引网站隐私性的内容。(比方网站后台的登陆地址)

4、引导蜘蛛抓取网站地图
网站怎样给搜索引擎一个好印象?有一个文件必不可少!


robots.txt文件怎样写?

一.User-agent:意思是定义搜索引擎范例

由于搜索引擎有好几种有:百度蜘蛛:Baiduspider;谷歌蜘蛛:Googlebot;360蜘蛛:360Spider;搜狗蜘蛛sogou spider

一样寻常没有特殊要求的话,准确写法是:User-agent: * 意思是答应全部搜索引擎来抓取。这是robots.txt文件中第一行的写法。

二.Disallow:意思是定义禁止抓取的地址

就是禁止蜘蛛抓取的地址,在我们的网站是静态或伪静态的时间一样寻常网站要禁止蜘蛛抓取动态路径(?)、.js、后台的文件等一些不想让蜘蛛抓取的文件。它的准确的写法如下:

Disallow: / 禁止蜘蛛抓取整站(肯定不能这么写,如许会让全部搜索引擎不来抓取你的网站内容)

Disallow: /wp-admin/ 禁止抓取网站中带wp-admin的文件夹。

Disallow: /page/ 禁止抓取网站中带page的文件夹。

Disallow: /*?* 禁止抓取网站中的全部动态路径。

Disallow: /.js$ 禁止抓取网站中的全部带.js的路径。

Disallow: /*.jpeg$ 禁止抓取网站中全部jpeg图片

三、Allow:意思是定义答应抓取收录地址

这个就不必要多说了就是答应的意思,在robots文件中不写Allow意思就是默认的答应。因此大家没必要写上。

注意肯定不要:万万不要写成如许

User-agent: *

Disallow:/

网站想要让全部的搜索引擎抓取,除了谷歌!

User-agent: *

Allow: /

User-agent: Googlebot

Disallow: /

一个网站并不是全部的内容都必要显现在搜索引擎上面,如正在改版、测试的页面,各种格式排版的页面、各种帅选条件的页面,这些页面一样寻常都市数目很多,会过多斲丧搜索引擎分配给这个网站的总抓取时间,从而造成一些真正故意义的页面没有被抓取和收录,以是网站一样寻常优化中, robots.txt文件是不可或缺的。
返回列表 使用道具 举报
条评论
avatar
您需要登录后才可以回帖 登录 | 立即注册
高级