请选择 进入手机版 | 继续访问电脑版
淏荃君分享:IIS日志中搜索引擎蜘蛛名称代码及爬寻返回代码
兵哥哥 发表于:2021-8-3 16:17:46 复制链接 发表新帖
阅读数:101
淏荃君分享:IIS日志中搜索引擎蜘蛛名称代码及爬寻返回代码


在SEOer做网站的诊断分析时,想相识一个网站的现在状态,起首要学会的就是怎样查看IIS日志,由于网站的一些搜索引擎蜘蛛爬寻状态和访问IP的泉源都会记录在IIS日志中,以是IIS日志对每个SEOer或网站管理者非常的紧张,淏荃君以为要想准确的解读这些网站日志,我们起首就要先明确IIS日志中搜索引擎蜘蛛名称代码及爬寻返回代码分别是什么?又代表着什么意思?

搜索引擎蜘蛛名称代码:

百度蜘蛛:BaiduSpider

谷歌蜘蛛:Googlebot

谷歌专门抓取图片的蜘蛛:Googlebot-Image

谷歌广告同盟代码的蜘蛛:Mediapartners-Google

360搜索蜘蛛:360Spider

搜狗蜘蛛:Sogou News Spider

搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider(参考一些网站的robots文件,搜狗蜘蛛名称可以用Sogou概括)

SOSO蜘蛛:Sosospider

雅虎蜘蛛:Yahoo Slurp

雅虎中国蜘蛛:Yahoo! Slurp China

雅虎广告蜘蛛:Yahoo!-AdCrawler

网易有道蜘蛛:YoudaoBot,YodaoBot

MSN蜘蛛:msnbot,msnbot-media

必应蜘蛛:bingbot

Alexa蜘蛛:ia_archiver

即刻蜘蛛:JikeSpider

一搜蜘蛛:YisouSpider

宜搜蜘蛛:EasouSpider
淏荃君分享:IIS日志中搜索引擎蜘蛛名称代码及爬寻返回代码

搜索引擎工作原理


搜索引擎蜘蛛爬寻返回代码解读:

1xx (暂时相应)表示暂时相应并必要哀求者继续实验操作的状态代码。

100 (继续) 哀求者应当继续提出哀求。服务器返回此代码表示已收到哀求的第一部分,正在等待别的部分。

101 (切换协议) 哀求者已要求服务器切换协议,服务器已确认并准备切换。

2xx (成功)表示成功处理了哀求的状态代码。

200 (成功) 服务器已成功处理了哀求。通常,这表示服务器提供了哀求的网页。

201 (已创建) 哀求成功并且服务器创建了新的资源。

202 (已接受) 服务器已接受哀求,但尚未处理。

203 (非授权信息) 服务器已成功处理了哀求,但返回的信息大概来自另一泉源。

204 (无内容) 服务器成功处理了哀求,但没有返回任何内容。

205 (重置内容) 服务器成功处理了哀求,但没有返回任何内容。

206 (部分内容) 服务器成功处理了部分GET哀求。

3xx (重定向) 表示要完成哀求,必要进一步操作。通常,这些状态代码用来重定向。

300 (多种选择) 针对哀求,服务器可实验多种操作。服务器可根据哀求者 (user agent) 选择一项操作,或提供操作列表供哀求者选择。

301 (永世移动) 哀求的网页已永世移动到新位置。服务器返回此相应(对 GET 或 HEAD 哀求的相应)时,会自动将哀求者转到新位置。

302 (暂时移动) 服务器现在从不同位置的网页相应哀求,但哀求者应继续使用原有位置来进行以后的哀求。

303 (查看其他位置) 哀求者应当对不同的位置使用单独的GET哀求来检索相应时,服务器返回此代码。

304 (未修改) 自从前次哀求后,哀求的网页未修改过。服务器返回此相应时,不会返回网页内容。

305 (使用代理) 哀求者只能使用代理访问哀求的网页。假如服务器返回此相应,还表示哀求者应使用代理。

307 (暂时重定向) 服务器现在从不同位置的网页相应哀求,但哀求者应继续使用原有位置来进行以后的哀求。

4xx(哀求错误) 这些状态代码表示哀求大概出错,妨碍了服务器的处理。

400 (错误哀求) 服务器不明白哀求的语法。

401 (未授权) 哀求要求身份验证。对于必要登录的网页,服务器大概返回此相应。

403 (禁止) 服务器拒绝哀求。

404 (未找到)服务器找不到哀求的网页。

405 (方法禁用) 禁用哀求中指定的方法。

406 (不接受) 无法使用哀求的内容特性相应哀求的网页。

407 (必要代理授权) 此状态代码与401(未授权)类似,但指定哀求者应当授权使用代理。

408 (哀求超时)服务器等候哀求时发生超时。

409 (冲突) 服务器在完成哀求时发生冲突。服务器必须在相应中包含有关冲突的信息。

410 (已删除) 假如哀求的资源已永世删除,服务器就会返回此相应。

411 (必要有用长度) 服务器不接受不含有用内容长度标头字段的哀求。

412 (未满足条件条件) 服务器未满足哀求者在哀求中设置的此中一个条件条件。

413 (哀求实体过大) 服务器无法处理哀求,由于哀求实体过大,超出服务器的处理本领。

414 (哀求的 URI 过长) 哀求的URI(通常为网址)过长,服务器无法处理。

415 (不支持的媒体范例) 哀求的格式不受哀求页面的支持。

416 (哀求范围不符合要求) 假如页面无法提供哀求的范围,则服务器会返回此状态代码。

417 (未满足渴望值) 服务器未满足”渴望”哀求标头字段的要求。

5xx(服务器错误)这些状态代码表示服务器在尝试处理哀求时发生内部错误。这些错误大概是服务器本身的错误,而不是哀求出错。

500 (服务器内部错误) 服务器遇到错误,无法完成哀求。

501 (尚未实行) 服务器不具备完成哀求的功能。比方,服务器无法辨认哀求方法时大概会返回此代码。

502 (错误网关) 服务器作为网关或代理,从上游服务器收到无效相应。

503 (服务不可用) 服务器现在无法使用(由于超载或停机维护)。通常,这只是暂时状态。

504 (网关超时) 服务器作为网关或代理,但是没有及时从上游服务器收到哀求。

505 (HTTP 版本不受支持) 服务器不支持哀求中所用的HTTP协议版本。

太原SEO研究中央博客履历:

分析解读IIS网站日志中的“2013-10-26 00:09:12 W3SVC962713505 115.28.163.196 GET /index.html – 80 – 61.135.168.39 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64”是什么意思?
淏荃君分享:IIS日志中搜索引擎蜘蛛名称代码及爬寻返回代码


1、2008-08-19 00:09:12代表搜索引擎蜘蛛爬行的日期与时间

2、W3SVC962713505代表网站日志地点的文件夹

3、115.28.163.196就是搜索引擎蜘蛛访问的网站ip(比如:太原SEO研究中央博客的ip是115.28.163.196)

4、代码中的/index.html 就代表搜索引擎蜘蛛防问的网页

5、61.135.168.39 Baiduspider代表,百度搜索引擎蜘蛛的ip是61.135.168.39

6、http://www.baidu.com/search/spider.htm baiduspider常见标题解答网页

7、代码中的200就代表搜索引擎蜘蛛爬行后返回HTTP状态代码,通过上面的搜索引擎爬寻返回代码可以相识蜘蛛爬行后的反映。

8、关于蜘蛛在IIS里的200 0 64的状态活动分析:

根据淏荃君对太原SEO研究中央博客iis日志一段时间的观察,固然暂时还没有充足的证据,但是基本上可以肯定在IIS中,假如蜘蛛后面的号码出现200 0 64,那么网站中的这个单页面就会在搜索引擎中消散了。太原SEO研究中央博客上被K的页都面后面写着200 0 64,不知道大家是否认同这个见解,当然,淏荃君说这个也并不是绝对的,由于我也有一个页面后面表现着200 0 64但是在搜索引擎中仍然可以找到。这也阐明着标题,但大多200 0 64活动的网页就已经没有了。

淏荃君以为,抓取状态成200 0 64的大概是不正常的抓取,正常的抓取是成功标志200 0 0,当变成了200 0 64的状态时阐明搜索引擎在抓取这个页面的时间出现了错误,没有正常的进行常规抓取;对于百度来说,百度很大概是已经不再把这些页面抓进主索引库,而是放进了“百度沙盒”里进行观察,至于观察多久,就看你怎样改进了。

以是淏荃君以为蜘蛛的200 0 64活动可以被解释为扫除数据。
返回列表 使用道具 举报
条评论
avatar
您需要登录后才可以回帖 登录 | 立即注册
高级