请选择 进入手机版 | 继续访问电脑版
详解Nginx怎样查看搜索引擎蜘蛛爬虫活动:爬行次数、爬行页面等
空穴来风 发表于:2021-9-6 13:38:06 复制链接 发表新帖
阅读数:76
概述

近来阿里云常常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常环境下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http哀求头中的一个选项设置,通过编程的方式可以给哀求设置恣意的UserAgent。

下面的Linux下令可以让你清晰的知道蜘蛛的爬行环境。我们针对nginx服务器进行分析,日志文件地点目次:/usr/local/nginx/logs/access.log,access.log这个文件记录的应该是近来一天的日志环境,起首请看看日志大小,假如很大(超过50MB)建议别用这些下令分析,由于这些下令很斲丧CPU,或者更新下来放到分析机上实验,以免影响服务器性能。
<hr>
常用蜘蛛的域名

常用蜘蛛的域名都和搜索引擎官网的域名干系,比方:
    百度的蜘蛛通常是baidu.com或者baidu.jp的子域名google爬虫通常是googlebot.com的子域名微软bing搜索引擎爬虫是search.msn.com的子域名搜狗蜘蛛是crawl.sogou.com的子域名
<hr>
1、计算百度蜘蛛爬行的次数

cat access.log | grep Baiduspider | wc

详解Nginx怎样查看搜索引擎蜘蛛爬虫活动:爬行次数、爬行页面等



最左面的数值表现的就是爬行次数。
<hr>
2、百度蜘蛛的详细记录(Ctrl C可以制止)

cat access.log | grep Baiduspider

详解Nginx怎样查看搜索引擎蜘蛛爬虫活动:爬行次数、爬行页面等



也可以用下面的下令:

cat access.log | grep Baiduspider | tail -n 10

cat access.log | grep Baiduspider | head -n 10

详解Nginx怎样查看搜索引擎蜘蛛爬虫活动:爬行次数、爬行页面等



阐明:只看末了10条或最前10条
<hr>
3、百度蜘蛛抓取首页的详细记录

cat access.log | grep Baiduspider | grep “GET / HTTP”

详解Nginx怎样查看搜索引擎蜘蛛爬虫活动:爬行次数、爬行页面等



百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。
<hr>
4、百度蜘蛛派性记录时间点分布

cat access.log | grep “Baiduspider ” | awk ‘{print $4}'

详解Nginx怎样查看搜索引擎蜘蛛爬虫活动:爬行次数、爬行页面等



5、百度蜘蛛爬行页面按次数降序列表

# cat access.log |grep "Baiduspider"|awk '{print $7}'|sort | uniq -c |sort -r
详解Nginx怎样查看搜索引擎蜘蛛爬虫活动:爬行次数、爬行页面等


<hr>
篇幅有限,关于nginx去查看搜索引擎蜘蛛爬虫的活动的内容就介绍到这了,上面的一些下令都是比较常用的,后面会分享更多关于nginx方面内容,感爱好的朋侪可以关注下!

详解Nginx怎样查看搜索引擎蜘蛛爬虫活动:爬行次数、爬行页面等
返回列表 使用道具 举报
条评论
avatar
您需要登录后才可以回帖 登录 | 立即注册
高级
avatar 123457080 发表于 2021-9-6 13:38:18 | 阅读全部
转发了
使用道具 举报
回复
avatar 对面的女孩 发表于 2021-9-6 13:38:37 | 阅读全部
转发了
使用道具 举报
回复
avatar 三年的约定 发表于 2021-9-6 13:39:20 | 阅读全部
转发了
使用道具 举报
回复
avatar 不可触碰的伤 发表于 2021-9-6 13:39:38 | 阅读全部
转发了
使用道具 举报
回复