请选择 进入手机版 | 继续访问电脑版
苏州网站优化|爬行抓取之蜘蛛
大学生考研墙 发表于:2021-8-3 15:39:34 复制链接 发表新帖
阅读数:115
苏州网站优化|爬行抓取之蜘蛛



所谓的爬行和抓取,是搜索引擎工作的第一步。搜索引擎要向用户提供信息,本身的数据库内里就必须有巨大的数据量。以是,在网络上征采有肯定质量的内容放入本身数据库是很紧张的变乱。

搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider)。
robots协议

蜘蛛访问网站页面时,类似用户访问。不同的是,蜘蛛在访问一个网站的时间,都会先访问网站根目次下的robots.txt文件。这个文件是网站和搜索引擎的一个协议,蜘蛛会服从协议,不抓取被禁止的网址。
各搜索引擎蜘蛛

从访问日志当中,可以看到各搜索引擎的蜘蛛定名方式不一样:

Baiduspider百度蜘蛛

360spider 360蜘蛛

熟悉各家蜘蛛的名称,对后期优化中,分析爬行日志有很大作用。
返回列表 使用道具 举报
条评论
avatar
您需要登录后才可以回帖 登录 | 立即注册
高级