请选择 进入手机版 | 继续访问电脑版
搜索引擎抓取收录工作流程及原理分析
肖智生 发表于:2021-11-16 21:43:16 复制链接 发表新帖
阅读数:81
什么是搜索引擎蜘蛛?

搜索引擎蜘蛛是指搜索引擎公司所设立的一套自动抓取程序,简称蜘蛛人。

常见的蜘蛛有:百度蜘蛛(baiduspider) 谷歌(Gllgledot)

360蜘蛛(360spider) 搜狗蜘蛛(Sogou News Spider)等
搜索引擎抓取收录工作流程及原理分析


二、搜索引擎抓取收录工作流程

1、抓取 2、过滤 3、存放索引库 4、展示排序

抓取收录表示图

蜘蛛抓取——网站页面——存放暂时索引库——排名环境(从索引库调取)

暂时索引库并不是存放全部蜘蛛抓取的网站页面,它会根据蜘蛛抓取的页面质量进行筛选,过滤掉一些质量差的。再将好的页面。根据页面好坏质量进行排序。

三、搜索引擎抓取

蜘蛛spider顺着网页的超链接,在互联网中发现、网络网页信息

2、蜘蛛抓取规则

深度抓取(竖着抓取,先抓取完一个栏目的内容页,然再换个栏目以同样的方式抓取)

广度抓取(横着抓取,先抓取完每个栏目也,再抓取每个栏目页下面的内容页)

3 、抓取内容

链接 笔墨 图片 视频 JS CSS iframe蜘 蛛

4、影响抓取

链接:包含笔墨 参数过多 结构层次过多(3层最好) 链接过长

不辨认内容

必要权限

网站打不开

四、处理网页(过滤)

为什么过滤:采集、内容价值过低 文不对题内容 没有丰富的内容

暂时数据库:对蜘蛛抓取的内容,颠末筛选后,将内容存放在一个暂时的数据库调用。

五、展示排序

将存储索引库的内容,根据质量的高低进行排序,然后调用出来显现给用户。

1、检索器根据用户输入的查询关键词,在索引库中快速检索文档,进行文档与查询的干系度评价,对将要输出的结果进行排序,并将查询结果展示出来反馈给用户。

2、当我们在搜索引擎看到的只是一结果,搜索根据各种算法进行排序,将质量最好的十个结果放在第一页

分享:http://xhltp.com/seoyouhua/336.html
返回列表 使用道具 举报
条评论
avatar
您需要登录后才可以回帖 登录 | 立即注册
高级