搜索引擎()工作原理——蜘蛛爬行和抓取

admin•2025-05-21 20:49:46•系统教程•阅读18

搜索引擎()工作原理——蜘蛛爬行和抓取

2024年3月5日发(作者：如何免费pdf转word文档)

搜索引擎（百度）工作原理——蜘蛛爬行和抓取

引擎的工作过程一般分为三个阶段：

爬行和抓取：通过引擎蜘蛛跟踪链接和访问页面，抓取内容，存入数据库。

预处理：引擎抓取的数据，会进行文字提取，中文分词，索引，倒排索引，方便日后排名程序调用。

排名：用户输入查询关键以后，排名程序会调用索引库数据，按相关性生成结果页面。

一、蜘蛛爬行和抓取是引擎的第一步，收集数据的过程。

引擎是爬行和访问页面的自动程序收集数据，这种程序也叫蜘蛛或者机器人。引擎蜘蛛访问网站类似于我们浏览网站，也可以理解蜘蛛爬行就像司令部放出去的收集情报员一样。引擎蜘蛛访问网站是和普通用户基本一致的，蜘蛛程序访问页面以后，服务器会返回HTML代码，蜘蛛程序会把代码，出入原始页面数据库，引擎会同时使用很多蜘蛛程序提高抓取数据的效率。引擎为了提高爬行和抓取速度，都使用多个蜘蛛进行发布和爬行，情报员多了，自然信息收集的就会更多，工作效率也就更高了。蜘蛛访问网站时，会先访问网站的文件，如果文件里头有止访问的文件或者目录，蜘蛛就不会抓取。其实就是入乡随俗，比如：回族人不吃猪肉，你虽然是客人，去了回族地域，也需要遵守当地习俗，就是这个意思。引擎蜘蛛也是有自己的用户代理名称的，就好像警察的工作证一样，执行公务的时候都要先把证件拿出来，蜘蛛也是一样的，站长可以通过日志文件看到蜘蛛的用户代理，从而识别出到底是什么网站的引擎蜘蛛。

360蜘蛛：Mozilla5.0（Windows；U；Windows NT5.1；zh-CN;）Firefox/1.5.0.11;360Spider

二、跟踪链接

为了爬取更多的页面蜘蛛，都是靠跟踪网页的的链接爬取的，从一个页面到另一个页面，蜘蛛从任何一个页面出发都能爬取到网上所有的页面，不过，网站的机构复杂，信息太多，所有蜘蛛爬行也是有一定策略的，一般是2中深度优先和广度优先。

从理论上讲，只要给蜘蛛足够的时间，就能爬完所有网络内容。其实在实际工作过程中，带宽和时间都不是无限的，也不可能爬完所有的页面。最大的引擎也只能爬取和收录小部分内容。

三、吸引蜘蛛

由此可见，虽然蜘蛛能爬行和抓取页面，但实际上还有很多页面蜘蛛是没有爬到的位置，所以我们就要想办法去吸引蜘蛛让蜘蛛来我这里爬取和抓取页面。既然

不能抓取所有页面，肯定是要让蜘蛛抓取重要的页面。哪些页面比较重要？有几个方面的影响因素：

1. 网站和页面权重

一般质量高，资格老的网站被认为是权重比较高，所以这种网站一般的页面会更多，蜘蛛的爬行深度也会比较高。

2. 更新速度

一般每次蜘蛛爬行完了，会把页面保存起来，如果第二次来的时候页面完全没有变化，就说明内页没有更新，多次爬取对页面更新的速度有了了解，蜘蛛就不会频繁的抓取这个网站；相反，如果每次抓取都有新的内容，蜘蛛就会频繁的抓取这个网站的内容，从而，这个网站的新内容也会更快的被蜘蛛跟踪。

3. 导入链接

无论是外部链接还是内容链接，如果想要蜘蛛抓取就必须要有链接导出，不然蜘蛛都没有机会知道这个页面的存在。高质量的导入链接也会是页面的上的导出链接的爬行深度增加。

发布者：admin，转转请注明出处：http://www.yc00.com/xitong/1709593152a1639433.html

蜘蛛页面抓取

admin

网站建设
装机打不开BIOS怎么办？如何进入Windows10的BIOS页面，如何关闭快速启动
电脑有快速启动，想进去BIOS页面非常困难，在临开机的页面，按触发按键不管用。然后我看到了一种新的进入BIOS的方式： （1
admin
3月前
60
网站建设
excel转word后表格超出页面_excel表格粘贴到word太宽显示不全怎么办?
excel表格粘贴到word太宽显示不全怎么办? 方法步骤 1 如果表格内容太多，或者表格太宽，均会导致表格超出Word的显示范围，使部分表格内容，在
admin
3月前
110
网站建设
计算机二级报名付款页面弹不出来怎么办,12123支付页面弹不出来怎么办
交管12123app2.1.6 官方安卓版类型：生活服务大小：29.6M语言：中文评分：9.8 标签： 立即下载 12123交
admin
2月前
60
网站建设
各大搜索引擎蜘蛛的UserAgent
GOOGLE --------------------------------------------------------------------- 66.249.70.212 - - [11Jan2009:00:03:35 -
admin
2月前
50
网站建设
[转]各大搜索引擎蜘蛛的UserAgent
GOOGLE---------------------------------------------------------------------66.249.70.212 - - [11Jan2009:00:03:35 -0700
admin
2月前
20
网站建设
Vue IOS端跳转后返回页面不刷新问题解决
方法一： we码用了，生效 mounted () {this.$nextTick(()>{首页跳转至门诊或者商城返回 IOS不兼容页面自动刷新问题var unavigator.us
admin
2月前
100
网站建设
手机微信html文件怎么打开方式,手机微信页面如何用web浏览器打开
满意答案 940118yuan 2014.11.02 采纳率：46% 等级：8 已帮助：362人首先打开google浏览器，同时按下 F12 键
admin
2月前
80
网站建设
微信开发js限制页面只能在微信浏览器打开禁止外置浏览器
<script type"textjavascript"> 对浏览器的UserAgent进行正则匹配，不含有微信独有标识的则为其他浏览器var useragentnavigat
admin
2月前
50
网站建设
浏览器打开一个页面的完整流程（整理）
1. 各个步骤概览参考：《前端性能监控：window.performance》 2. 页面加载和渲染过程参考：《web页面加载、解析、渲染过程》 3. 渲染引擎简介参考：《浏览器渲染原理及流程》《DOMContentLo
admin
2月前
130
网站建设
通过js判断打开页面的手机浏览器类型
转载的这篇文章很不错，主要是介绍通过js来判断访问页面的浏览器类型，可以做不同的处理。自己借鉴完之后，也再补充一点，现在项目中，还
admin
2月前
50
网站建设
Microsoft Edge浏览器重新打开主页没有变化但会重新打开一个淘宝天猫页面的解决办法
Microsoft Edge Microsoft Edge浏览器重新打开主页没有变化但会重新打开一个淘宝天猫页面的解决办法前几天因为在网上随便下软件导致edge浏览器打开就会开两个界面，一个首页&#xff
admin
2月前
170
网站建设
360浏览器不能打开CSDN登陆页面
碰见个奇葩问题： 使用360浏览器（广大程序员不要鄙视我~ 我有我的理由）不能打开csdn的登陆页面~~你登陆的时候，他就一直在那里打转~~ 但是用i
admin
2月前
90
网站建设
微信内扫描识别二维码打开网页的时候调用外部浏览器打开页面
很多朋友问我怎么解决微信内点击链接或扫描二维码可以直接跳出微信在外部浏览器打开网页链接，其实这并不难，只要我们实现微信跳转功能即可。下面给大家介绍这个功能功能目的生成微信跳转链接&#x
admin
2月前
70
网站建设
静态HTML页面直接在浏览器打开，js操作出现跨域问题
环境谷歌浏览器解决方式 Chrome快捷图标，右键 -> 目标，在末尾加上–disable-web-security重启浏览器。别忘了加空格可能会出现修改后第一次有效&
admin
2月前
100
网站建设
python打开浏览器不显示浏览器页面_python+selenium 浏览器无界面模式运行
方法一： from selenium.webdriver import Chrome, ChromeOptions opt = ChromeOptions() # 创建Chrome参数对象 opt.headless = True # 把Ch
admin
1月前
30
网站建设
h5页面滚动如何让safari浏览器地址栏消失
背景:针对于在safari浏览器打开的h5页面,若页面是可滚动装填,safari浏览器底部会有默认地址栏,导致滑动起来很难受,想要在滑动页面时,底部导航栏消失可以用一下办法. 做法: 之前将overflow-y:sc
admin
1月前
40
网站建设
不让selenium自动关闭浏览器页面（闪崩）[vscode +edge]
前言： 看见网上这个的解决方法不是关于chrome就是关于pycharm。像我这种平时喜欢用vscode和edge来写爬虫的遇到问题，真的是难绷😅&#x1f6
admin
1月前
50
网站建设
操作系统之页面置换算法（FIFO、LFU、LRU、OPT算法）
操作系统之页面置换算法（FIFO、LFU、LRU、OPT算法） TIPS： 主存：实际上的物理内存。虚存（虚拟内存&#x
admin
1月前
80
网站建设
无法弹出认证上网页面
问题描述：无线笔记本打开浏览器无法弹出认证界面问题解决：1、使用默认浏览器输入www.baidu 地址可以弹出认证界面 2、断开无线网络连接重新连接自动跳转默认浏览器登录原因分析&a
admin
1月前
130
网站建设
Mac 关闭浏览器左右滑动切换页面的问题
在使用触控板，操作浏览器时，左右滑动时，浏览器容易触发前进或者后退去查看历史记录。如何关闭呢？ 打开Mac- 系统设置-触控板 -更多手势将轻扫切
admin
4天前
20

发表回复

评论列表（0条）

暂无评论

搜索引擎()工作原理——蜘蛛爬行和抓取

发表回复

评论列表（0条）

联系我们

400-800-8888

搜索引擎()工作原理——蜘蛛爬行和抓取

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888