2024年3月5日发(作者:如何免费pdf转word文档)
搜索引擎(百度)工作原理——蜘蛛爬行和抓取
引擎的工作过程一般分为三个阶段:
爬行和抓取:通过引擎蜘蛛跟踪链接和访问页面,抓取内容,存入数据库。
预处理:引擎抓取的数据,会进行文字提取,中文分词,索引,倒排索引,方便日后排名程序调用。
排名:用户输入查询关键以后,排名程序会调用索引库数据,按相关性生成结果页面。
一、蜘蛛爬行和抓取是引擎的第一步,收集数据的过程。
引擎是爬行和访问页面的自动程序收集数据,这种程序也叫蜘蛛或者机器人。引擎蜘蛛访问网站类似于我们浏览网站,也可以理解蜘蛛爬行就像司令部放出去的收集情报员一样。引擎蜘蛛访问网站是和普通用户基本一致的,蜘蛛程序访问页面以后,服务器会返回HTML代码,蜘蛛程序会把代码,出入原始页面数据库,引擎会同时使用很多蜘蛛程序提高抓取数据的效率。引擎为了提高爬行和抓取速度,都使用多个蜘蛛进行发布和爬行,情报员多了,自然信息收集的就会更多,工作效率也就更高了。蜘蛛访问网站时,会先访问网站的文件,如果文件里头有止访问的文件或者目录,蜘蛛就不会抓取。其实就是入乡随俗,比如:回族人不吃猪肉,你虽然是客人,去了回族地域,也需要遵守当地习俗,就是这个意思。引擎蜘蛛也是有自己的用户代理名称的,就好像警察的工作证一样,执行公务的时候都要先把证件拿出来,蜘蛛也是一样的,站长可以通过日志文件看到蜘蛛的用户代理,从而识别出到底是什么网站的引擎蜘蛛。
360蜘蛛:Mozilla5.0(Windows;U;Windows NT5.1;zh-CN;)Firefox/1.5.0.11;360Spider
二、跟踪链接
为了爬取更多的页面蜘蛛,都是靠跟踪网页的的链接爬取的,从一个页面到另一个页面,蜘蛛从任何一个页面出发都能爬取到网上所有的页面,不过,网站的机构复杂,信息太多,所有蜘蛛爬行也是有一定策略的,一般是2中深度优先和广度优先。
从理论上讲,只要给蜘蛛足够的时间,就能爬完所有网络内容。其实在实际工作过程中,带宽和时间都不是无限的,也不可能爬完所有的页面。最大的引擎也只能爬取和收录小部分内容。
三、吸引蜘蛛
由此可见,虽然蜘蛛能爬行和抓取页面,但实际上还有很多页面蜘蛛是没有爬到的位置,所以我们就要想办法去吸引蜘蛛让蜘蛛来我这里爬取和抓取页面。既然
不能抓取所有页面,肯定是要让蜘蛛抓取重要的页面。哪些页面比较重要?有几个方面的影响因素:
1. 网站和页面权重
一般质量高,资格老的网站被认为是权重比较高,所以这种网站一般的页面会更多,蜘蛛的爬行深度也会比较高。
2. 更新速度
一般每次蜘蛛爬行完了,会把页面保存起来,如果第二次来的时候页面完全没有变化,就说明内页没有更新,多次爬取对页面更新的速度有了了解,蜘蛛就不会频繁的抓取这个网站;相反,如果每次抓取都有新的内容,蜘蛛就会频繁的抓取这个网站的内容,从而,这个网站的新内容也会更快的被蜘蛛跟踪。
3. 导入链接
无论是外部链接还是内容链接,如果想要蜘蛛抓取就必须要有链接导出,不然蜘蛛都没有机会知道这个页面的存在。高质量的导入链接也会是页面的上的导出链接的爬行深度增加。
发布者:admin,转转请注明出处:http://www.yc00.com/xitong/1709593152a1639433.html
评论列表(0条)