分布式网络爬虫框架Crawlzilla|江阴雨辰互联

2023年6月29日发(作者：)

龙源期刊网

分布式网络爬虫框架Crawlzilla

作者：徐海啸董飒李翔于洪梅吴旗

来源：《电子技术与软件工程》2017年第18期

摘要互联网技术的飞速发展带了网络信息的爆炸式增长，互联网已经成为了企业，机构和个人发布信息的主要平台。据CNNIC（中国互联网络信息中心）发布的2015年中国网民搜索行为研究报告中指出，截止到2015年12月，我国搜索引擎用户达到了5.66亿，使用率为82.3%，手机搜索用户达4.78亿，使用率为77.1%。互联网的发展速度日益加快，随之而来的是爆炸式的信息体量的增长。传统的搜索引擎已经不能够满足一些企业和单位内部的个性化检索的需求。本文将对通用爬虫框架Crawlzilla做简要的分析，并说明其在企业内部制定个性检索服务的可行性。

【关键词】爬虫 Crawlzilla 搜索引擎

1引言

互联网技术的飞速发展带了网络信息的爆炸式增长，互联网己经成为了企业，机构和个人发布信息的主要平台，随着互联网用户的激增，网络上也充斥这各种虚假、冗余等信息。如何能在如此海量的信息中快速、精确的发现自己想要的信息是一个具有挑战性的工作。网络爬虫技术应运而生，网络爬虫（又被称为网页蝴蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，简单的说，网络爬虫技术就是可以运用自己定义的搜索策略在互联网的大数据仓库中找到你想要的信息。网络的爬虫的主要功能就是为搜索引擎提供搜索的数据源，随着分布式计算、网格计算、云计算等并行计算技术的发展，使得大规模数据处理和海量数据分布式存储技术得以发展，这也对网络爬虫技术的研究和发展具有重大意义。首先，互联网上的信息都是分散地存储在不同的网络中的不同服务器上的，其特点是并不集中，为了提高信息的抓取速度可以采用并行抓取的方式，将分散在网络上的机器组成计算集群分布式抓取；其次，互联网上的信息体量比较庞大，网络爬虫抓取到的数据有可能也很多，需要一个大的数据仓库来存储这些抓取到的数据，分布式存储可以很容易的解决这个问题。Crawlzilla底层采用分布式数据处理框架Hadoop，Hadoop具有高可靠性、高扩展性、高效性、高容错性、低成本的优点，使得任何一个机构或者个人都可以轻松的搭建自己的搜索引擎。

2网络爬虫的基本原理

网络爬虫从本质上来说就是一个基于HTTP协议的计算机程序，网络爬虫需要完成的主要工作就是从互联网上抓取网页，文档等数据，并存储到本地作为搜索引擎的数据源，其工作流程如图一所示。网络爬虫作为搜索引擎的核心部分，其在启动前需要选择一些URL作为种子，这些种子可以人为指定也可以通过算法筛选出一些可信度较高的URL。当网络爬虫启动后，就会按照这些种子去抓取相应的网页，而抓取到的网页中还会包含大量的URL，这些

发布者：admin，转转请注明出处：http://www.yc00.com/web/1687984671a63799.html