基于Hadoop的分布式主题网络爬虫研究

基于Hadoop的分布式主题网络爬虫研究

2023年6月29日发(作者:)

龙源期刊网

基于Hadoop的分布式主题网络爬虫研究

作者:李应

来源:《软件导刊》2016年第03期

摘 要:主题网络爬虫采用集中式体系结构,具有对单台服务器性能要求高、可扩展性差等缺点。提出了一种基于Hadoop的分布式主题网络爬虫架构,通过将主题网络爬虫部署在分布式集群中的不同机器,运用MapReduce编程模型对数据进行抓取分析,使不同机器共同完成对指定任务的抓取工作。实验证明,采用分布式架构,通过动态调节分布式集群中的节点个数,能够明显改善主题网络爬虫的抓取效果。

关键词:Hadoop;MapReduce;分布式架构;主题网络爬虫

中图分类号:TP301.6 文献标识码:A 文章编号:1672-7800(2016)003-0024-03

作者简介:李应(1989-),男,陕西礼泉人,西安工程大学计算机科学学院硕士研究生,研究方向为大数据、分布式系统、智能搜索、自然语言处理。

0 引言

互联网资源正在以指数级快速增长,如何能够快速获取网络资源已经成为广大用户的一项基本需求。通用网络爬虫由于是对互联网全网资源的获取,因此其获取的资源范围涉及各个领域,这对于想要获得某个专业领域资源的用户带来不便。主题网络爬虫的出现使获取的网络资源具有更强的针对性,在一定程度上解决了用户的专业性需求,用户能够快速、准确地得到想要的资源。

对于拥有庞大数据量的网络资源,采用集中式服务体系结构有许多不可避免的缺点,如对于单台服务器性能要求高、数据的可维护性与可扩展性差等。分布式体系结构能够明显改善集中式体系结构中的问题,具有可扩展性强、成本低、数据不易丢失等众多优点。

本文利用分布式体系结构的优点,将主题网络爬虫与Hadoop分布式开源框架相结合,提出了一种基于Hadoop的分布式主题网络爬虫架构。

1 相关概念介绍

1.1 Hadoop分布式文件系统(HDFS)

HDFS[1-2]是Hadoop的核心组件之一,是一个可扩展的分布式文件系统。HDFS可以运行在廉价的普通计算机上,具有良好的容错能力,并且能够提供更高性能的服务。Hadoop的HDFS对普通用户来说是透明的,用户可以像操作个人计算机一样在HDFS上添加、删除数据等。在HDFS中有3个重要角色:NameNode、DataNode以及Client。其中,NameNode用来

发布者:admin,转转请注明出处:http://www.yc00.com/news/1687984174a63737.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信