如何自己写一个网络爬虫

admin•2025-09-22 07:08:41•小程序•阅读15

如何自己写一个网络爬虫

2023年6月29日发(作者：)

这里是维基百科对网络爬虫的词条页面。网络爬虫以叫网络蜘蛛，网络机器人，这是一个程序，其会自动的通过网络抓取互联网上的网页，这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然，更为高级的技术是把网页中的相关数据保存下来，可以成为搜索引擎。

从技相来说，实现抓取网页可能并不是一件很困难的事情，困难的事情是对网页的分析和整理，那是一件需要有轻量智能，需要大量数学计算的程序才能做的事情。下面一个简单的流程：

在这里，我们只是说一下如何写一个网页抓取程序。首先我们先看一下，如何使用命令行的方式来找开网页。telnet 80

GET / HTTP/1.0

按回车两次使用telnet就是告诉你其实这是一个socket的技术，并且使用HTTP的协议，如GET方法来获得网页，当然，接下来的事你就需要解析HTML文法，甚至还需要解析Javascript，因为现在的网页使用Ajax的越来越多了，而很多网页内容都是通过Ajax技术加载的，因为，只是简单地解析HTML文件在未来会远远不够。当然，在这里，只是展示一个非常简单的抓取，简单到只能做为一个例子，下面这个示例的伪代码：

取网页

for each 链接 in 当前网页所有的链接

{

if(如果本链接是我们想要的 || 这个链接从未访问过)

{

处理对本链接

把本链接设置为已访问

}

}

require “rubygems”

require “mechanize”

class Crawler < WWW::Mechanize

attr_accessor :callback

INDEX = 0

DOWNLOAD = 1

PASS = 2

def initialize

super

init

@first = true

_agent_alias = “Windows IE 6″

end

def init @visited = []

end

def remember(link)

@visited << link

end

def perform_index(link)

(link)

if(_s == “WWW::Mechanize::Page”)

links = {|link| } - @visited

do |alink|

start(alink)

end

end

end

def start(link)

return if ?

if(!@e?(link))

action = @(link)

if(@first)

@first = false

perform_index(link)

end

case action

when INDEX

perform_index(link)

when DOWNLOAD

(link).save_as(me(link)) when PASS

puts “passing on #{link}”

end

end

end

def get(site)

begin

puts “getting #{site}”

@visited << site

super(site)

rescue

puts “error getting #{site}”

end

end

end

上面的代码就不必多说了，大家可以去试试。下面是如何使用上面的代码：

require “crawler”

x =

callback = lambda do |link|

if(link =~/.(zip|rar|gz|pdf|doc)

er(link)

return Crawler::PASS

elsif(link =~/.(jpg|jpeg)/)

return Crawler::DOWNLOAD

end

return Crawler::INDEX;

end

ck = callback

(””)

下面是一些和网络爬虫相关的开源网络项目

•

is a .NET crawler written in C# using SQL 2005

and Lucene and is released under the GNU General Public

License.

•

DataparkSearch is a crawler and search engine released under

the GNU General Public License.

•

GNU Wget is a command-line-operated crawler written in C

and released under the GPL. It is typically used to mirror Web

and FTP sites.

•

GRUB is an open source distributed search crawler that Wikia

Search ( ) uses to crawl the web.

•

Heritrix is the Internet Archive’s archival-quality crawler,

designed for archiving periodic snapshots of a large portion of

the Web. It was written in Java.

•

•

ht://Dig includes a Web crawler in its indexing engine.

HTTrack uses a Web crawler to create a mirror of a web site for

off-line viewing. It is written in C and released under the GPL.

•

ICDL Crawler is a cross-platform web crawler written in C++

and intended to crawl Web sites based on

发布者：admin，转转请注明出处：http://www.yc00.com/xiaochengxu/1687982011a63455.html

网站建设
2020-03-28Airtest爬虫——以安居客APP为例
2020-03-28Airtest爬虫——以安居客APP为例
admin
2023-6-29
300
建站资讯
github水文代码干货
github水文代码干货
admin
2023-6-29
250
网站建设
python如何全网爬取_Python爬取全网热点榜单数据
python如何全网爬取_Python爬取全网热点榜单数据
admin
2023-6-29
260
网站建设
python自动生成采集规则_为采集动态网页安装和测试PythonSelenium库_百...
python自动生成采集规则_为采集动态网页安装和测试PythonSelenium库_百...
admin
2023-6-29
280
小程序
Scrapy+Selenium爬取动态渲染网站
Scrapy+Selenium爬取动态渲染网站
admin
2023-6-29
210
建站资讯
Puppeteer使用示例详解
Puppeteer使用示例详解
admin
2023-6-29
290
建站资讯
Puppeteer环境搭建的详细步骤
Puppeteer环境搭建的详细步骤
admin
2023-6-29
320
网站建设
《大数据技术原理及应用》题目
《大数据技术原理及应用》题目
admin
2023-6-29
230
小程序
电信大学(大数据、5G、云计算)考试题库(含答案)
电信大学(大数据、5G、云计算)考试题库(含答案)
admin
2023-6-29
520
小程序
为Hadoop集群选择合适的硬件配置
为Hadoop集群选择合适的硬件配置
admin
2023-6-29
290
建站资讯
BeautifulSoup4之table数据提取
BeautifulSoup4之table数据提取
admin
2023-6-29
340
小程序
Hadoop大数据期末复习题
Hadoop大数据期末复习题
admin
2023-6-29
350
建站资讯
前后端分离框架在软件设计的应用
前后端分离框架在软件设计的应用
admin
2023-6-29
310
小程序
python识别数学公式_效率倍增!5款超级好用的Python工具库!
python识别数学公式_效率倍增!5款超级好用的Python工具库!
admin
2023-6-29
350
小程序
shiro初步了解
shiro初步了解
admin
2023-6-29
360
小程序
python自动化测试面试题代码_自动化测试开发面试题(一)
python自动化测试面试题代码_自动化测试开发面试题(一)
admin
2023-6-29
230
网站建设
新闻信息检索系统设计
新闻信息检索系统设计
admin
2023-6-29
420
建站资讯
web前端面试题(及答案)
web前端面试题(及答案)
admin
2023-6-29
210
建站资讯
VueSSR理解+优缺点
VueSSR理解+优缺点
admin
2023-6-29
370
小程序
人工智能深度学习模式识别机器学习神经网络实验室建设方案
人工智能深度学习模式识别机器学习神经网络实验室建设方案
admin
2023-6-29
310

发表回复

评论列表（0条）

暂无评论

联系我们

400-800-8888

在线咨询： QQ交谈

邮件：admin@example.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信