2024年1月19日发(作者:)
学校代码:10004
密级:公开
北京交通大学
硕士专业学位论文
基于深度学习的铁路关键区域的入侵检测系统
Intrusion detection system for key railway areas
based on deep learning
作者姓名:郭磊 学 号:18125013
导师姓名:钟章队 职 称:教授
专业学位类别:电子与通信工程 学位级别:硕士
北京交通大学
2020年6月
致谢
转瞬间,两年的研究生生涯就要结束。在这两年的学习的过程中,收获满满。不仅收获了丰富的学识与实践经验,也收获了团队的友谊与拼搏的斗志。感谢北京交通大学给予的莫大支持,感谢一群乐观向上的同学,让我的学习生涯变得充实。
感谢佳讯飞鸿智能科技研究院提供的帮助。在佳讯实践的一年来,在佳讯提供的平台上,拥有了一次次锻炼自己的机会,得到了成长与进步。
感谢我的导师钟章队教授,在研究的过程中您的谆谆教诲给予了我无数的思想启迪,在学习中关心着我的研究进展,为我指点迷津,在生活中时刻关心着我的身心健康。感谢我的校外导师钟昊老师,您的指导让我更好地将知识理论与工程应用相结合在一起,学以致用,知行合一。在此谨向两位导师致以诚挚的敬意,祝福两位导师身体健康,万事如意。
感谢陪伴我的小伙伴宗孝鹏、于忠杰、侯尚尚、银行以及于瑶佳、刘语馨同学。和你们一起相处的一年时间里,我们朝夕相处,共同进步,感谢你们给予我的关心与照顾,祝愿我们的友谊长存。
特别感谢我的父母,父母二十几年来的养育之恩无以为报,您们的悉心栽培助我取得的今天的成就。父母的理解与关怀是我成长路上的坚强后盾,给予了我前进路上的无限动力。
两年的硕士研究生涯已经告一段落,即将开始新一轮的生活与挑战。祝福陪伴我两年的同学。祝我们的人生旅途都可以一帆风顺,未来前途似锦。
摘要
在目前的铁路系统场景下,关键区域(包括桥梁、隧道及咽喉区域)不允许外来人员上道,但经常会发生人员等外物私自入侵铁路关键领域,导致重大事故的发生。随着人工智能技术的兴起,深度学习已经成为一种较为普遍的技术来代替重复的人工操作,可以在精度相同甚至高于人类识别精度的情况下,大幅度提升工作效率。本文提出一种新型的基于深度学习的铁路关键区域的入侵检测系统,实现了关键区域内的异物目标的识别检测,去除非关键区域外的异物干扰。系统在关键区域内识别检测发现存在异物时,会主动发出告警信息,避免入侵事故的发生,并在web终端中进行数据分析统计为工作人员提供全面的入侵信息。入侵检测系统采用deeplab语义分割模型实现了铁路关键区域的识别检测,在图像背景发生变化时仍可以正确识别出铁轨区域,采用YOLO目标检测网络实现了异物识别,对比异物目标位置与铁轨关键区域是否存在交集判断是否发生入侵事件。为了提升检测的效率,本文对目标检测网络提出优化改进方法,进行稀疏化训练并压缩裁剪。最终检测数据通过基于finereport的终端数据平台实现分析统计。终端数据平台实时上报检测信息并发出入侵事件预警。本文的主要研究内容和研究工作为:
(1)本文采用deeplabv3和YOLOv3相结合的方式,实现铁路关键区域内的异物识别检测,区分铁轨区域内的异物与非铁轨区域的异物。在摄像头发生转动或变焦时,图像背景发生变化后对铁路关键区域仍可以智能进行再次识别,无需人为修正。
(2)本文针对YOLOv3目标检测检测模型进行优化改进,使模型更适合于铁路场景下的目标识别。通过压缩裁剪模型参数体积,使模型参数体积更小,不仅减少了模型运算时的内存占用,而且提高了模型的检测性能,提升了运算速度,提高了检测效率。
(3)本文针对入侵检测结果,搭建了入侵检测数据的终端平台网页。入侵检测数据上报入侵检测系统终端平台,在终端平台上可以实时查看入侵检测结果,并完成数据的统计分析,提供更全面的监控信息。
该入侵检测系统对轨道关键区域的检测准确率可以实现95%以上。优化改进后的检测模型更适应铁路场景下目标的检测,mAP由0.77提升至0.95,对模型进行压缩裁剪后损失不超过0.01。裁剪后的模型内存占用缩小为原始模型的五分之一,模型同步检测的视频流数由6路提升到10路,在相同的计算资源下,检测效率提升了8倍。
关键词:入侵检测;关键区域识别;目标识别;压缩裁剪
ABSTRACT
In the current railway system, key areas (including bridges, tunnels, and throat areas)
are not allowed to enter the road. However, the objects such as people often illegal enter
the key areas of the railway without permission, leading to major accidents. With the rise
of artificial intelligence technology, deep learning has become a more common
technology to replace repeated manual operations, which can greatly improve efficiency
with the same accuracy or even higher than human recognition accuracy. This paper
proposes a new type of intrusion detection system for railway critical areas based on deep
learning, which can effectively identify foreign objects in key areas, ignore foreign object
of non-critical areas, and identify and detect key areas of interest automatically. When the
system detects the foreign objects in key areas, it will actively send out alarm information
to avoid the occurrence of intrusion accidents. Data analysis and statistics in the web
terminal are provided to the staff with comprehensive intrusion information. The system
uses the deeplab semantic segmentation model to ensure that the railway area can still be
identified when the background of the image changes, and the key and non-key areas are
segmented. The part of object detection uses the YOLO model. The system compares
whether personnel intrusion has occurred acoording to the foreign object and the key area
of the railway are overlap. In order to improve the detection efficiency, this paper
proposes optimization and improvement methods for the object detection model which is
sparsely trained, compressed and cut. The final detection data is analyzed and calculated
through the terminal data platform based on finereport. The terminal data platform reports
detection information in real time and issues an early warning of intrusion events. The
main research content and research work of this paper are:
(1) In this paper, the system uses the combination of deeplabv3 and YOLOv3 to
realize the detection of foreign objects in key areas of the railway, distinguishing between
foreign objects in the rail area and foreign objects in the non-rail area. The system can
intelligently re-identify key railway areas after the background of the image is changed
when the camera is rotated or zoomed, without human correction.
(2) This paper optimizes and improves the YOLOv3 object detection model to make
the model more suitable for object recognition in railway scenarios. By compressing and
cutting the model parameter volume, the model parameter volume is made smaller, which
not only reduces the memory consumption during model calculation, but also improves
the detection performance of the model, increases the calculation speed, and improves the
detection efficiency.
(3) This paper builds a terminal platform webpage based on intrusion detection
results. The intrusion detection data is reported to the terminal platform of the intrusion
detection system, and the intrusion detection results can be viewed on the terminal
platform in real time, and the statistical analysis of the data is completed to provide more
comprehensive information.
The detection accuracy of the railway key area of intrusion detection system can
reach more than 95%. Optimized detection model is more suitable for object detection in
railway scene. The mAP is increased from 0.77 to 0.95. After the compression and cutting
of the model, the loss does not exceed 0.01. The memory usage of the cut model is reduced
to one-fifth of the original model. The number of simultaneously detected video streams
increases from 6 streams to 10 streams. The efficiency has increased by 8 times under the
same computing resources.
KEYWORDS:intrusion detection; key area recognition; object detection; model
compression
目录
摘要 ............................................................ iii
ABSTRACT ...................................................... iv
1 绪论 ........................................................... 1
1.1
研究意义 ................................................... 1
1.2
国内外研究现状及发展趋势研究 ............................... 1
1.2.2 国外研究现状 ........................................... 2
1.2.3 发展趋势 ............................................... 3
1.3
深度学习发展研究 ........................................... 4
1.3.1 深度学习发展概况 ....................................... 4
1.3.2 基于深度学习的计算机视觉技术 ........................... 5
1.4
论文主要内容及章节安排 ..................................... 7
2 入侵检测系统架构 ............................................... 9
2.1
入侵检测系统结构设计 ....................................... 9
2.2
入侵检测实现 .............................................. 10
2.3
入侵检测系统实验数据集与环境配置 .......................... 11
2.3.1 实验数据集介绍 ........................................ 11
2.3.2 实验数据增强 .......................................... 13
2.4
入侵检测实验环境配置 ...................................... 14
2.5
本章小结 .................................................. 15
3 基于深度学习的区域分割和目标检测 .............................. 16
3.1
深度神经网络结构 .......................................... 16
3.1.1 卷积层 ................................................ 16
3.1.2 激活函数 .............................................. 18
3.1.3 Batch-nomalization ...................................... 20
3.1.4 池化层与上采样层 ...................................... 21
3.2
基于deeplabv3的关键区域分割 ............................... 22
3.2.1 Deeplabv3模型结构 .................................... 22
3.2.2 Deeplabv3实验测试结果 ................................ 25
3.3
基于YOLOv3的目标检测 ................................... 27
3.3.1 YOLOv3模型结构 ...................................... 29
3.3.2 YOLOv3实验检测结果 .................................. 31
3.4
本章小结 .................................................. 33
4 优化改进的YOLOv3目标检测网络 ............................... 35
4.1
YOLOv3的优化剪枝 ........................................ 36
4.1.1 YOLOv3的稀疏化训练 .................................. 37
4.1.2 YOLOv3的压缩裁剪 .................................... 38
4.2
实验结果与分析 ............................................ 39
4.2.1 特征提取网络结构实验结果与分析 ........................ 39
4.2.2 特征组合网络结构实验结果与分析 ........................ 41
4.2.3 YOLOv3优化实验结果与分析 ............................ 42
4.3
本章小结 .................................................. 44
5 视频结构化分析平台搭建 ........................................ 46
5.1
Finereport等相关软件介绍 ................................... 46
5.2
基于finereport的数据平台搭建 ............................... 47
5.3
本章小结 .................................................. 52
6 总结与展望 .................................................... 53
参考文献 ......................................................... 55
附录 A .......................................................... 58
附录 B .......................................................... 59
作者简历及攻读硕士学位期间取得的研究成果 ......................... 60
独创性声明 ....................................................... 61
学位论文数据集 ................................................... 62
1 绪论
1.1 研究意义
铁路沿线路段经常发生入侵事件:当地村民阻拦施工、阻拦火车通行、铁路线贯通地线被盗等,给铁路系统正常运营造成重大安全隐患,因此实施建设了电子监控系统工程,对重点部位进行安防监控。目前,视频监控中心主要依靠人工值守,不仅消耗大量的人力和物力资源,而且人工值守查看的视频内容有限,通常只监视重要场景,容易产生疏漏。视频监控的主要作用是事后追责,然而大量监控视频无人查看,资源未得到充分利用。
目前很多视频监控摄像头都具有入侵检测功能,主要是基于动/静态场景建模、运动检测来实现的,无法区分正常列车通行和人员入侵行为,而且容易受恶劣天气和光线变化等因素影响[1,2],虚警率非常高,同时也无法识别入侵物体的属性,比如:判断是人员入侵,还是列车正常通行。
传统视频监控是以被动方式运作的,无法在事前主动侦测事件以防止危险事件发生。随着人工智能技术的发展,特别计算机视觉技术的日趋成熟。利用人工智能技术,对视频监控中的人员入侵行为进行智能检测,保障铁路运输安全,将是一种有效的手段。
本文研究在铁路系统的视频监控环境下的入侵检测技术,提出了一种新型的入侵检测系统,运用深度学习的方法在无人值守的情况下,实现铁路沿线回传的监控视频的抽帧和视频分析处理,识别检测图像中存在入侵的行为。当系统检测出图像中的入侵危险行为时,预警上报至终端数据平台,以避免因入侵而导致的意外事故发生,从而保证铁路系统的正常运输安全。该系统使用计算机视觉技术代替人工进行重复的视频数据的分析和理解工作,能够实现铁路沿线(包括桥梁、隧道、咽喉等)下室外全天候的7*24小时实时视频监控检测。当发生入侵事件时,入侵检测系统将主动推送预警信息,在摄像头本地播放语音对入侵人员进行驱离警告,并以结构化数据的方式记录事件发生的时间、地点,并在终端数据平台提供入侵检测的详细信息。
1.2 国内外研究现状及发展趋势研究
1.2.1 国内研究现状
在国内,视频监控分析技术也被应用在各个安防领域[3]。视频监控技术在铁路系统中的应用起步较晚,但发展速度较快。目前,多个视频监控站点已经在实际的应用场景中运用了视频监控技术,如济南西站货场、编组场的数字视频监控系统、青岛站的编组场电视监控系统、大石桥站的客运电视监控系统、株洲站的视频监控系统,广州市安装完毕25万个治安摄像机,北京在26.3万台摄像机的基础上,又在所有重点单位、人员聚集的公共场所、重要的交通枢纽、城市重要基础设施及法律法规规定的重点区域安装公共图像信息系统并且全部与警方监控网联网。上海在马路上安装20多万个监控摄像机,全面建立“社会防控体系”。海量的监控图像迫切需要视频监控系统智能地预警、选择、压缩、存储和检索内容。
尽管在实际的铁路运行系统中,各种视频监控系统已经得到了应用,但由于应用技术的不同,各系统之间存在着很大的差异。在这种情况下,铁道部发布了全路综合视频监控系统技术规范,规范中对系统结构、功能要求、性能要求等方面都做出了统一的要求,以使得铁路视频监控技术规范化,在全路范围内统一应用。在规范中规定,全路视频监控系统共分为三个层次:视频核心节点、视频区域节点、视频接入节点。这些节点每天都需要记录下大量的视频数据记录,并且需要大量的人力进行人工的视频数据筛查和监视工作。由于汇集了大量的视频,存在工作人员易疲劳、很难实时监控每路视频、报警精确度差、误报和漏报现象多、报警响应时间长、录像数据分析困难等弊端。不仅难以达到监控并及时发出预警的效果,而且还会消耗大量的人力物力资源,视频监控的实时特性很难被发掘出来,无法体现视频监控的技术优越性。实时的视频监控能够有效保护铁路上重要设施,保障铁路系统的正常运行,视频监控能够提供准确的检测信息,合理运用可以规避大量铁路事故的发生。同时,视频监控系统拥有良好的可扩展性和重塑性。为了充分利用好视频监控系统,铁路系统下的综合视频数据监控及分析系统的建设必不可少。
1.2.2 国外研究现状
在国外,视频监控系统技术已经相对成熟,并且得到了广泛的应用[4]。如英国朴次茅斯“Perceptrak”的智能监控网络,当监控网络发现可以人员或车速过快等异常情况时,将及时发出警报。该网络负责对全市实施全天24小时的实时监控,并取得了良好的效果。在铁路方面,德哥尔摩市实施了一种非法进入轨道的警示预警系统,当系统发现有人非法进入铁路轨道上时,会向其发出警示进行驱离,并且隧道中的警报器会被激活,中央安全中心将向列车驾驶员发出告警信息。巴黎地区的铁路视频数据监控系统目前是世界上最大的CCTV视频监控系统之一,它包括了3000多路视频监控数据,能够满足铁路网络的各种各样监控需求;印度已经在
十多个城市的火车站和商业中心安装了约250个摄像头,这些安装在火车站和商业中心的摄像头引入了先进的智能视频分析技术,目前已经有十个场所被设立为试验地区。目前大部分智能视频监控系统的核心算法技术仍然掌握在美国以及欧洲地区等先进国家,国际市场上的智能视频监控系统占据很大的优势。美国的Vidient、Verint、ObjectVideo,以色列的Mate、IOimage,日本的NICE等。据IMS
Research调查显示,世界范围内IVS (Intelligent Video System)的市场占有率为35%~36%,其中美国的OV (Object Video)就占有了9%左右的比例。总的来看,经过长期的发展和积累,在政府和军队强有力的支持下,国外的智能视频应用市场正在从“概念验证”阶段向“规模应用”阶段转化,智能视频已经慢慢开始形成为一个产业。
总体而言,国外的视频监控技术已经在铁路系统中得到了非常广泛的应用,而且技术相对已经成熟,视频数据的智能分析技术也逐渐应用其中。无论在哪个领域,视频监控分析技术都发挥着至关重要的作用,为人们生活和工作提供重要的安全保障。
1.2.3 发展趋势
近些年来,随着人工智能技术的飞速发展,视频监控图像的智能分析技术也得到了广泛的发展,并应用于数字化和网络化的视频监控系统中。在一些发达国家已经将智能视频的分析技术应用于机场、车站、码头等关键区域的重要部位,为人们提供安全保障服务。
目前,我国铁路网已经大面积覆盖了全国主要省市和地区。铁路已经成为大众化的交通运输工具,同时对国家而言也是非常重要的基础设施,它在促进社会和经济的进步过程中发挥着十分重要的作用。然而,尽管铁路运输为社会创造价值,但它也产生了一定的负面影响。例如,铁路交通事故就是其中一个重要方面。铁路交通运输的安全问题,不仅是铁路运输企业产品质量的重要标志,同时是社会广泛关注的焦点。确保铁路交通运输的安全,有效地预防和控制铁路交通运输的安全事故发生,是一项长期而又艰巨的任务。
随着铁道部综合视频监控系统技术规范的发布,铁路视频监控系统在预防铁路事故方面的应用正在飞速地发展。但是,在引入大量的视频监控系统的同时,不可避免地会伴随着另外一个问题的出现,即面对大量的监控数据,人们该如何充分地处理和利用这些数据。目前,这些数据是专门安排监控人员进行视频数据的监视工作,但由于工作强度大,值守人员容易疲惫懈怠,从而发生疏忽遗漏的情况,这就迫切需要一种能够7*24小时全天候工作的智能化手段,辅助值班人员完成视频
监控任务。
1.3 深度学习发展研究
1.3.1 深度学习发展概况
人工智能的发展经历了三个阶段。第一阶段从20世纪50年代到60 年代,研究人员提出了人工智能的概念,主要注重逻辑推理的机器翻译,以命题逻辑、谓词逻辑等知识表达以及启发式搜索算法为代表;第二阶段从20世纪70到80 年代,提出了专家系统的人工智能技术,并且基于人工神经网络的算法研究发展迅速,随着半导体技术和计算硬件能力的逐步提高,人工智能技能逐渐开始突破,分布式网络降低了人工智能的计算成本;第三阶段自20世纪末以来,尤其是2006年开始进入了重视数据、自主学习的认知智能时代[5]。
人工智能技术已经成为近些年来的研究热点,随着人工智能技术的不断成熟和应用,人工智能正在逐渐丰富着人们的工作生活,智能化的产品不断增加为人们提供便捷的智能化生活。深度学习算法作为人工智能技术的一种,在计算机视觉和自然语言处理领域已经取得显著成果,例如车站中的人脸识别技术[6],手机中的语音识别和翻译等[7,8]。在提出深度学习以后,伴随着移动互联网的发展,人工智能应用场景开始逐渐扩展增多,深度学习算法也在语音和视觉识别方面都取得了突破,同时人工智能商业化高速发展。深度学习算法主要通过构建深度神经网络后,运用大量的采集数据送入神经网络运用线性变换和非线性变换进行多次的特征运算后,提取出存在于数据中的高层特征后,在损失函数的指导下网络会向任务方向进行训练与优化。
深度学习主要按功能划分,主要划分为计算机视觉与自然语言处理[9]两大方向。人工智能技术框架结构如图1-1所示,通过深度学习的两大模块让机器拥有和人一样的视觉功能和听觉功能,拥有接收和处理外界信息的能力。计算机视觉的最终目标就是使得计算机能够像人类一样通过视觉来认识和了解世界,它主要使用算法来识别分析图像。目前,计算机视觉最广泛的应用是人脸识别和图像识别技术。自然语言处理是指计算机拥有识别和理解人类文本语言的能力,并且是计算机科学与人类语言学的交叉学科。自然语言是人与动物之间的最大区别,人类的思维建立在语言之上,因此自然语言处理也就代表了人工智能的最终目标。如果机器想要实现真正的智能,自然语言处理则是必不可少的部分。自然语言处理按功能划分为语法语义分析、信息抽取、文本挖掘、信息检索、机器翻译、问答系统和对话系统7
个方向。
人工智能技术机器学习深度学习强化学习元学习自然语言处理计算机视觉目标检测语义分割
图1-1人工智能技术框架结构
Figure1-1 Artificial intelligence technology framework
1.3.2 基于深度学习的计算机视觉技术
目前,计算机视觉技术发展迅速,根据不同的任务特征又细分目标检测和语义分割两个最主要的大分支。
目标检测作为人工智能技术起步的基础任务之一,大量表现优异的深度网络结构在目标检测任务中被提出,包括AlexNet、VGGNet、Inceptionv3、ResNet、DenseNet以及SENet[10-15]。在深层卷积网络结构的发展过程中,错误率随着网络结构的复杂度提升而逐步降低,从AlexNet 的15.31% 降低至SENet 的2.3%,网络层数的总体趋势逐渐增加。随着网络层数的增加,网络参数也相应增加,因此也提出了网络参数压缩的研究,包括GoogLeNet的inception模块,ResNet的残差连接结构等。Hinton等人提出的AlexNet首次将深层卷积神经网络应用于大规模的图像分类问题中,并在ILSVRC2012的测试集中实现了将15.315%的错误率,比第二名26.172% 降低约11%,奠定了深层卷积神经网络在计算机视觉任务中的应用基础。目标检测的框架按照特征提取的过程可分为两类:一种是基于候选区域(R-CNN)的两步骤深层卷积神经网络框架如图1-2(a)所示,另一种则是基于边框回归的单步骤深层卷积神经网络框架图1-2(b)所示。其中,基于候选区域的两步骤深层卷积神经网络的目标检测框架将目标检测任务划分为两步分别提取信息再组合检测,首先网络会提取图片中特征信息,然后再将所有的提取到的特征信息作为输入,分别使用卷积神经网络进行特征细节组合和目标候选区域检测,最后,将两者的检测结果结合进行检测分类和边框回归校正,其中包括R-CNN,Fast R-CNN,Faster
R-CNN、和Mask R-CNN[16-20]等。基于边框回归的单步骤深层卷积神经网络框架是直接将预测任务作为回归问题,不再提取候选区域,将原始图像作为输入,然后进
行特征提取后直接进行特征组合后输出预测结果,是一种真正意义上的端到端的单网络框架,包括YOLO以及SSD[21-24]等。
候选区域网络目标检测结果输出输入图片特征提取特征图
a) 基于候选区域的两步骤深层卷积神经网络框架
a) A two-step deep convolution neural network based on
region proposal
输入图片特征提取目标检测结果输出
b) 基于边框回归的单步骤深层卷积神经网络框架
b) Single step deep convolution neural network framework based on regression
图1-2目标检测框架
Figure1-2 Object detection framework
随着深度神经网络在目标检测等领域上表现出极佳的效果之后,便激发了研究人员探索这类网络在像素级别的检测分类任务上能否发挥出同样的检测效果,作为更高级的任务——语义分割便由此产生。语义分割任务可以看作是进行图像像素级别分类任务,通过深度学习网络对每个像素进行类别的划分,最终输出属于某一物体的整个像素区域。尽管卷积神经网络已经广泛地应用于图像分类领域,但是在探索语义分割网络的过程中受到全连接层与池化层的限制,导致分割精度并不理想,早期的语义分割领域仍以传统方法为主。自2014年,加州大学伯克利分校的LONG等提出了一种全卷积的神经网络[25]( fully convolutional network, FCN)
如图1-3所示。他在网络的最末端用卷积层代替了原有的全连接层,不再将神经网络的输出限制为一维数组,将全卷积神经网络正式引入语义分割领域。同时,FCN不限制输入图像的尺寸,与传统方法相比,其分割速度大大提升。作为基于深度学习的图像语义分割的开山之作,目前检测精度较高的语义分割网络大部分是在FCN网络的基础结构上进行改进。
FCN网络利用CNN在图像上的强大学习能力提出了全卷积的概念,将一些现有的常用分类深度网络模型如VGG16、GoogLeNet[12,26]等网络的全连接层使用全卷积层来替代,这样做的优点删除了全连接层,使最终输出的结果是一张图片而不是一维向量,从而实现了端到端的语义分割任务;通过去除全连接层,可以实现任意尺度的图片输入,从而保证输入图片与输出图片的大小相等。由于卷积层后接有
池化层(又称下采样层),检测后图片的分辨率会受到池化层的影响。为了确保输入图片与输出图片的大小相等,FCN网络使用反卷积进行上采样,以使检测结果保持和原始图片相同的分辨率。基于全卷积网络的语义分割模型的分割结果较为粗糙,忽略了像素与像素之间的空间一致性关系。Google提出了一种新型的全卷积语义分割模型,该模型使用空洞卷积进行图像的特征提取,可以在不增加参数数量的情况下增加感受野,目前使用空洞卷积的语义分割模型主要是Deeplab[27-30]系列模型。
卷积全连接层输入层输出层3843842563962564
图1-3 FCN网络结构
Figure1-3 FCN Network structure
1.4 论文主要内容及章节安排
本文总共分为六个章节,主要研究基于深度学习的入侵检测系统在铁路系统中的应用,从轨道关键区域分割、入侵目标识别检测及入侵检测系统的搭建三个方面实现该应用研究,并在目标识别检测任务上进行一定的优化创新。
第一章为绪论。本章介绍了本文的研究背景及相关的研究现状,包含了入侵检测的研究、人工智能的演进和深度学习的发展,以及基于深度学习算法在计算机视
觉上的应用,并简要介绍相关算法及模型结构。
第二章为入侵检测系统架构。本章阐述了本文实现的入侵检测系统的结构设计、入侵检测的实现过程和该系统使用的实验数据集与环境配置,简要介绍入侵系统的功能模块划分及其检测的执行逻辑和本文所采用的数据标注类型及实验环境,数据的收集、标注和数据增强的实现方式。
第三章为基于深度学习的区域分割和目标检测。本章主要实现了入侵检测系统中的关键区域分割与目标识别检测并进行实验结果的测试,包含基于深度学习在图像任务上的基础结构与该系统在关键区域分割和目标识别检测任务上所采用的模型,并分析这些模型结构特点,训练后完成结果测试。
第四章为优化改进的YOLOv3目标检测网络。本章提出了入侵检测系统在应用实现上的改进之处,根据铁路场景下视频数据量巨大,实时监测要求高的现状提出更适合的模型结构。对原有的模型进行稀疏化训练后,根据权重进行模型的压缩裁剪,在不损失精度的情况尽可能的减小原始的模型大小,提高运算效率进行结果对比测试,并对提速后的结果进行合理分析。
第五章为视频结构化分析平台搭建。本章实现了入侵检测系统面向用户的终端平台的搭建。通过finereport的技术支持,结合关键区域检测和目标识别检测结果分析处理后的数据库,实现入侵检测终端在web上的部署应用,并根据数据库中的信息进行后台的数据统计,实现视频结构化分析。
第六章为总结与展望。本章总结了该系统在入侵检测应用所做的工作,并对未来入侵检测的发展进行了展望。
2 入侵检测系统架构
2.1 入侵检测系统结构设计
入侵检测系统的框架由轨道关键区域分割、入侵目标识别检测、入侵事件判定检测和终端数据统计平台四部分组成。入侵系统结构如图2-1所示描述了整个入侵检测系统框架的实现过程。第一部分为轨道关键区域的分割检测,其中包括了轨道图片数据的收集、筛选、标注、增强、训练与测试,该部分为入侵监测系统提供了需要重点关注的铁轨关键区域在图像中的位置信息,为后续的入侵目标识别检测及入侵事件判定提供信息依据;系统的第二部分为入侵目标识别检测,其中包括了入侵常见目标数据的筛选、标注、数据增强、模型的训练与改进及测试,该部分为入侵检测系统提供了更为重要的在图像数据中出现的入侵目标的类别及位置信息,这部分的检测数据与轨道关键区域分割检测的检测数据同时送入第三部分的入侵事件逻辑判定,根据铁路系统中的入侵事件规则界定是否发生入侵事件;第三部分为入侵事件判定检测,这部分主要进行对前两部分的检测数据进行分析与判定,运用前两部分的检测结果设计符合铁路系统规定的入侵检测执行逻辑判断是否图像数据中是否发生了入侵事件,并将检测结果整理输入至系统中的后台数据库中,该部分为系统提供检测结果的数据库,是入侵检测的结果输出和终端数据平台的数据输入;第四部分为终端数据统计平台,其中包括了数据库的统计分析与终端平台设计,该部分是入侵检测系统的结果展示,可以很好的为人员提供一个良好的数据分析处理平台。
图2-1入侵检测系统结构
Figure 2-1 Intrusion detection system structure
2.2 入侵检测实现
入侵检测实现主要完成了入侵检测的判定过程,并根据实际情况提出合理的优化策略,减少不必要的计算,减少资源占用及能源消耗进一步将整个系统的检测效率提高,实现检测的优化。
入侵检测实现框图如图2-2所示,在实验的过程中发现在进行轨道关键区域分割检测时,由于视频摄像头在不发生人为变焦移动等操作时,图像中的轨道关键区域是不发生变化的,轨道区域分割模块对同一路视频流的每帧图像进行检测后的结果在大多数情况下都是不会发生变化,为了避免重复检测造成资源的浪费,并且考虑到仍存在特殊情况铁路系统人员调用摄像头查看路况信息,在保证不发生漏检的情况尽可能的减小关键区域的检测次数。通过海康的sdk,可以有效的获取到视频摄像头状态信息判断摄像头是否发生移动并设置区域分割检测标志位,当检测出摄像头发生移动并停止移动后或当前图像为该路视频流的第一张图像时,区域分割检测标志位将会置为True,进行区域分割检测获取铁轨区域在图像中的点集坐标进行存储。在进行目标识别检测时,视频流则以一秒一帧的速率获取图像进行检测,在识别出图像中出现入侵目标后,将目标坐标与存储的轨道关键区域分割检测出的点集坐标进行比对。若两者存在交集则视为发生了入侵事件,入侵检测判定系统会自动的生成检测图像并在服务器的固定文件下进行存储,并将该图像路径、入侵目标类别、属性、个数、入侵的开始时间和结束时间存入入侵检测数据库。终端数据统计平台通过读取数据库表中的内容,进行后台的分析与统计,在web端面向用户展示入侵检测结果,入侵包含占比及次数分布特点并发出预警信息。
图2-2入侵检测实现框图
Figure 2-2 intrusion detection implementation diagram
2.3 入侵检测系统实验数据集与环境配置
本节将对实验训练数据和实验环境配置进行介绍。本文采用的数据都是从铁路系统中收集正在运营的铁路路段的视频监控数据作为训练集和测试集,保证了数据的真实性和有效性。
2.3.1 实验数据集介绍
对收集的10T容量约1万8千多个的视频数据进行初筛选,从中筛选出存在人员或者不属于铁路系统内的异物物体的视频数据大约7000个视频数据,考虑到白天与夜晚数据之间存在的差异会对训练精度产生一定的影响,同时将白天和夜间的数据进行划分,因此将总的视频分为了白天与夜间两大类别,在白天与夜间类别下又划分了入侵视频与非入侵视频,共四小类视频数据分别进行数据整理和标注。
由于入侵检测系统包含了轨道关键区域分割、入侵目标识别检测两种关键的检测步骤,需要用到语义分割和目标检测两种不同的检测技术,因此需要的数据标注类型也不同。
用于语义分割技术的数据需要将物体的整个轮廓在图像中标记出来,物体的形状呈现不同,没有固定的外形,因此需要一种标注多边形的数据标注软件。Labelme是一种在图片中标记样点,再通过点和点之间依次顺序的连线构成任意的封闭图像的标注工具。采用labelme可以将图片以点集坐标的形式记录如图2-3(a)所示,很好的标记出图片中任意的多边形的位置信息并以json格式文件的形式存储,很好的适应语义分割模型像素级别任务,需要标记出物体的实际轮廓的训练需求。Labelimg则是一种较为简单的标注软件,可以在任意两点间标记出一个矩阵框,并将该矩阵框中的xmin,ymin,xmax,ymax四个点在图像中的位置坐标以xml格式的文件进行存储如图2-3(b),目标检测的模型训练及识别结果都是以矩形框为单位,labelimg也可以很好的适应目标检测的任务需求。因此采用labelme完成语义分割模型下轨道关键区域检测任务的标注文件,采用labelimg完成目标识别模型下入侵目标识别检测任务的标注文件。
为了保证训练的准确性,本次实验共标注了6000张数据图片,其中标注json格式文件2000张,该部分图片主要标出在图像中铁轨关键区域的外部轮廓;标注xml格式文件4000张,该部分图片主要是标出在图片中入侵人员或异物的外接矩形框。考虑到白天与夜间发生人员入侵事件的概率不同,其次晚上视线极容易受到光线的影响,实际夜晚检测精度不需要特别高,因此在两类数据中,白天与夜晚的
原数据比例为2:1。同时,轨道关键区域分割目标单一且特征在图像中明显所以标注数据数量相对较小,该系统的检测精度的关键在于目标的识别检测,入侵物体类别多且视野不同、发生的地点及光线都不相同,且目标大多数为小目标特征不明显所以数据比例相对较高。
a) Labelme标注图片
a) Labelme annotation picture
b) Labelimg标注图片
b) Labelimg annotation picture
图2-3 入侵检测系统实验数据
Figure 2-3 Experimental data of intrusion detection system
2.3.2 实验数据增强
本文在原有数据集的基础上,将目标检测的数据进行数据增强,通过python对原图片和标注文件进行同步变化保证两者的一致性,不再需要额外重复的标记工作。对原数据图片进行了旋转、镜像和饱和度三种微调的方式如图2-4所示,通过计算变化前后的仿射矩阵,将标注文件中的四点坐标在仿射矩阵上进行映射,计算变换后目标的外接矩阵四点的坐标信息,同步生成变化图像和变化标注文件。每张图片都进行了旋转、镜像和饱和度三种方式的数据增强,使得目标检测的数据集扩充了3倍。
a) 旋转增强图像
a) Enhanced image of rotation
b) 饱和度增强图像
b) Enhanced image of saturation
c) 镜像增强图像
c) Enhanced image of symmetry
图2-4 实验数据增强结果
Figure 2-4 Experimental data enhancement results
2.4 入侵检测实验环境配置
本文使用tensorflow深度学习框架搭建轨道关键区域分割网络,使用pytorch的深度学习框架搭建入侵目标识别检测网络。本文不对轨道关键区域分割网络进行优化且tensorflow框架下的语义分割实现较为成熟稳定可靠,因而采用tensorflow框架下的语义分割模型。PyTorch是由Facebook的团队开发的深度学习框架,相比较tensorflow,pytorch更为简洁、易于使用、支持动态计算图而且内存使用很高效。本实验完成入侵目标识别检测后结合实际应用场景进一步对模型进行优化改进,pytorch框架更易于掌握应用,因此采用pytorch框架下搭建目标检测模型。本实验过程中所采用的具体硬件与软件的配置参数如表2-1所示。
表2-1 实验环境配置信息
Table 2-1 Configuration information of experimental environment
配置内容
CPU
GPU
CUDA
操作系统
配置信息
Intel(R)Xeon(R)********************
TITAN V
CUDA Version 9.0.176
Ubuntu 16.04.6 LTS
2.5 本章小结
本章介绍了入侵检测系统结构设计、入侵实现过程、实验数据处理和环境配置。入侵检测系统框架结构主要包含轨道关键区域分割、入侵目标识别检测、入侵事件判定检测和终端数据统计平台四部分协同完成入侵检测。实现流程完成了入侵检测实现的判定过程,并根据实际情况提出合理的优化策略,减少不必要的计算,减少资源占用及能源消耗进一步将整个系统的检测效率提高,实现检测的优化。实验数据处理实现了入侵检测系统的数据来源及数据的收集、标记与增强等相关工作。同时,由于入侵检测系统实现复杂,需要多种任务协调工作进行识别检测,在不同训练任务下,训练数据的格式也不相同并针对不同训练任务结合标注工具作出简要的介绍并说明数据集的比例分配。考虑到实际应用场景中,目标检测的应用场景和识别目标多变、类别众多,但是语义分割任务只有一种类别,训练任务相对简单,为此仅在用于目标识别检测的数据集上进行增强。对原有标记完成的数据进行镜像、旋转、饱和度三种数据增强的方式,将数据集扩充了3倍,为深度神经网络的训练提供足够的数据基础。最后对本实验研究的配置环境进行了说明。
3 基于深度学习的区域分割和目标检测
深度学习近几年在各个领域中的图像和语音任务上都取得了很大的突破,取得了很高的成果。在图像任务上,由于图像信息中相邻的像素点具有极高的关联,因此深度学习大多是利用图像中相邻像素之间具有一定的相关性采用卷积运算的方式构建神经网络称之为卷积神经网络(convolutional neural network,CNN),通过在一定大小卷积核在特征图上进行平移滑动卷积运算提取特征,使用特征来进行信息的传递与学习。通过研究表明,卷积神经网络中深层的网络上往往可以获得较为抽象的特征,通过在高维特征图上的不同特征组合完成不同的图像任务。特别在2014年由Jonathan Long提出的全卷积网络(FCN)之后,CNN网络的性能得到进一步提升,并将CNN应用在图像的语义分割领域,其将末端的全连接层替换为卷积层,使得神经网络的输出结果不在限制为一维数组,将卷积神经网络成功地引入语义分割领域完成图像分割任务。同时FCN网络不限制输入图像的尺寸大小,分割速度较传统方法有了很大提升,用于卷积运算的卷积核在特征图上滑动并且权值共享又大大缩小了模型的参数体积,使得模型可以更容易得到优化,运算效率进一步提升。
全卷积网络在很多图像任务上都有广泛的应用,虽然不同的网络或者不同的任务在网络结构上有所差异,但其基础的模型结构均采用全卷积的方式进行特征提取与特征组合。本文中的轨道关键区域分割与入侵目标识别检测均是采用全卷积的基本网络结构。本章主要实现了入侵检测系统中的关键区域分割与目标识别检测并进行实验结果的测试。
3.1 深度神经网络结构
3.1.1 卷积层
卷积层是网络结构中占比最多的结构是卷积神经网络最主要的组成部分,大部分的运算都在卷积层上进行,是卷积神经网络中最基础也是最重要的网络结构。后一层的卷积层通过卷积核在前一层的卷积层进行滑动得到如图3-1所示,卷积核中的参数也称之为权重,权重不同得到的特征也不同。
图3-1 卷积层运算操作
Figure 3-1 convolution operation
卷积层在网络中通过卷积核的滑动运算得到图像的特征信息,因此卷积核的维度、大小和个数等属性信息对神经网络的特征的提取都有很大影响。卷积核、上卷积(特征)层和下卷积(特征)层的关系,如公式(3.1)(3.2)所示:
发布者:admin,转转请注明出处:http://www.yc00.com/news/1705657162a1415991.html
评论列表(0条)