KDDCup99网络入侵检测数据介绍

KDDCup99网络入侵检测数据介绍

2023年7月23日发(作者:)

99网络入侵检测数据介绍

对于入侵检测的研究,需要大量有效的实验数据。数据的采集可以通过一些抓包工具来获得,如Unix下的Tcpdump,Windows下的Libdump,或者专用的软件snort捕捉数据包,生成连接记录作为数据源。在此,本文介绍基于数据挖掘的入侵检测技术研究中使用的KDDCup99[1]的网络入侵检测数据集。

该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据,分成具有标识的训练数据和未加标识的测试数据。测试数据和训练数据有着不同的概率分布,测试数据包含了一些未出现在训练数据中的攻击类型,这使得入侵检测更具有现实性。

在训练数据集中包含了1种正常的标识类型normal和22种训练攻击类型,如表1-1所示。另外有14种攻击仅出现在测试数据集中。

表1-1 KDDCup99入侵检测实验数据的标识类型

标识类型

Normal

DOS

含义

正常记录

拒绝服务攻击

具体分类标识

normal

back、land、neptune、pod、smurf、teardrop

ipsweep、nmap、portsweep、satan

ftp_write、guess_passwd、imap、multihop、phf、spy、warezclient、warezmaster

Probing

R2L

监视和其他探测活动

来自远程机器的非法访问

U2R

普通用户对本地超级用户特权的非法访问 buffer_overflow、loadmodule、perl、

rootkit

KDDCup99训练数据集中每个连接记录包含了41个固定的特征属性和1个类标识,如图1-1所示,标识用来表示该条连接记录是正常的,或是某个具体的攻击类型。在41个固定的特征属性中,9个特征属性为离散(symbolic)型,其他均为连续(continuous)型。

duration,protocol_type,service,flag,src_bytes,dst_bytes,land,

wrong_fragment,urgent,ho,num_failed_logins,logged_in,num_compromised,

root_shell,su_attempted,num_root,num_file_creations,num_shells,

num_access_files,num_outbound_cmds,is_host_login,is_guest_login,count,

srv_count,serror_rate,srv_serror_rate,rerror_rate,srv_rerror_rate,

same_srv_rate,diff_srv_rate,srv_diff_host_rate,dst_host_count,

dst_host_srv_count,dst_host_same_srv_rate,dst_host_diff_srv_rate,

dst_host_same_src_port_rate,dst_host_srv_diff_host_rate,

dst_host_serror_rate,dst_host_srv_serror_rate,dst_host_rerror_rate,

dst_host_srv_rerror_rate,class

0,udp,private,SF,

105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.0

0,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00,normal.

0,udp,private,SF, 105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00,0.00,0.00,1.00,0.00,0.0

0,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00,snmpgetattack.

在实验研究中,一般使用KDDCup99中的网络入侵检测数据包kddcup_data_10percent。kddcup_data_10percent数据包是对kddcup_data数据包(约490万条数据记录)10%的抽样。

2.数据预处理

聚类算法中要使用计算距离的方法对数据进行聚类[2],而连接记录的固定特征属性中有两种类型的数值:离散型和连续型。对于连续型特征属性,各属性的度量方法不一样。一般而言,所用的度量单位越小,变量可能的值域就越大,这样对聚类结果的影响也越大,即在计算数据间距离时对聚类的影响越大,甚至会出现“大数”吃“小数”的现象[3]。因此为了避免对度量单位选择的依赖,消除由于属性度量的差异对聚类产生的影响,需要对属性值进行标准化。对于离散型特征属性本文中并不作标准化处理,而是放在聚类算法中计算距离时处理。所以数据标准化是针对连续型特征属性的。设训练数据集有n条网络连接记录,每个记录中有22个连续型属性向量记作Xij(1≤i≤n,11≤j≤32)。对Xij数据预处理分为两步:数值标准化和数值归一化。

表1-4以2秒时间窗口计算的流量特征

特征名

count

serror_rate

rerror_rate

same_srv_rate

diff_srv_rate

srv_count

srv_serror_rate

srv_rerror_rate

描述 类型

过去的2秒内与当前连接有着相同的目的地址的连接 连续

注释:以下特征指对同一主机的连接

出现SYN错误的连接次数

出现REJ错误的连接次数

建立相同服务的连接次数

建立不同服务的连接次数

注释:以下特征指对同一服务的连接

出现SYN错误的连接次数

出现

REJ错误的连接次数

连续

连续

连续

连续

连续

连续

连续

连续

连续

过去2秒时间内出现和当前连接服务相同的连接次数 连续

srv_diff_host_rate

连接不相同主机的次数

发布者:admin,转转请注明出处:http://www.yc00.com/news/1690106737a306310.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信