2023年7月23日发(作者:)
KDDCup99⽹络⼊侵检测数据的分析该数据集是从⼀个模拟的美国空军局域⽹上采集来的 9 个星期的⽹络连接数据, 分成具有标识的训练数据和未加标识的测试数据。测试数据和训练数据有着不同的概率分布, 测试数据包含了⼀些未出现在训练数据中的攻击类型, 这使得⼊侵检测更具有现实性。在训练集中包含了1种正常的标识类型 normal 和 22种训练攻击类型。1、KDDCup99⼊侵检测实验数据的标识类型标识类型NormalDOSProbingR2LU2R含义正常记录拒绝服务攻击监视和其他探测活动来⾃远程机器的⾮法访问普通⽤户对本地超级⽤户特权的⾮法访问具体分类标识normalback, land, neptune, pod, smurf, teardropipsweep, nmap, portsweep,satanftp_write, guess_passwd, imap, multihop, phf, spy, warezclient, warezmasterbuffer_overflow, loadmodule, perl, rootkit标识位⽤来表⽰该条连接记录是正常的,或是某个具体的攻击类型;(正常标识有⼀种,攻击标识有22种)DOS:有6种,back,land,neptune,pod,smurf,teardroplProbing:有4种,ipsweep,nmap,portsweep,satan;R2L:有8种,ftp_wrute,guess_passwd,imap,multipod,phf,spy,warezclient,waremaster;U2R:有4种,buffer_overflow,loadmodule,perl,rootkit;2、特征属性在41个固定的特征属性中,9个特征属性为离散型,其他均为连续型;duration,protocol_type,service,flag,src_bytes,dst_bytes,land,wrong_fragment,urgent,ho,num_failed_logins,logged_in,num_compromised,root_shell,su_attempted,num_root,num_file_creations,num_shells,num_access_files,num_outbound_cmds,is_host_login,is_guest_login,count,srv_count,serror_rate,srv_serror_rate,rerror_rate,srv_rerror_rate,same_srv_rate,diff_srv_rate,srv_diff_host_rate,dst_host_count,dst_host_srv_count,dst_host_same_srv_rate,dst_host_diff_srv_rate,dst_host_same_src_port_rate,dst_host_srv_diff_host_rate,dst_host_serror_rate,dst_host_srv_serror_rate,dst_host_rerror_rate,dst_host_srv_rerror_rate,class通过对41个固定特征属性的分析,⽐较能体现出状态变化的是前31个特征属性,其中9个离散型,22个连续型。因此对连接记录的分析处理是针对该31个特征属性。接下来将这31个特征属性进⾏总结分析。3、单个TCP连接的基本特征特征名DurationProtocol_typeServicesrc_bytesdst_bytesflaglandwrong_fragmenturgent描述连接时间长度(单位:秒)协议类型,如tcp,udp在⽬标机的⽹络服务,如http,telnet等源地址到⽬标地址的数据流量⽬标地址到源地址的数据流量连接状态(正常或错误)错误碎⽚的数⽬紧迫数据包的个数类型连续型离散型离散型连续型连续型离散型连续型连续型1表⽰数据连接源地址和⽬标地址为同⼀主机或端⼝;0表⽰其他离散型4、⼀次连接中包含的内容特征特征名hotmum_failed_loginsloggged_innum_compromisedroot_shellsu_attemptednum_rootnum_file_creationsnum_shellsnum_access_filesnum_outbound_cmdsis_hot_loginis_guest_login描述访问系统敏感⽂件和⽬录的次数尝试登录失败的次数1表⽰成功登录,0表⽰其他受到威胁状态的次数1表⽰超级⽤户的shell外壳,0表⽰其他1表⽰命令执⾏尝试,0表⽰其他root权限访问的次数⽂件创作的操作次数shell提⽰符合的个数访问控制⽂件的次数⼀次ftp会话中传递命令的次数1表⽰属于热点清单的登录,0表⽰其他类型连续型连续型离散型连续型离散型离散型连续型连续型连续型连续型连续型离散型1表⽰guest⽤户登录,0表⽰其他⽤户名登录离散型在实验研究中, ⼀般使⽤ KDDCup99 中的⽹络⼊侵检测数据包kddcup_data_10percent。 kddcup_data_10percent 数 据 包 是 对kddcup_data 数据包( 约 490 万条数据记录) 10%的抽样。5、数据预处理1. 聚类算法中要使⽤计算距离的⽅法对数据进⾏聚类, ⽽连接记录的固定特征属性中有两种类型的数值: 离散型和连续型。 对于连续型特征属性, 各属性的度量⽅法不⼀样。2. ⼀般⽽⾔, 所⽤的度量单位越⼩, 变量可能的值域就越⼤, 这样对聚类结果的影响也越⼤, 即在计算数据间距离时对聚类的影响越⼤, 甚⾄会出现“⼤数”吃“⼩数”的现象。 因此为了避免对度量单位选择的依赖, 消除由于属性度量的差异对聚类产⽣的影响, 需要对属性值进⾏标准化。3. 设训练数据集有 n 条⽹络连接记录, 每个记录中有 22 个连续型属性向量记作 Xij(1≤i≤n,11≤j≤32)。 对 Xij 数据预处理分为两步: 数值标准化和数值归⼀化。6、以2秒时间窗⼝计算的流量特征特征名countserror_ratererroe_ratesame_srv_ratediff_srv_ratesrv_countsrv_serror_ratesrv_rerror_rate描述出现SYN错误的连接次数出现REJ错误的连接次数建⽴相同服务的连接次数建议不同服务的连接次数出现SYN错误的连接次数出现REJ错误的连接次数类型连续型连续型连续型连续型连续型连续型过去2秒内与当前连接有着相同的⽬的地址的连接连续型过去2秒时间内出现和当前连接服务相同的连接次数连续型srv_diff_host_rate特征名连接不相同主机的次数描述连续型类型7、31个特征属性8、⼩结在基于数据挖掘的⽹络⼊侵检测技术研究中, 数据源的获取是研究的基础;数据源的预初步处理更是直接影响⼊侵检测技术的效果;9、KDDCup99数据集完整分析基本介绍:KDD CUP 99 dataset 即KDD竞赛在1999年举⾏的数据挖掘与知识发现竞赛时采⽤的数据集; 该数据集收集了9周时间的TCPdump(*)⽹络连接和系统审计数据,仿真各种⽤户类型、各种不同的⽹络流量和攻击⼿段;
原始数据包含两个部分: (1)7周时间的训练数据(**),⼤概包括5000000多个⽹络连接记录; (2)剩下的2周时间的测试数据⼤概包含2000000个⽹络连接记录; ⽹络连接被标记为正常或异常,其中异常类型包括4⼤类39种攻击类型(22种攻击类型在训练集中,另外17种未知攻击类型出现在测试集中) (1)DOS攻击,denial-of service.拒绝服务攻击; (2)R2L,unauthorized access from a remote machine to a local machine.来⾃远程主机的未授权访问; (3)U2L,unauthorized access to local superuser privileges by a local unpivileged user.未授权的本地超级⽤户特权访问; (4)PROBING,surveillance and probing.端⼝监视或扫描 KDD99数据集总共41个特征,加上最后的标记,⼀共有42项;其中前41项特征分为4类: 数据为:2, tcp, smtp, SF, 1684, 363, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 104, 66, 0.63, 0.03, 0.01, 0.00, 0.00, 0.00, 0.00, 0.00, 标记为:normal详细分析: 1、TCP连接基本特征(共9种,1~9) duration:连接持续时间,连续;protocal_type:协议类型;service:⽬标主机的⽹络服务类型,离散类型; flag:连接正常或错误的状态;src_bytes:从源主机到⽬标主机的数据的字节数,连续类型;dst_bytes:从⽬标主机到源主机的数据的字节数,连续类型; land:若连接来⾃同⼀个主机则为1,否则为0;wrong_fragment:错误分段的数量,连续类型;urgent:加急包的个数,连续类型。 2、TCP连接的内容特征(共13种,10~22) hot:访问系统敏感⽂件和⽬录的次数,连续;num_failed_logins:尝试登陆失败的次数,连续;logged_in:成功登录为1,否则为0; num__compromised:compromised条件(**)出现的次数,连续;root_shell:若获得root shell则为1,否则为0;su_attempted:若出现"su root"命令则为1,否则为0; num_root:root⽤户访问次数,连续;num_file_creations:⽂件创建操作的次数,连续;num_shells;使⽤shell命令的次数,连续; num_access_files:访问控制⽂件的次数,连续;num_outbound_cmds:⼀个FTP会话中出站连接的次数,连续;is_hot_login:登录是否属于“hot”列表(***),是为1,否则为0; is_guest_login:若是guest登录则为1,否则为0; 3、基于时间的⽹络流量统计特征(共9种,23~31) 只观察过去两秒内与当前连接有相同⽬标主机的连接(same host) 只观察过去两秒内与当前连接有相同服务的连接(same service) count:过去两秒内,当前连接具有相同⽬标主机的连接数,连续;srv_conut:与当前连接具有相同服务的连接数;serror_rate:与当前连接具有相同⽬标主机的连接中,出现"SYN"错误的连接的百分⽐,连续; srv_serror_rate:与当前连接具有相同服务的连接中,出现"SYN"错误的连接的百分⽐,连续;rerror_rate:与当前连接具有相同⽬标主机的连接中,出现"REJ"错误的连接的百分⽐;srv_rerror_rate:在当前连接具有相同服务的连接中,出现"REJ same_srv_rate:在与当前连接具有相同⽬标主机的连接中,与当前连接具有相同服务的百分⽐,连续;diff_srv_rate:在于当前连接具有相同⽬标主机的连接中,与当前连接具有不同服务的连接的百分⽐,连续;srv_diff_host_rate:在于当前连 4、基于主机的⽹络流量统计特征(共10种,32~41) 按照⽬标主机进⾏分类,使⽤⼀个具有100个连接的时间窗,统计当前连接之前100个连接记录中与当前连接具有相同⽬标主机的统计信息; dst_hots_count:前100个连接中,与当前连接具有相同⽬标主机的连接数,连续;dst_host_srv_count:与当前连接具有相同⽬标主机相同服务的连接数,连续;dst_host_same_srv_rate:与当前连接具有相同⽬标主机相同服务的连接所占的百 dst_host_diff_srv_rate:与当前连接具有相同⽬标主机不同服务的连接所占的百分⽐,连续;dst_host_same_src_port_rate:与当前连接具有相同⽬标主机相同源端⼝的连接所占的百分⽐,连续;dst_host_srv_diff_host_rate:与当前连接具有相 dst_host_serror_rate:与当前连接具有相同⽬标主机的连接中,出现SYN错误的连接所占的百分⽐,连续;dst_host_srv_serror_rate:与当前连接具有相同⽬标主机相同服务的连接中,出现REJ错误的连接所占的百分⽐,连续;dst_host_rerro st_host_srv_rerror_rate:与当前连接具有相同⽬标主机系湍妨维接中,出现REJ错误的连接所占的百分⽐,连续;连续量和离散量分类: 连续量:(5种)duration,src_bytes,dst_bytes,wrong_fragment,urgent; (8种)hot,num_failed_logins,num__compromised,num_root,num_file_creations,num_shells,num_access_files,num_outbound_cmds; (9种)count,srv_conut,serror_rate,srv_serror_rate,rerror_rate,srv_rerror_rate,same_srv_rate,diff_srv_rate,srv_diff_host_rate; (10种)dst_hots_count,dst_host_srv_count,dst_host_same_srv_rate,dst_host_diff_srv_rate,dst_host_same_src_port_rate,dst_host_srv_diff_host_rate,dst_host_serror_rate 离散量:5+5(来⾃哥伦⽐亚⼤学的Sal Stolfo 教授和来⾃北卡罗莱纳州⽴⼤学的 Wenke Lee 教授采⽤数据挖掘等技术对以上的数据集进⾏特征分析和数据预处理,形成了⼀个新的数据集。 该数据集⽤于1999年举⾏的KDD CUP竞赛中,成为著名的KDD99数据集。 虽然年代有些久远,但KDD99数据集仍然是⽹络⼊侵检测领域的事实Benckmark,为基于计算智能的⽹络⼊侵检测研究奠定基础)另外kddcup99数据集可参考:
发布者:admin,转转请注明出处:http://www.yc00.com/web/1690106209a306287.html
评论列表(0条)