一种针对属性缺失报文的筛选方法及装置制造方法及图纸

技术编号:31021729 阅读:32 留言:0更新日期:2021-11-30 03:11
本发明专利技术提供一种针对属性缺失的报文信息的筛选方法,以信息增益准则来划分属性,选择信息增益最大的属性为最优划分属性;对于属性缺失的报文样本x,将x按照不同的样本权值同时划入所有子节点。本发明专利技术提出基于决策树的数据筛选算法,将有缺失值的报文加以利用,参与数据的属性划分,进而实现报文数据的筛选。进而实现报文数据的筛选。

【技术实现步骤摘要】
一种针对属性缺失报文的筛选方法及装置


[0001]本专利技术属于信息
,特别是涉及到一种针对属性缺失的报文信息的筛选方法及装置。

技术介绍

[0002]随着信息化水平日益提高,越来越多的报文信息获取系统装置应用于各行各业,人们可以在更短的时间内获得更多的信息。但随着信息量爆炸式的增长,靠人工方式从海量的信息中筛选出自己所需要的信息已经变得不现实,需要通过某种信息系统自动筛选有效信息,而通过信息系统实现筛选信息的前提是为系统设置预定的筛选条件,筛选通过的报文信息进入信息池等待相关人员阅读或进一步筛选,未通过筛选的报文信息按预设程序暂存或丢弃。因此,为系统设置预定的筛选条件至关重要,关系到系统筛选的成功率和效率。
[0003]因此,可针对某类型报文设置属性集,若报文在属性集上无缺失值,即可按照预设程序,通过样本在属性集上的属性值对样本进行划分筛选,但若报文在属性集上无缺失值,则不能通过常规方式进行划分。若直接将有缺失值的报文丢弃,可能会对报文信息造成极大的浪费,故需要针对属性缺失报文提出一种筛选算法。
专利
技术实现思路

[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对属性缺失的报文信息的筛选方法,其特征在于,包括:S1、获取报文数据作为训练集D,报文属性A={a1,a2,...a
d
},其中d为A的属性个数;S2、基于决策树算法,以根结点作为当前结点,进行分类;S3、从A中选择最优划分属性a
*
:若D无属性值缺失样本,则按照信息增益最大原则,找出信息增益最大的属性a,a即为最优划分属性a
*
;若D有属性值缺失样本,则按照含缺失属性的样本的信息增益的计算式计算信息增益最大的属性a,a即为最优划分属性a
*
;S4、针对最优划分属性a
*
,为当前结点生成分支,针对a
*
的每一个属性值a
v
,令D
v
表示D中在属性a
*
上取值为a
v
的样本子集,针对每一个值a
v
运行步骤S5;S5、若D
v
为空,则当前结点标记为D中样本数最多的类,当前结点筛选完成;若D
v
不为空,则生成以D
v
为训练集,属性A\{a
*
}为属性集的分支结点,以此作为当前结点返回步骤S2计算。2.根据权利要求1所述的一种针对属性缺失的报文信息的筛选方法,其特征在于,步骤S2中,所述分类的具体内容包括:针对当前结点,若D样本全部属于同一类别C,则将当前结点标记为类别C,当前结点标记为叶结点,分类完成;针对当前结点,若或D中样本在A上所有属性的取值都相同,则将当前结点标记为样本数最多的类,当前结点标记为叶结点,分类完成。3.根据权利要求1所述的一种针对属性缺失的报文信息的筛选方法,其特征在于,步骤S3所述含缺失属性的样本的信息增益的计算式为:其中ρ为D中无缺失值样本所占比例:ω
x
为一个样本x的权重。4.一种针对属性缺失的报文信息的筛选装置,其特征在于,包括:数据...

【专利技术属性】
技术研发人员:苏玉婷王立玢何海星王晗郭萌杨磊曹晓冬
申请(专利权)人:天津光电通信技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1