用于设备缺陷分类的实现方法及系统技术方案

技术编号:31020531 阅读:35 留言:0更新日期:2021-11-30 03:08
本发明专利技术涉及设备缺陷数据分析领域,为用于设备缺陷分类的实现方法及系统,其方法包括:获取文本数据,并对文本数据进行预处理,所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息;基于BERT模型对预处理后的文本数据进行训练得到初始化BERT模型;通过调整模型参数和修改样本标注数据对初始化BERT模型进行优化;利用优化后的BERT模型对设备缺陷数据进行预测得到设备缺陷分类结果;基于约束规则对BERT模型预测后的结果进行二次优化得到最终的分类结果。本发明专利技术首先根据已标注的设备缺陷数据训练通用的缺陷分类模型,再利用该模型对未标注的设备缺陷数据进行预测,能够快速准确的实现缺陷分类,为数据分析应用实时响应奠定基础。定基础。定基础。

【技术实现步骤摘要】
用于设备缺陷分类的实现方法及系统


[0001]本专利技术涉及设备缺陷数据分析领域,具体涉及用于设备缺陷分类的实现方法及系统。

技术介绍

[0002]企业信息系统存储着大量的设备缺陷数据,此数据日积月累,已成为公司重要的数据资产。企业管理由原先的粗放式管理逐步转化为精细化管理,设备管理部门需通过设备的历史缺陷来管理供应商的供货质量,制定设备巡检计划和设备防护措施来避免设备缺陷的发生,从而达到设备管理的精细化管理。由于设备类别众多,设备缺陷数据存在数据填写不规范、存在歧义、填写内容无实际价值等特点,给设备管理部门对该缺陷数据的利用率不高。目前设备管理部门使用设备缺陷数据时,主要是通过人工标注来实现,而人工标注耗时耗力,标注易出错,对设备缺陷数据的分析应用带来很大的困难。

技术实现思路

[0003]本专利技术提出用于设备缺陷分类的实现方法来解决上述现有技术所存在的问题,首先根据已标注的设备缺陷数据训练通用的缺陷分类模型,再利用该模型对未标注的设备缺陷数据进行预测,能够快速准确的实现缺陷分类,为数据分析应用实时响应奠定基础。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于设备缺陷分类的实现方法,其特征在于,包括以下步骤:步骤S1、获取文本数据,并对文本数据进行预处理,所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息;步骤S2、基于BERT模型对预处理后的文本数据进行训练,得到初始化BERT模型;步骤S3、通过调整模型参数和修改样本标注数据对初始化BERT模型进行优化;步骤S4、利用优化后的BERT模型对设备缺陷数据进行预测,得到设备缺陷分类结果;步骤S5、基于约束规则对BERT模型预测后的结果进行二次优化,得到最终的分类结果。2.根据权利要求1所述的实现方法,其特征在于,步骤S1包括:S11、建立缺陷词库;S12、将文本数据的内容按分隔符进行切分,切分后得到多个分段文本;S13、判断切分后的各分段文本是否为有价值的内容描述;假如某分段文本不包含缺陷词库的描述,则该分段文本的内容被视为无价值的描述,将其舍弃;S14、将有价值的分段文本重新组合,得到最终预处理后的文本数据。3.根据权利要求1所述的实现方法,其特征在于,步骤S2包括:S21、获取预处理后的文本数据,将缺陷类型信息按预设数量划分得到均匀分布的样本数据,将样本数据按比例分为训练集、验证集和测试集;S22、将缺陷描述信息转换为BERT模型所需的特征向量,所述特征向量包括词向量、分段向量和位置向量;S23、输入特征向量和相应的模型参数,用BERT模型对文本数据进行训练,得到文本数据的标签得分;S24、根据设备类别和标签得分对分类结果进行优化;S25、验证模型的准确率,并保存模型。4.根据权利要求3所述的实现方法,其特征在于,步骤S4包括:S401、获取原始数据,其数据字段包含设备类别、缺陷描述信息;S402、读取缺陷词库,并将缺陷词库定义为一个集合P;S403、读取缺陷描述信息转换后的特征向量,依据转换成向量的方法,把集合P的所有缺陷词库都转化为向量值;S404、读取对文本数据预处理后需要预测的词语,对其进行向量化,定义集合Q;S405、定义相关性算法,通过计算角度距离判断词语的相关性;S406、针对需要预测的词语和缺陷词语进行逐个判断,找出相关性大的词语,然后通过反向溯源找到缺陷词语所在的句子;S407、定义与出现在句子中的缺陷词库里的词语相关的词语作为相关词;S408、根据相关词定义相关词的词库集合CP,并对词库集合CP进行向量化;S409、针对句子拆分出来的词集合W,删除缺陷词库的集合P出现的词,把剩余的词与词库集合CP进行角度距离大小的计算;S410、对某个句子,根据角度距离大小判断相关性,筛选出有接近相关性词语的词的句子;S411、对缺陷词语的频度进行调查,统计出含有缺陷词语和相关性词语在一批句子中的频度。
5.根据权利要求4所述的实现方法,其特征在于,步骤S405的相关性算法计算如下:式中P代表集合P里某个缺陷词的向量,Q代表集合Q里某个需要预测的词语的向量,β为P、Q两个向量的夹角。6.根据权利要求4所述的实现方法,其特征在于,步骤S411中频度的统计方法为:定义一个频度集合Z(F
i
),设出现缺陷词语的句子条数为n,这些出现缺陷词语的句子中含有多个相关缺陷词语个数为L,相关词在全文中出现的次数为num,所统计的句子总条数为fnum,被标记为告警级别和以上级别的句子条数为T,定义公式如下:数为T,定义公式如下:其中,i=1,2,3,...,n,通过以上公式...

【专利技术属性】
技术研发人员:刘建华孟禹刘良洁林涛
申请(专利权)人:佰聆数据股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1