BERT、NER实体抽取以及知识图谱的物料分类优化方法及系统技术方案

技术编号:37709871 阅读:24 留言:0更新日期:2023-06-02 00:01
本发明专利技术提供了一种BERT、NER实体抽取以及知识图谱的物料分类优化方法及系统,包括:步骤S1:处理基础文本,清洗物料数据;步骤S2:使用NER模型提取物料数据中的实体信息,并打上相应标签;步骤S3:基于带实体标签的物料数据,训练BERT模型;步骤S4:基于训练后的BERT模型对物料信息进行嵌入,使用kmeans对物料向量聚类修正分类,再次训练BERT分类器,直到所有类别的分类精确度高于预设值。本发明专利技术通过采用NER实体抽取模型提取物料信息中关键实体的结构,将原物料数据的物料信息进行增强,解决了BERT模型训练时难以快速聚焦重要文本信息的问题。问题。问题。

【技术实现步骤摘要】
BERT、NER实体抽取以及知识图谱的物料分类优化方法及系统


[0001]本专利技术涉及深度学习领域,具体地,涉及一种基于BERT、NER实体抽取以及知识图谱的物料分类优化方法及系统。

技术介绍

[0002]目前众多物料分类方法使用BERT+LSTM,BERT+CNN,BERT+CRF,或BERT模型变种试图通过使BERT更复杂来达到更优的分类效果,但这种方法在使训练成本大幅度上升的情况下提升有限,通常在5%以下。
[0003]专利文献CN110413785B(申请号:CN201910675003.8),公开了一种基于bert和特征融合的文本自动分类方法,包括:首先对文本数据进行清洗,通过BERT实现文本到动态字向量的转化,同时利用CNN和BiLSTM来提取文本的特征,将BERT输出的字向量序列分别传给CNN网络和BiLSTM网络;然后将CNN网络的输出和BiLSTM网络的输出拼接在一起,进行特征融合,最后,通过全连接层以及softmax层输出最终的预测概率向量。虽然使用了BERT+CNN+BiLSTM的分类方法,但极大的增加了模型训练本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种BERT、NER实体抽取以及知识图谱的物料分类优化方法,其特征在于,包括:步骤S1:处理基础文本,清洗物料数据;步骤S2:使用NER模型提取物料数据中的实体信息,并打上相应的实体标签;步骤S3:基于带实体标签的物料数据,训练BERT模型;步骤S4:基于训练后的BERT模型对物料信息进行嵌入,使用kmeans对物料聚类修正分类,再次训练BERT模型,直到所有类别的分类精确度高于预设值。2.根据权利要求1所述的BERT、NER实体抽取以及知识图谱的物料分类优化方法,其特征在于,在所述步骤S1中:模型训练样本数据包括名称、描述以及大类、中类、叶类字段;结合人工标注的词库对名称及描述数据分词,去除其中语义不符合预设标准的词汇,去除样本少于预设标准的叶类:步骤S1.1:基于词库,使用jieba分词工具对训练样本中的文本进行分词,分词后去除不符合预设标准的停用词;步骤S1.2:对各叶类包含的物料数量进行统计,将样本数量小于预设值的叶类删除。3.根据权利要求1所述的BERT、NER实体抽取以及知识图谱的物料分类优化方法,其特征在于,在所述步骤S2中:步骤S2.1:使用NER模型进行实体抽取:使用标注数据训练基于bert的实体抽取,标注使用BIOE方法,将标注后的数据交给基于BERT

CRF结构的NER模型进行训练,BERT

CRF对句子的token以及位置信息进行embedding,通过标注数据学习每一个token在具体上下文语境下以及具体位置时能够存在的标签,以预测标签的方式对文字里的实体进行抽取;步骤S2.2:将实体提取的结果插入原物料文本数据,NER得到标签,含义包括低点、材料、操作和品牌,写入到txt文件中,用于后续BERT模型的训练进程。4.根据权利要求1所述的BERT、NER实体抽取以及知识图谱的物料分类优化方法,其特征在于,在所述步骤S3中:根据实体提取后的数据集,训练BERT分类模型;通过BERT加softmax层形成基于bert的分类器,通过输入工业品物料信息+物料分类的数据,让BERT学习语言习惯以及物料分类方法,在预训练模型的基础上微调语义嵌入的权重网络,并训练分类器的权重网络。5.根据权利要求1所述的BERT、NER实体抽取以及知识图谱的物料分类优化方法,其特征在于,在所述步骤S4中:步骤S4.1:BERT训练结束后,观察BERT在所有类别上的分类正确率,F1

score为准确率和召回率的调和平均,通过判断F1

score的分布情况设置阈值,将分类效果低于阈值的叶类和这些低于阈值的分类结果中涉及到的被分错的叶类取出,再次进行kmeans聚类,迭代找到最佳的聚类数量,作为新分类,参与到下一次迭代中;步骤S4.2:kmeans通过寻找聚类中心的方式进行聚类,每一个叶类产生对应的聚类中心,使用曼哈顿距离计算类中心距离,选择类中心距离最小的两类叶类合并;步骤S4.3:再次进行NER提取和BERT训练,迭代进行直到所有类别的F1

score均高于阈值α或者模型性能达到预设标准。
...

【专利技术属性】
技术研发人员:夏竟翔沈达峰朱俊姚泽坤闫晨光李燕北孙志强戴智鑫
申请(专利权)人:欧冶工业品股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1