【技术实现步骤摘要】
一种基于工业企业构建命名实体识别模型的方法及装置
本专利技术涉及故障诊断维修
,具体而言,涉及一种基于工业企业构建命名实体识别模型(NER,NamedEntityRecognition)的方法及装置。
技术介绍
工业企业在长时间的生产、销售和售后过程中,积累了非常多的有价值的数据信息,然而这些积累的数据信息却很难转化成知识进行应用。比如,在设备的故障诊断维修领域,维修工程师经常会通过编写维修日志,将排故维修过程进行记录,并将记录的维修日志交付给工业企业的数据管理人员进行归档,从而完成维修流程。但该归档的维修日志等数据信息,对于规模较小的工业企业,在完成维修流程后,几乎不会被再次利用,对于规模较大的工业企业,为了提升数据信息的利用效率,可以由数据管理人员组织领域专家进行故障知识的命名实体识别,依据识别的命名实体构建故障树,或者,进一步在构建的故障树的基础上,由专家制定用于表征故障知识的命名实体的推理规则,后续借助计算机程序,在接收到用户上报的用于描述故障的数据信息后,利用推理规则进行命名实体识别,从而可以快速定位数据信息 ...
【技术保护点】
1.一种基于工业企业构建命名实体识别模型的方法,其特征在于,包括:/n对基于工业企业故障诊断维修得到的故障诊断维修数据信息进行命名实体的三元标注;/n将标注的故障诊断维修数据信息输入预训练的ALBERT模型,得到所述标注的故障诊断维修数据信息对应的预测语义向量序列;/n将所述预测语义向量序列输入条件随机场网络层,得到预测标签;/n依据预测标签和该预测标签对应的三元标注,计算损失值,在损失值大于预先设置的损失阈值的情形下,利用反向传播算法和梯度下降算法,更新条件随机场网络层以及ALBERT模型的参数,直至损失值不大于损失阈值时为止,得到命名实体识别模型。/n
【技术特征摘要】
1.一种基于工业企业构建命名实体识别模型的方法,其特征在于,包括:
对基于工业企业故障诊断维修得到的故障诊断维修数据信息进行命名实体的三元标注;
将标注的故障诊断维修数据信息输入预训练的ALBERT模型,得到所述标注的故障诊断维修数据信息对应的预测语义向量序列;
将所述预测语义向量序列输入条件随机场网络层,得到预测标签;
依据预测标签和该预测标签对应的三元标注,计算损失值,在损失值大于预先设置的损失阈值的情形下,利用反向传播算法和梯度下降算法,更新条件随机场网络层以及ALBERT模型的参数,直至损失值不大于损失阈值时为止,得到命名实体识别模型。
2.根据权利要求1所述的方法,其特征在于,所述对基于工业企业故障诊断维修得到的故障诊断维修数据信息进行命名实体的三元标注,包括:
针对每条故障诊断维修数据信息进行语料处理,得到该条故障诊断维修数据信息对应的工单数据语料集;
利用预设的新词发现算法,对工单数据语料集进行新词挖掘,将挖掘得到的新词与预设的命名实体分类库进行匹配,获取挖掘得到的新词对应的命名实体分类;
利用字符串匹配方法,对获取的命名实体分类中的新词进行三元标注。
3.根据权利要求1所述的方法,其特征在于,所述将标注的故障诊断维修数据信息输入预训练的ALBERT模型,包括:
依据预训练的ALBERT模型的输入格式,对标注的故障诊断维修数据信息进行处理,得到符合所述输入格式的训练样本,将所述训练样本输入所述预训练的ALBERT模型,其中,所述预训练的ALBERT模型是利用通用中文语料进行训练得到的模型。
4.根据权利要求1至3任一项所述的方法,其特征在于,设置所述预训练的ALBERT模型中的学习率参数为一预设的低值学习率,设置所述条件随机场网络层中的学习率初始参数为一高值学习率,并按照预先设置的学习率衰减策略,减小条件随机场网络层进行训练时的学习率参数。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
获取待识别的故障诊断维修数据信息,按照预训练的ALBERT模型的输入格式,对待识别的故障诊断维修数据信息进行处理,得到待输入数据信息序列;
将待输入数据信息序列输入所述命名实体识别模型,得到针对待输入数据信息...
【专利技术属性】
技术研发人员:王乐,
申请(专利权)人:长沙树根互联技术有限公司,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。