一种基于工业企业构建命名实体识别模型的方法及装置制造方法及图纸

技术编号：26598903 阅读：16 留言：0更新日期：2020-12-04 21:21

本发明专利技术提供了一种基于工业企业构建命名实体识别模型的方法及装置，其中，方法包括：对基于工业企业故障诊断维修得到的故障诊断维修数据信息进行命名实体的三元标注；将标注的故障诊断维修数据信息输入预训练的ALBERT模型，得到标注的故障诊断维修数据信息对应的预测语义向量序列；将预测语义向量序列输入条件随机场网络层，得到预测标签；依据预测标签和该预测标签对应的三元标注，计算损失值，在损失值大于预先设置的损失阈值的情形下，利用反向传播算法和梯度下降算法，更新条件随机场网络层以及ALBERT模型的参数，直至损失值不大于损失阈值时为止，得到命名实体识别模型。可以提高命名实体的识别效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于工业企业构建命名实体识别模型的方法及装置
本专利技术涉及故障诊断维修
，具体而言，涉及一种基于工业企业构建命名实体识别模型（NER，NamedEntityRecognition）的方法及装置。
技术介绍
工业企业在长时间的生产、销售和售后过程中，积累了非常多的有价值的数据信息，然而这些积累的数据信息却很难转化成知识进行应用。比如，在设备的故障诊断维修领域，维修工程师经常会通过编写维修日志，将排故维修过程进行记录，并将记录的维修日志交付给工业企业的数据管理人员进行归档，从而完成维修流程。但该归档的维修日志等数据信息，对于规模较小的工业企业，在完成维修流程后，几乎不会被再次利用，对于规模较大的工业企业，为了提升数据信息的利用效率，可以由数据管理人员组织领域专家进行故障知识的命名实体识别，依据识别的命名实体构建故障树，或者，进一步在构建的故障树的基础上，由专家制定用于表征故障知识的命名实体的推理规则，后续借助计算机程序，在接收到用户上报的用于描述故障的数据信息后，利用推理规则进行命名实体识别，从而可以快速定位数据信息对应的故障知识（故障点），以便于维修工程师进行故障维修。但该基于工业企业构建命名实体识别模型以进行故障知识整理的方法，需要人工基于数据信息进行命名实体识别，导致人力资源浪费且效率较低。因此，如何快速高效地从大量沉淀的数据信息中学习得到相关命名实体，并智能化应用是亟待解决的问题。
技术实现思路
有鉴于此，本专利技术的目的在于提供基于工业企业构建命名实体识别模型的方法及装置，以提高...

【技术保护点】
1.一种基于工业企业构建命名实体识别模型的方法，其特征在于，包括：/n对基于工业企业故障诊断维修得到的故障诊断维修数据信息进行命名实体的三元标注；/n将标注的故障诊断维修数据信息输入预训练的ALBERT模型，得到所述标注的故障诊断维修数据信息对应的预测语义向量序列；/n将所述预测语义向量序列输入条件随机场网络层，得到预测标签；/n依据预测标签和该预测标签对应的三元标注，计算损失值，在损失值大于预先设置的损失阈值的情形下，利用反向传播算法和梯度下降算法，更新条件随机场网络层以及ALBERT模型的参数，直至损失值不大于损失阈值时为止，得到命名实体识别模型。/n

【技术特征摘要】
1.一种基于工业企业构建命名实体识别模型的方法，其特征在于，包括：
对基于工业企业故障诊断维修得到的故障诊断维修数据信息进行命名实体的三元标注；
将标注的故障诊断维修数据信息输入预训练的ALBERT模型，得到所述标注的故障诊断维修数据信息对应的预测语义向量序列；
将所述预测语义向量序列输入条件随机场网络层，得到预测标签；
依据预测标签和该预测标签对应的三元标注，计算损失值，在损失值大于预先设置的损失阈值的情形下，利用反向传播算法和梯度下降算法，更新条件随机场网络层以及ALBERT模型的参数，直至损失值不大于损失阈值时为止，得到命名实体识别模型。

2.根据权利要求1所述的方法，其特征在于，所述对基于工业企业故障诊断维修得到的故障诊断维修数据信息进行命名实体的三元标注，包括：
针对每条故障诊断维修数据信息进行语料处理，得到该条故障诊断维修数据信息对应的工单数据语料集；
利用预设的新词发现算法，对工单数据语料集进行新词挖掘，将挖掘得到的新词与预设的命名实体分类库进行匹配，获取挖掘得到的新词对应的命名实体分类；
利用字符串匹配方法，对获取的命名实体分类中的新词进行三元标注。

3.根据权利要求1所述的方法，其特征在于，所述将标注的故障诊断维修数据信息输入预训练的ALBERT模型，包括：
依据预训练的ALBERT模型的输入格式，对标注的故障诊断维修数据信息进行处理，得到符合所述输入格式的训练样本，将所述训练样本输入所述预训练的ALBERT模型，其中，所述预训练的ALBERT模型是利用通用中文语料进行训练得到的模型。

4.根据权利要求1至3任一项所述的方法，其特征在于，设置所述预训练的ALBERT模型中的学习率参数为一预设的低值学习率，设置所述条件随机场网络层中的学习率初始参数为一高值学习率，并按照预先设置的学习率衰减策略，减小条件随机场网络层进行训练时的学习率参数。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：
获取待识别的故障诊断维修数据信息，按照预训练的ALBERT模型的输入格式，对待识别的故障诊断维修数据信息进行处理，得到待输入数据信息序列；
将待输入数据信息序列输入所述命名实体识别模型，得到针对待输入数据信息...

【专利技术属性】
技术研发人员：王乐，
申请(专利权)人：长沙树根互联技术有限公司，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人