一种基于MRC框架的实体抽取方法技术

技术编号：38089785 阅读：9 留言：0更新日期：2023-07-06 09:00

本发明专利技术公开了一种基于MRC框架的实体抽取方法，该方法包括：首先根据设备维护手册获取目标句子，根据实体类型的定义生成相应的问题，将目标句子和问题进行拼接以获取语料；然后采用分词工具对语料进行分词，并进行编码后输入BERT模型获取目标句子的词嵌入表示；其次将目标句子的词嵌入表示通过句子分类模块获取句子级别特征；再将句子级别特征和目标句子的词嵌入表示相结合以整合到实体抽取模块；最后将句子分类模块和实体抽取模块相结合，并对二者共同训练，根据训练完成的两个模块完成实体抽取。本发明专利技术能够将句子级别的信息用于实体抽取任务中，有助于提高实体抽取的精度，很好地解决了设备维护文档中实体的抽取问题。地解决了设备维护文档中实体的抽取问题。地解决了设备维护文档中实体的抽取问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于MRC框架的实体抽取方法

[0001]本专利技术涉及工业设备维护领域，尤其涉及一种基于MRC(Machine Reading Comprehension，机器阅读理解)框架的实体抽取方法。

技术介绍

[0002]数控机床设备是生产活动的物质技术基础，保证设备健康持续地运行，减少风险和故障的发生，是每一个制造业企业能够正常运行的前提。但是随着经济全球化的发展，企业之间的竞争在不断地加大，设备也变得越来越机械化、自动化和智能化。与此同时，设备系统结构复杂性日益增加，设备的故障检测、诊断、预测和日常综合维护等工作难度也不断的加大。系统中任何一个部件出现故障，都将影响整个设备系统的正常运行。在近十几年快速发展的工业中，国内外由于机械部件故障而导致的灾难性事件也时有发生。
[0003]数控机床设备维护技术和工业生产的发展相互促进，随着传统工业生产的发展，其存在不足与局限性：由于数据分散、繁杂，传统的设备管理系统信息检索效果非常不理想；各个数据之间其实是存在关联的，如设备和各个故障维修方法，两者是存在着紧密联系，而传统的系统对于这些数据没有进行一定的关联，导致数据与数据之间关联性较差；传统的设备维护大部分都是依赖维护人员的经验知识以及维护文档，知识非常零散，当设备出现故障时，维护工作难以快速、有效的展开。
[0004]由于这些的不足，数控机床设备维护的技术方法需要不断的提高，同时数控机床设备维护知识图谱存在缺失的问题，使得遇到一些问题难以快速展开。而命名实体识别是知识图谱构建过程中的重要步骤。本专利技术旨...

【技术保护点】

【技术特征摘要】
1.一种基于MRC框架的实体抽取方法，其特征在于，包括以下步骤：(1)根据设备维护手册获取目标句子，根据实体类型的定义生成相应的问题，将所述目标句子和所述问题进行拼接以获取语料；(2)采用分词工具对所述步骤(1)获得的语料进行分词，并对分词后的语料进行编码，将编码后的语料输入BERT模型，以获取目标句子的词嵌入表示；(3)根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征；(4)将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中，以获取新的目标句子词嵌入；根据新的目标句子词嵌入预测可能作为开端的词，以获取词头集合；根据新的目标句子词嵌入预测可能作为结尾的词，以获取词尾集合；并将词头集合和词尾集合中的词进行匹配；(5)根据所述步骤(4)中匹配后的结果完成实体抽取。2.根据权利要求1所述的基于MRC框架的实体抽取方法，其特征在于，所述步骤(2)中，分词工具为WordpieceTokenizer；通过bert
‑
embedding对分词后的语料进行编码。3.根据权利要求1所述的基于MRC框架的实体抽取方法，其特征在于，所述步骤(3)中，根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征具体为：将所述步骤(2)获取的目标句子的词嵌入表示通过多头注意力机制层，并将多头注意力机制层的输出进行最大池化处理以获取目标句子嵌入，根据目标句子嵌入预测句子类型。4.根据权利要求3所述的基于MRC框架的实体抽取方法，其特征在于，所述目标句子嵌入为句子级别特征。5.根据权利要求3所述的基于MRC框架的实体抽取方法，其特征在于，所述根据目标句子嵌入预测句子类型具体为：将目标句子嵌入通过线性映射层以获取未归一化的对数概率；将该对数概率进行softmax函数归一化处理，以获取句子类型的预测分布，根据该预测分布预测句子类型；根据所述预测分布和实际分布之间的交叉熵获取句子类型预测的损失函数6.根据权利要求1所述的基于MRC框架的实体抽取方法，其特征在于，所述步骤(4)中，将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中的方法具体为：首先根据句子类...

【专利技术属性】
技术研发人员：贝毅君，高克威，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人