当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于MRC框架的实体抽取方法技术

技术编号:38089785 阅读:9 留言:0更新日期:2023-07-06 09:00
本发明专利技术公开了一种基于MRC框架的实体抽取方法,该方法包括:首先根据设备维护手册获取目标句子,根据实体类型的定义生成相应的问题,将目标句子和问题进行拼接以获取语料;然后采用分词工具对语料进行分词,并进行编码后输入BERT模型获取目标句子的词嵌入表示;其次将目标句子的词嵌入表示通过句子分类模块获取句子级别特征;再将句子级别特征和目标句子的词嵌入表示相结合以整合到实体抽取模块;最后将句子分类模块和实体抽取模块相结合,并对二者共同训练,根据训练完成的两个模块完成实体抽取。本发明专利技术能够将句子级别的信息用于实体抽取任务中,有助于提高实体抽取的精度,很好地解决了设备维护文档中实体的抽取问题。地解决了设备维护文档中实体的抽取问题。地解决了设备维护文档中实体的抽取问题。

【技术实现步骤摘要】
一种基于MRC框架的实体抽取方法


[0001]本专利技术涉及工业设备维护领域,尤其涉及一种基于MRC(Machine Reading Comprehension,机器阅读理解)框架的实体抽取方法。

技术介绍

[0002]数控机床设备是生产活动的物质技术基础,保证设备健康持续地运行,减少风险和故障的发生,是每一个制造业企业能够正常运行的前提。但是随着经济全球化的发展,企业之间的竞争在不断地加大,设备也变得越来越机械化、自动化和智能化。与此同时,设备系统结构复杂性日益增加,设备的故障检测、诊断、预测和日常综合维护等工作难度也不断的加大。系统中任何一个部件出现故障,都将影响整个设备系统的正常运行。在近十几年快速发展的工业中,国内外由于机械部件故障而导致的灾难性事件也时有发生。
[0003]数控机床设备维护技术和工业生产的发展相互促进,随着传统工业生产的发展,其存在不足与局限性:由于数据分散、繁杂,传统的设备管理系统信息检索效果非常不理想;各个数据之间其实是存在关联的,如设备和各个故障维修方法,两者是存在着紧密联系,而传统的系统对于这些数据没有进行一定的关联,导致数据与数据之间关联性较差;传统的设备维护大部分都是依赖维护人员的经验知识以及维护文档,知识非常零散,当设备出现故障时,维护工作难以快速、有效的展开。
[0004]由于这些的不足,数控机床设备维护的技术方法需要不断的提高,同时数控机床设备维护知识图谱存在缺失的问题,使得遇到一些问题难以快速展开。而命名实体识别是知识图谱构建过程中的重要步骤。本专利技术旨在提出一种面向设备维护领域的实体抽取方法,以用于知识图谱在数控机床设备维护领域的构建。

技术实现思路

[0005]本专利技术的目的在于针对现有技术的不足,提供一种基于MRC框架的实体抽取方法。
[0006]本专利技术的目的是通过以下技术方案来实现的:一种基于MRC框架的实体抽取方法,包括以下步骤:
[0007](1)根据设备维护手册获取目标句子,根据实体类型的定义生成相应的问题,将所述目标句子和所述问题进行拼接以获取语料;
[0008](2)采用分词工具对所述步骤(1)获得的语料进行分词,并对分词后的语料进行编码,将编码后的语料输入BERT模型,以获取目标句子的词嵌入表示;
[0009](3)根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征;
[0010](4)将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中,以获取新的目标句子词嵌入;根据新的目标句子词嵌入预测可能作为开端的词,以获取词头集合;根据新的目标句子词嵌入预测可能作为结尾的词,以获取词尾集合;并将词头集合和词尾集合中的词进行匹配;
[0011](5)根据所述步骤(4)中匹配后的结果完成实体抽取。
[0012]可选地,所述步骤(2)中,分词工具为WordpieceTokenizer;通过bert

embedding对分词后的语料进行编码。
[0013]可选地,所述步骤(3)中,根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征具体为:将所述步骤(2)获取的目标句子的词嵌入表示通过多头注意力机制层,并将多头注意力机制层的输出进行最大池化处理以获取目标句子嵌入,根据目标句子嵌入预测句子类型。
[0014]可选地,所述目标句子嵌入为句子级别特征。
[0015]可选地,所述根据目标句子嵌入预测句子类型具体为:将目标句子嵌入通过线性映射层以获取未归一化的对数概率;将该对数概率进行softmax函数归一化处理,以获取句子类型的预测分布,根据该预测分布预测句子类型;
[0016]根据所述预测分布和实际分布之间的交叉熵获取句子类型预测的损失函数
[0017]可选地,所述步骤(4)中,将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中的方法具体为:首先根据句子类型和实体类型同时出现的概率计算不同句子类型和实体类型之间的相关程度矩阵;然后将相关程度矩阵对应的值作为初始化权重;最后根据初始化权重将目标句子嵌入加到每个目标句子的词嵌入表示中。
[0018]可选地,所述步骤(4)中,所述获取词头集合的方法具体为:首先将目标句子词嵌入通过线性映射层,得到未归一化的对数概率;然后将未归一化的对数概率进行softmax函数归一化处理,得到各词预测为实体开端的概率分布;最后选取作为实体开端的概率大于0.5的词为可能作为开端的词集合,即为词头集合;
[0019]根据预测的所述实体开端的概率分布和实际分布之间的交叉熵获取开端坐标预测的损失函数
[0020]可选地,所述步骤(4)中,所述获取词尾集合的方法具体为:首先将目标句子词嵌入通过线性映射层,得到未归一化的对数概率;然后将未归一化的对数概率进行softmax函数归一化处理,得到各词预测为实体结尾的概率分布;最后选取作为实体结尾的概率大于0.5的词为可能作为结尾的词集合,即为词尾集合;
[0021]根据预测的所述实体结尾的概率分布和实际分布之间的交叉熵获取结尾坐标预测的损失函数
[0022]可选地,所述步骤(4)中,所述将词头集合和词尾集合中的词进行匹配的方法具体为:首先将词头集合中候选开端的词和词尾集合中候选结尾的词的嵌入表示进行结合;然后将结合后的词嵌入通过线性映射层,得到未归一化的对数概率;最后将未归一化的对数概率进行softmax函数归一化处理,得到对应的预测匹配概率分布;
[0023]根据所述预测匹配概率分布和实际分布的交叉熵获取开端坐标和结尾坐标匹配的损失函数
[0024]可选地,所述步骤(5)中,根据所述步骤(4)中匹配后的结果完成实体抽取具体为:基于所述步骤(4)中匹配后的结果生成开端坐标预测的损失函数结尾坐标预测的损失函数开端坐标和结尾坐标匹配的损失函数同时结合句子类型预测的损失函数给每个损失函数赋予不同的权重,对其求和以获取最终的损失函数,根据最终的损失
函数进行训练,以完成实体抽取。
[0025]本专利技术的有益效果是,本专利技术将知识图谱技术引入制造业企业的设备管理与维护业务,实现设备管理与维护信息化,帮助生产企业优化决策管理,构建了更有效的信息检索方式;本专利技术能够更好地凸显设备数据之间的联系,构建有效的知识网络;本专利技术整合了设备制造数据,形成了完整的知识脉络;本专利技术在抽取时能够较高准确率地将实体抽取出来,有助于提高实体抽取的精度。
附图说明
[0026]图1是本专利技术的整体流程图;
[0027]图2是基于MRC框架的多任务实体抽取模型的结构示意图。
具体实施方式
[0028]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于MRC框架的实体抽取方法,其特征在于,包括以下步骤:(1)根据设备维护手册获取目标句子,根据实体类型的定义生成相应的问题,将所述目标句子和所述问题进行拼接以获取语料;(2)采用分词工具对所述步骤(1)获得的语料进行分词,并对分词后的语料进行编码,将编码后的语料输入BERT模型,以获取目标句子的词嵌入表示;(3)根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征;(4)将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中,以获取新的目标句子词嵌入;根据新的目标句子词嵌入预测可能作为开端的词,以获取词头集合;根据新的目标句子词嵌入预测可能作为结尾的词,以获取词尾集合;并将词头集合和词尾集合中的词进行匹配;(5)根据所述步骤(4)中匹配后的结果完成实体抽取。2.根据权利要求1所述的基于MRC框架的实体抽取方法,其特征在于,所述步骤(2)中,分词工具为WordpieceTokenizer;通过bert

embedding对分词后的语料进行编码。3.根据权利要求1所述的基于MRC框架的实体抽取方法,其特征在于,所述步骤(3)中,根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征具体为:将所述步骤(2)获取的目标句子的词嵌入表示通过多头注意力机制层,并将多头注意力机制层的输出进行最大池化处理以获取目标句子嵌入,根据目标句子嵌入预测句子类型。4.根据权利要求3所述的基于MRC框架的实体抽取方法,其特征在于,所述目标句子嵌入为句子级别特征。5.根据权利要求3所述的基于MRC框架的实体抽取方法,其特征在于,所述根据目标句子嵌入预测句子类型具体为:将目标句子嵌入通过线性映射层以获取未归一化的对数概率;将该对数概率进行softmax函数归一化处理,以获取句子类型的预测分布,根据该预测分布预测句子类型;根据所述预测分布和实际分布之间的交叉熵获取句子类型预测的损失函数6.根据权利要求1所述的基于MRC框架的实体抽取方法,其特征在于,所述步骤(4)中,将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中的方法具体为:首先根据句子类...

【专利技术属性】
技术研发人员:贝毅君高克威
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1