当前位置: 首页 > 专利查询>深港产学研基地北京大学香港科技大学深圳研修院专利>正文

实体关系抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33435600 阅读：27 留言：0更新日期：2022-05-19 00:24

本发明专利技术涉及人工智能技术，揭露了一种实体关系抽取方法，包括：获取关系实例文本，利用预训练的编码模型对关系实例文本进行语义编码，得到语义向量序列，对语义向量序列进行标签预测，根据预测结果获取标准标签序列，并对标准标签序列进行实体标注，得到实体标注结果，获取预设的关系集合，基于关系集合对语义向量序列进行关系预测，得到关系预测结果，对实体标注结果及关系预测结果进行拼接组合，得到实体关系对集合，对实体关系对集合进行头实体及尾实体概率识别，根据识别结果从实体关系对集合中选取标准实体关系对。本发明专利技术还提出一种实体关系抽取装置、电子设备以及计算机可读存储介质。本发明专利技术可以解决实体关系抽取准确率不高的问题。问题。问题。

全部详细技术资料下载

【技术实现步骤摘要】
实体关系抽取方法、装置、电子设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种实体关系抽取方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]实体和实体之间的关系联合抽取模型的结构一般分为两种，一种为管道型(pipeline)，另一种为端到端的结构。前者一般先抽取实体，同时判定实体的类别，然后对每对候选实体进行关系分类，得到关系抽取三元组结果，管道型的一个明显的缺点是误差传递的问题，因为实体识别和关系抽取两个任务本身独立完成，导致两部分信息不能充分共享，实体关系抽取准确率较低。端到端的模型一般设计成将实体识别的结果作为模型的隐藏层结果，将实体识别的损失和关系分类的损失相加作为整个模型的损失函数。端到端模型可以有效减少管道模型在实体识别(NER)和关系抽取(RE)模型之间误差传播问题并且充分利用NER和RE两部分任务间的有用信息，提高最终的抽取效果，但在实际的应用中，经常出现一个句子实例中出现多个关系的情况，多个关系还可能重叠，即同一个实体可能出现于不同的关系类别中，也会使得实体关系抽取的准确率不高。
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体关系抽取方法，其特征在于，所述方法包括：获取关系实例文本，利用预训练的编码模型对所述关系实例文本进行语义编码，得到语义向量序列；对所述语义向量序列进行标签预测，根据预测结果获取标准标签序列，并对所述标准标签序列进行实体标注，得到实体标注结果；获取预设的关系集合，基于所述关系集合对所述语义向量序列进行关系预测，得到关系预测结果；对所述实体标注结果及所述关系预测结果进行拼接组合，得到实体关系对集合，对所述实体关系对集合进行头实体及尾实体概率识别，根据识别结果从所述实体关系对集合中选取标准实体关系对。2.如权利要求1所述的实体关系抽取方法，其特征在于，所述利用预训练的编码模型对所述关系实例文本进行语义编码，得到语义向量序列，包括：对所述关系实例文本进行分词，得到原始分词序列，在所述原始分词序列中添加间隔标识，得到标准分词序列；利用所述编码模型中的嵌入向量表示层生成所述标准分词序列中每个分词的组合向量；利用所述编码模型中的编码器层对每个分词的组合向量进行语义特征编码，得到所有分词的语义特征向量，利用所述编码模型中的池化层对所述语义特征向量及所述间隔标识进行向量排列，得到所述语义向量序列。3.如权利要求2所述的实体关系抽取方法，其特征在于，所述利用所述编码模型中的嵌入向量表示层生成所述标准分词序列中每个分词的组合向量，包括：利用所述嵌入向量表示层将所述标准分词序列中每个分词转化为token向量、位置向量及序列标记向量；利用下述公式组合每个分词的所述token向量、所述位置向量及所述序列标记向量，得到每个分词的组合向量embedding：embedding＝embedding
tokens
+embedding
position
+embedding
seg type
其中，embedding
tokens
为所述token向量，embedding
position
为所述位置向量，embedding
seg type
为所述序列标记向量。4.如权利要求1所述的实体关系抽取方法，其特征在于，所述对所述语义向量序列进行标签预测，根据预测结果获取标准标签序列，包括：对所述语义向量序列中每个分词对应的语义特征向量进行标签预测，得到多个标签序列，其中，每个标签序列中包括每个分词的预测标签及所述预测标签对应的预测分数；利用所述预测分数对所述多个标签序列中的预测标签进行筛选及排序，得到原始标签序列集合；利用预设的目标函数从所述原始标签序列集合中选取目标序列作为所述标准标签序列。5.如权利要求4所述的实体关系抽取方法，其特征在于...

【专利技术属性】
技术研发人员：杜娟，刘轶，
申请(专利权)人：深港产学研基地北京大学香港科技大学深圳研修院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人