文本实体关系抽取方法、装置及计算机可读存储介质设备制造方法及图纸

技术编号:26222769 阅读:39 留言:0更新日期:2020-11-04 10:53
本发明专利技术属于自然语言处理技术领域,特别涉及一种文本实体关系抽取方法、装置及计算机可读存储介质设备,该方法包含:针对输入文本,通过将单词获取词向量表示,以获取其中实体对语句特征;利用点互信息PMI计算实体对关系之间相似度,并通过相似度得到类关系;通过类关系查找实体关系之间隐含内容。本发明专利技术考虑实体关系之间的隐含语义,基于点互信息PMI计算实体关系之间的相似度,不需要对训练文本中的实体关系进行人工标注,从而可以快速抽取实体关系,可以对隐含关系进行有效抽取,利用相似度对抽取关系进行归并和精简,实现对噪声数据的过滤,使关系抽取更加精确,提升关系抽取的准确率和召回率,便于实际场景应用。

【技术实现步骤摘要】
文本实体关系抽取方法、装置及计算机可读存储介质设备
本专利技术属于自然语言处理
,特别涉及一种文本实体关系抽取方法、装置及计算机可读存储介质设备。
技术介绍
关系抽取是将非结构化和半结构化的自然语言文本转化为结构化数据,核心是判断句子中包含的实体对之间的关系。现有的关系抽取方法包括以下三种:1.有监督关系抽取:通过手工标注句子中的关系,接着抽取词法、句法、语义特征,并训练有监督分类器,利用分类器分析测试集的实体关系;2.无监督关系抽取:适用于大规模文本实体的标注,然后利用聚类技术从实体中提取关系字符串。能够抽取高数量的关系对,然而抽取的结果不易对应到知识库中。3.半监督关系抽取:通过较少的种子实例(或模板)实施bootstrap学习。将已知实例运用到大量语料中,抽取出新实例;接着用新实例抽取更多实例,并不断迭代,该方法对训练集依赖少,但抽取的结果精度不高,有时会产生语义转移。在上面三种方法中,有监督学习凭借其抽取精度高好得到了广泛应用,其中远程监督可以解决有监督学习人工标注困难的问题;这种方法不需要标注语料库的替代范式,避免了领域依赖性,本文档来自技高网...

【技术保护点】
1.一种文本实体关系抽取方法,其特征在于,包含如下内容:/n针对输入文本,通过将单词获取词向量表示,以获取其中实体对语句特征;/n利用点互信息PMI计算实体对关系之间相似度,并通过相似度得到类关系;/n通过类关系查找实体关系之间隐含内容。/n

【技术特征摘要】
1.一种文本实体关系抽取方法,其特征在于,包含如下内容:
针对输入文本,通过将单词获取词向量表示,以获取其中实体对语句特征;
利用点互信息PMI计算实体对关系之间相似度,并通过相似度得到类关系;
通过类关系查找实体关系之间隐含内容。


2.根据权利要求1所述的文本实体关系抽取方法,其特征在于,针对输入文本,构建用于关系抽取的神经网络模型,通过模型训练学习,以提取实体关系之间隐含内容;该模型中包含:用于将目标输入文本中单词转化为低维向量的输入层;用于获取输入文本语句特征的双向门控循环单元;用于获取句子向量表示的最大池化层,及用于单词和句子权重分配的注意机制。


3.根据权利要求1或2所述的文本实体关系抽取方法,其特征在于,获取词向量表示中,将单词转化为低维向量,假设给定多个单词组成的句子,句子中所有单词使用位置嵌入,每个单词用实值向量表示,单词嵌入通过嵌入矩阵进行编码,将句子中所有单词嵌入和位置嵌入进行连接,获取完整的词向量表示,通过词向量表示以提取实体对与上下文语义相关程度。


4.根据权利要求2所述的文本实体关系抽取方法,其特征在于,双向门控循环单元包含隐藏状态、重置门结构和更新门结构;将词向量表示输入双向门控循环单元,通过计算重置门结构和更新门结构产生的正反向状态特征值来获取句子高维语义信息。


5.根据权利要求1或2所述的文本实体关系抽取方法,其特征在于,语句特征获取包含基于单词级特征获取,假设句子包含多个单词,对对应单词设定加权值,将关系与实体对放入同一嵌入空间,将单...

【专利技术属性】
技术研发人员:胡浩张玉臣周洪伟何淼朱红涛
申请(专利权)人:中国人民解放军战略支援部队信息工程大学河南金明源信息技术有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1