基于关系约束的语义增强式中文实体关系抽取方法和系统技术方案

技术编号:39815138 阅读:24 留言:0更新日期:2023-12-22 19:33
本发明专利技术涉及信息处理技术领域,特别涉及一种基于关系约束的语义增强式中文实体关系抽取方法和系统,针对待处理的文本,从字

【技术实现步骤摘要】
基于关系约束的语义增强式中文实体关系抽取方法和系统


[0001]本专利技术涉及信息处理
,特别涉及一种基于关系约束的语义增强式中文实体关系抽取方法和系统


技术介绍

[0002]伴随着信息技术的不断发展,现如今的互联网上每天都在产生着庞大的文本数据

在这些海量的文本数据中,蕴含着许多有价值的信息,但是这些信息往往以非结构化的形式存在,无法直接被计算机自动化处理,从而实现信息的充分利用

信息抽取的目的,就是将非结构化或半结构化的自然语言文本转化成包含实体

关系

事件等信息在内的结构化数据,以便更好地被计算机识别,帮助人类在海量冗杂数据中快速寻找到高价值信息

其中,信息抽取主要包括命名实体识别

实体关系抽取

事件抽取等子任务

实体关系抽取
(relation extraction,RE)
作为信息抽取的重要子任务之一,目的是识别自然文本中的实体,以及实体之间的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于关系约束的语义增强式中文实体关系抽取方法,其特征在于,包含如下内容:针对待处理的文本,从字

词和句子三个维度进行语义信息联合编码,得到融合字义特征

词义特征

词性特征和句法特征的句子编码向量;基于句子编码向量对文本中所包含关系类型进行分类,获取关系类型集合;依据预设关系编码表通过查表获取关系类型集合中每种关系对应编码,并依据每种关系对应编码来得到文本中关系表示向量;利用二元分类器标注文本中候选实体起始字符位置,基于关系表示向量识别出不同关系类型下关联实体的结束字符位置,并依据起始字符位置和关联实体结束字符位置来获取文本中对应关系下的实体关系三元组
。2.
根据权利要求1所述的基于关系约束的语义增强式中文实体关系抽取方法,其特征在于,从字

词和句子三个维度进行语义信息联合编码,得到融合字义特征

词义特征

词性特征和句法特征的句子编码向量,包括:首先,从字

词和句子三个维度对文本句子进行特征提取和融合,得到文本句子向量表示;然后,利用
Bi

GRU
模型对文本句子向量表示进行编码,并基于多头注意力模型来获取句子编码向量
。3.
根据权利要求2所述的基于关系约束的语义增强式中文实体关系抽取方法,其特征在于,从字

词和句子三个维度对文本句子进行特征提取和融合,得到文本句子向量表示,包括:首先,将文本中每个字符映射为字符嵌入向量,并通过自然语言处理工具对文本句子进行分词,利用预训练
word2vec
模型对分词后的词语进行向量化表示,得到词语嵌入向量;接着,基于自然语言处理工具中标记词性和句法特征信息的工具包对文本中词语嵌入向量和文本句子嵌入向量进行嵌入表示,得到词性嵌入向量和句法特征嵌入向量;然后,基于文本中每个字符,将字符及包含该字符的词语

词性和句法特征的四个嵌入向量进行拼接,得到字符对应的向量表示,并通过融合文本中每个字符向量表示来获取文本句子向量表示
。4.
根据权利要求2所述的基于关系约束的语义增强式中文实体关系抽取方法,其特征在于,利用
Bi

GRU
模型对文本句子向量表示进行编码,并基于多头注意力模型来获取句子编码向量,包括:首先,将
Bi

GRU
模型中单元门正向和反向隐藏输出进行组合,以获取文本句子初始上下文表示;然后,将
Bi

GRU
模型的输出作为多头注意力模型的输入,利用多头注意力模型增强文本句子特征,并将多头注意力模型输出作为最终的文本句子编码向量
。5.
根据权利要求1所述的基于关系约束的语义增强式中文实体关系抽取方法,其特征在于,基于句子编码向量对文本中所包含关系类型进...

【专利技术属性】
技术研发人员:尹美娟刘威崔伦翀李卓文
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1