当前位置: 首页 > 专利查询>胡明昊专利>正文

一种结合命名实体识别的开放域信息抽取方法技术

技术编号:29402804 阅读:19 留言:0更新日期:2021-07-23 22:40
本发明专利技术公开了一种结合命名实体识别的开放域信息抽取方法,所述方法包括:将待抽取的句子输入预先建立和训练好的三元组谓词抽取器,输出谓词短语;将谓词短语和待抽取的句子输入预先建立和训练好的三元组要素抽取器,输出三元组要素短语的位置;三元组要素包括:主语、宾语及定语;将三元组要素抽取器中获取的序列隐状态表示和三元组要素短语的位置,输入预先建立和训练好的命名实体识别器,输出三元组要素短语的命名实体类别;其中,三元组谓词抽取器用于抽取输入句子中出现的三元组涉及的谓词;三元组要素抽取器用于抽取输入句子中出现的三元组涉及的要素短语;命名实体识别器用于识别三元组要素短语的命名实体类别。

【技术实现步骤摘要】
一种结合命名实体识别的开放域信息抽取方法
本专利技术涉及信息抽取
,具体涉及一种结合命名实体识别的开放域信息抽取方法。
技术介绍
开放域信息抽取是指从非结构化文本数据中抽取由关系短语和要素短语构成的结构化三元组。比如在句子“BarackObama,aformerU.Spresident,wasborninHawaii.”中,“wasbornin”是一个三元组的谓词短语,而“BarackObama”和“Hawaii”为该三元组的要素短语。开放域信息抽取是涉及知识图谱构建的重要任务,可以进一步应用到文本蕴含、自动问答等领域。目前,开放域信息抽取方法仅支持从给定句子中抽取三元组信息,而无法有效获得三元组中要素短语的命名实体类型,比如在上例中,系统无法得知“BarackObama”是人名而“Hawaii”是地名。相比于传统开放域信息抽取,结合命名实体识别的开放域信息抽取能提供额外的命名实体类别信息,这对于知识图谱构建大有裨益,其实现也更具挑战。面对这一挑战,一种常见做法是构建结合开放域信息抽取和命名实体识别的流水线系统。然而,流水线系统通本文档来自技高网...

【技术保护点】
1.一种结合命名实体识别的开放域信息抽取方法,所述方法包括:/n将待抽取的句子输入预先建立和训练好的三元组谓词抽取器,输出谓词短语;/n将谓词短语和待抽取的句子输入预先建立和训练好的三元组要素抽取器,输出三元组要素短语的位置;三元组要素包括:主语、宾语及定语;/n将三元组要素抽取器中获取的序列隐状态表示和三元组要素短语的位置,输入预先建立和训练好的命名实体识别器,输出三元组要素短语的命名实体类别;/n其中,三元组谓词抽取器用于抽取输入句子中出现的三元组涉及的谓词,三元组谓词抽取器单独进行训练,三元组要素抽取器用于抽取输入句子中出现的三元组涉及的要素短语;命名实体识别器用于识别三元组要素短语的命...

【技术特征摘要】
1.一种结合命名实体识别的开放域信息抽取方法,所述方法包括:
将待抽取的句子输入预先建立和训练好的三元组谓词抽取器,输出谓词短语;
将谓词短语和待抽取的句子输入预先建立和训练好的三元组要素抽取器,输出三元组要素短语的位置;三元组要素包括:主语、宾语及定语;
将三元组要素抽取器中获取的序列隐状态表示和三元组要素短语的位置,输入预先建立和训练好的命名实体识别器,输出三元组要素短语的命名实体类别;
其中,三元组谓词抽取器用于抽取输入句子中出现的三元组涉及的谓词,三元组谓词抽取器单独进行训练,三元组要素抽取器用于抽取输入句子中出现的三元组涉及的要素短语;命名实体识别器用于识别三元组要素短语的命名实体类别;三元组要素抽取器和命名实体识别器联合进行训练。


2.根据权利要求1所述的结合命名实体识别的开放域信息抽取方法,其特征在于,所述三元组谓词抽取器包括:第一预处理模块、第一预训练语言模型和条件随机场层,第一预训练语言模型包含L个依次连接的预训练Transformer块;
所述第一预处理模块,用于将输入句子转换为第一输入序列:<[CLS],Tok1,Tok2,…,Tokn,[SEP]>,其中,[CLS]和[SEP]均为特殊符号,Tok1,Tok2,…,Tokn为输入句子中包含的n个字符;然后获得第一输入序列的预训练词嵌入表示H0,该词嵌入表示H0为字符嵌入、位置嵌入和分段嵌入之和,将词嵌入表示H0输入第一预训练语言模型;
所述第一预训练语言模型,用于利用L个预训练的Transformer块对输入的词嵌入表示H0依次进行编码:



其中,Hi为第i个Transformer块输出的第一序列隐状态表示,TransformerBlock()表示Transformer函数;
将第L个Transformer块输出的第一序列隐状态表示HL输入条件随机场层;
所述条件随机场层,用于对第一序列隐状态表示HL进行预测,输出每个字符在BIO标签体系下的概率分布YP,YP是一个维度为(n+2)×3的概率分布,对该概率分布进行解码,可以得到第一输入序列的BIO预测标签,进而获得预测的谓词短语。


3.根据权利要求2所述的结合命名实体识别的开放域信息抽取方法,其特征在于,所述方法还包括:对三元组谓词抽取器进行训练的步骤;具体包括:
步骤101)收集领域相关文本,按照BIO标签体系标注文本中出现的三元组谓词短语,得到三元组谓词抽取训练样本;
步骤102)第一预处理模块对输入的三元组谓词抽取训练样本的句子进行预处理,输出词嵌入表示;
步骤103)第一预训练语言模型对词嵌入表示输入进行编码,输出第一序列隐状态表示HL;
步骤104)条件随机场层基于第一序列隐状态表示HL预测单词的谓词标签;
步骤105)通过预测的谓词标签与步骤101)标注的真实三元组谓词短语,计算交叉熵损失函数连同第一预训练语言模型一起进行微调,以训练三元组谓词抽取器。


4.根据权利要求3所述的结合命名实体识别的开放域信息抽取方法,其特征在于,所述三元组要素抽取器包含第二预处理模块、第二预训练语言模型和多头指针网络;第二预训练语言模型包含L个依次连接的预训练Transformer块;所述三头指针网络包括三个头指针;
所述第二预处理模块,用于将输入句子和抽取的谓词短语拼接为第二输...

【专利技术属性】
技术研发人员:胡明昊罗威谭玉珊罗准辰田昌海叶宇铭毛彬宋宇
申请(专利权)人:胡明昊中国人民解放军军事科学院军事科学信息研究中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1