一种信息提取方法和装置制造方法及图纸

技术编号:17912405 阅读:41 留言:0更新日期:2018-05-10 18:16
本发明专利技术提供一种信息提取方法和装置,涉及智能设备技术领域,可提高信息提取的准确率。所述信息提取方法包括:根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例;所述第一实例为含有所述实体对的语句;对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例。

【技术实现步骤摘要】
一种信息提取方法和装置
本专利技术涉及智能设备
,尤其涉及一种信息提取方法和装置。
技术介绍
在各个
,大部分的知识来源于非结构化的文本,随着各领域的快速发展,研究文献以指数级增长,丰富了各领域的相关知识。但是,研究文献爆炸式的增长速度远远超过人们对文献分析的速度,使得研究者很难从文献库中找到所需信息。因此,帮助研究者从海量的文献中挖掘有用信息已经引起学术界和工业界的广泛关注。目前,有技术人员通过语义关系抽取的方式帮助研究者从海量的文献中挖掘有用信息,但由于用来训练模型的样本数据准确度较低,使得训练出的模型准确度较低,导致最终获取的信息普遍存在着准确率较低等问题。
技术实现思路
本专利技术的实施例提供一种信息提取方法和装置,可提高信息提取的准确率。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,提供一种信息提取方法,包括:根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例;所述第一实例为含有所述实体对的语句;对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例。优选的,根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例,包括:根据给定的语义关系,从知识库中获取对应所述语义关系的实体对;使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;从标记的语句中检索出包含所述实体对的第一实例。优选的,对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例,包括:根据所述实体对,对每个所述第一实例进行第一特征抽取,构建第一实例-特征矩阵Mnf,n为所述第一实例的个数,f为所有所述第一特征的个数;其中,所述第一特征包括词汇特征和/或句法特征;构建语义关系-第一实例矩阵Mrn;r为所述语义关系的个数;构建语义关系-特征矩阵Mrf,Mrf=Mrn*Mnf;通过非负矩阵分解方法将语义关系-特征矩阵Mrf分解为Mrk*Mkf,k<f;Mrk为所述语义关系在潜在语义空间中的表示矩阵;将Mnf*MkfT,得到Mnk;其中,Mnk为所述第一实例在潜在语义空间中的表示矩阵;根据Mnk与MrkT,得到所述第一实例与所述语义关系的相似度;根据所述相似度,在所述第一实例中,筛选出所述第二实例。进一步优选的,根据Mnk与MrkT,得到所述第一实例与所述语义关系的相似度,包括:根据Mnk与MrkT,通过余弦相似度,得到所述第一实例与所述语义关系的相似度。优选的,根据所述相似度,在所述第一实例中,筛选出所述第二实例,包括:对所述相似度进行归一化处理,使每个所述第一实例与所有所述语义关系的相似度之和为1;根据每个所述第一实例对应的归一化处理后的相似度,计算每个所述第一实例的信息熵;选取信息熵小于预定阈值的所述第一实例作为所述第二实例。优选的,所述方法还包括:根据所述实体对,对每个所述第二实例进行第二特征的抽取,训练出分类器,所述分类器的目标分类为给定的所述语义关系;其中,所述第二特征包括词汇特征和/或句法特征;根据所述分类器,从文本语句中识别给定的所述语义关系并分类。进一步优选的,根据所述分类器,从文本语句中识别给定的所述语义关系并分类,包括:使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;从标记的语句中检索出包含所述实体对的文本语句;根据所述分类器,识别所述文本语句中的所述实体对对应的所述语义关系并分类。基于上述,优选的,所述词汇特征包括所述实体对在语句中的位置、所述实体对之间的词序列、所述实体对之间的词性序列、所述实体对的大小为X的左窗口、以及所述实体对的大小为X的右窗口中至少一种;其中,X≥0;所述句法特征包括所述实体对之间的最短依存路径、所述实体对的大小为Y的左窗口、以及所述实体对的大小为Y的右窗口中至少一种;其中,Y≥0。第二方面,提供一种信息提取装置,包括:获取模块和筛选模块;获取模块,用于根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例;所述第一实例为含有所述实体对的语句;筛选模块,用于对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例。优选的,所述获取模块具体用于:根据给定的语义关系,从知识库中获取对应所述语义关系的实体对;使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;从标记的语句中检索出包含所述实体对的第一实例。优选的,所述筛选模块具体用于:根据所述实体对,对每个所述第一实例进行第一特征抽取,构建第一实例-特征矩阵Mnf,n为所述第一实例的个数,f为所有所述第一特征的个数;其中,所述第一特征包括词汇特征和/或句法特征;构建语义关系-第一实例矩阵Mrn;r为所述语义关系的个数;构建语义关系-特征矩阵Mrf,Mrf=Mrn*Mnf;通过非负矩阵分解方法将语义关系-特征矩阵Mrf分解为Mrk*Mkf,k<f;Mrk为所述语义关系在潜在语义空间中的表示矩阵;将Mnf*MkfT,得到Mnk;其中,Mnk为所述第一实例在潜在语义空间中的表示矩阵;根据Mnk与MrkT,得到所述第一实例与所述语义关系的相似度;根据所述相似度,在所述第一实例中,筛选出所述第二实例。进一步优选的,所述筛选模块,用于根据Mnk与MrkT,得到所述第一实例与所述语义关系的相似度,具体包括:根据Mnk与MrkT,通过余弦相似度,得到所述第一实例与所述语义关系的相似度。优选的,所述筛选模块,用于根据所述相似度,在所述第一实例中,筛选出所述第二实例,具体包括:对所述相似度进行归一化处理,使每个所述第一实例与所有所述语义关系的相似度之和为1;根据每个所述第一实例对应的归一化处理后的相似度,计算每个所述第一实例的信息熵;选取信息熵小于预定阈值的所述第一实例作为所述第二实例。优选的,所述装置还包括分类器训练模块和信息提取模块;所述分类器训练模块,用于根据所述实体对,对每个所述第二实例进行第一特征抽取,训练出分类器,所述分类器的目标分类为给定的所述语义关系;其中,所述第一特征包括词汇特征和/或句法特征;信息提取模块,用于根据所述分类器,从文本语句中识别给定的所述语义关系并分类。进一步优选的,所述信息提取模块,具体用于:使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;从标记的语句中检索出包含所述实体对的文本语句;根据所述分类器,识别所述文本语句中的所述实体对对应的所述语义关系并分类。基于上述,优选的,所述词汇特征包括所述实体对在语句中的位置、所述实体对之间的词序列、所述实体对之间的词性序列、所述实体对的大小为X的左窗口、以及所述实体对的大小为X的右窗口中至少一种;其中,X≥0;所述句法特征包括所述实体对之间的最短依存路径、所述实体对的大小为Y的左窗口、以及所述实体对的大小为Y的右窗口中至少一种;其中,Y≥0。本专利技术实施例提供一种信息提取方法和装置,通过给定的语义关系,获取对应所述语义关系的实体对,根据所述实体对获取第一实例,在此基础上,对第一实例进行筛选,将不具有给定语义关系的第一实例剔除,筛选出具有给定语义关系的第一实施例作为第二实例,从而剔除样本数据中的噪音数据,这样一来,当将样本数据用于训练模型时,可提高模型的准确度,从而提高获取的信息的准确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的本文档来自技高网...
一种信息提取方法和装置

【技术保护点】
一种信息提取方法,其特征在于,包括:根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例;所述第一实例为含有所述实体对的语句;对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例。

【技术特征摘要】
1.一种信息提取方法,其特征在于,包括:根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例;所述第一实例为含有所述实体对的语句;对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例。2.根据权利要求1所述的信息提取方法,其特征在于,根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例,包括:根据给定的语义关系,从知识库中获取对应所述语义关系的实体对;使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;从标记的语句中检索出包含所述实体对的第一实例。3.根据权利要求1所述的信息提取方法,其特征在于,对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例,包括:根据所述实体对,对每个所述第一实例进行第一特征抽取,构建第一实例-特征矩阵Mnf,n为所述第一实例的个数,f为所有所述第一特征的个数;其中,所述第一特征包括词汇特征和/或句法特征;构建语义关系-第一实例矩阵Mrn;r为所述语义关系的个数;构建语义关系-特征矩阵Mrf,Mrf=Mrn*Mnf;通过非负矩阵分解方法将语义关系-特征矩阵Mrf分解为Mrk*Mkf,k<f;Mrk为所述语义关系在潜在语义空间中的表示矩阵;将Mnf*MkfT,得到Mnk;其中,Mnk为所述第一实例在潜在语义空间中的表示矩阵;根据Mnk与MrkT,得到所述第一实例与所述语义关系的相似度;根据所述相似度,在所述第一实例中,筛选出所述第二实例。4.根据权利要求3所述的信息提取方法,其特征在于,根据Mnk与MrkT,得到所述第一实例与所述语义关系的相似度,包括:根据Mnk与MrkT,通过余弦相似度,得到所述第一实例与所述语义关系的相似度。5.根据权利要求3所述的信息提取方法,其特征在于,根据所述相似度,在所述第一实例中,筛选出所述第二实例,包括:对所述相似度进行归一化处理,使每个所述第一实例与所有所述语义关系的相似度之和为1;根据每个所述第一实例对应的归一化处理后的相似度,计算每个所述第一实例的信息熵;选取信息熵小于预定阈值的所述第一实例作为所述第二实例。6.根据权利要求1所述的信息提取方法,其特征在于,还包括:根据所述实体对,对每个所述第二实例进行第二特征的抽取,训练出分类器,所述分类器的目标分类为给定的所述语义关系;其中,所述第二特征包括词汇特征和/或句法特征;根据所述分类器,从文本语句中识别给定的所述语义关系并分类。7.根据权利要求6所述的信息提取方法,其特征在于,根据所述分类器,从文本语句中识别给定的所述语义关系并分类,包括:使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;从标记的语句中检索出包含所述实体对的文本语句;根据所述分类器,识别所述文本语句中的所述实体对对应的所述语义关系并分类。8.根据权利要求1-7任一项所述的信息提取方法,其特征在于,所述词汇特征包括所述实体对在语句中的位置、所述实体对之间的词序列、所述实体对之间的词性序列、所述实体对的大小为X的左窗口、以及所述实体对的大小为X的右窗口中至少一种;其中,X≥0;所述句法特征包括所述实体对之间的最短依存路径、所述实体对的大小为Y的左窗口、以及所述实体对的大小为Y的右窗口中至少一种;其中,Y≥0。9.一种信息提取装置,...

【专利技术属性】
技术研发人员:张振中
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1