一种信息提取方法和装置制造方法及图纸

技术编号：17912405 阅读：41 留言：0更新日期：2018-05-10 18:16

本发明专利技术提供一种信息提取方法和装置，涉及智能设备技术领域，可提高信息提取的准确率。所述信息提取方法包括：根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例；所述第一实例为含有所述实体对的语句；对所述第一实例中不具有给定语义关系的实例进行删减，得到第二实例。

全部详细技术资料下载

【技术实现步骤摘要】
一种信息提取方法和装置
本专利技术涉及智能设备
，尤其涉及一种信息提取方法和装置。
技术介绍
在各个
，大部分的知识来源于非结构化的文本，随着各领域的快速发展，研究文献以指数级增长，丰富了各领域的相关知识。但是，研究文献爆炸式的增长速度远远超过人们对文献分析的速度，使得研究者很难从文献库中找到所需信息。因此，帮助研究者从海量的文献中挖掘有用信息已经引起学术界和工业界的广泛关注。目前，有技术人员通过语义关系抽取的方式帮助研究者从海量的文献中挖掘有用信息，但由于用来训练模型的样本数据准确度较低，使得训练出的模型准确度较低，导致最终获取的信息普遍存在着准确率较低等问题。
技术实现思路
本专利技术的实施例提供一种信息提取方法和装置，可提高信息提取的准确率。为达到上述目的，本专利技术的实施例采用如下技术方案：第一方面，提供一种信息提取方法，包括：根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例；所述第一实例为含有所述实体对的语句；对所述第一实例中不具有给定语义关系的实例进行删减，得到第二实例。优选的，根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例，包括：根据给定的语义关系，从知识库中获取对应所述语义关系的实体对；使用命名实体识别工具，对数据库中包含命名实体的语句进行标记；从标记的语句中检索出包含所述实体对的第一实例。优选的，对所述第一实例中不具有给定语义关系的实例进行删减，得到第二实例，包括：根据所述实体对，对每个所述第一实例进行第一特征抽取，构建第一实例-特征矩阵Mnf，n为所述第一实例的个数，...
一种信息提取方法和装置

【技术保护点】
一种信息提取方法，其特征在于，包括：根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例；所述第一实例为含有所述实体对的语句；对所述第一实例中不具有给定语义关系的实例进行删减，得到第二实例。

【技术特征摘要】
1.一种信息提取方法，其特征在于，包括：根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例；所述第一实例为含有所述实体对的语句；对所述第一实例中不具有给定语义关系的实例进行删减，得到第二实例。2.根据权利要求1所述的信息提取方法，其特征在于，根据给定的语义关系，获取与所述语义关系对应的实体对，根据所述实体对获取第一实例，包括：根据给定的语义关系，从知识库中获取对应所述语义关系的实体对；使用命名实体识别工具，对数据库中包含命名实体的语句进行标记；从标记的语句中检索出包含所述实体对的第一实例。3.根据权利要求1所述的信息提取方法，其特征在于，对所述第一实例中不具有给定语义关系的实例进行删减，得到第二实例，包括：根据所述实体对，对每个所述第一实例进行第一特征抽取，构建第一实例-特征矩阵Mnf，n为所述第一实例的个数，f为所有所述第一特征的个数；其中，所述第一特征包括词汇特征和/或句法特征；构建语义关系-第一实例矩阵Mrn；r为所述语义关系的个数；构建语义关系-特征矩阵Mrf，Mrf＝Mrn*Mnf；通过非负矩阵分解方法将语义关系-特征矩阵Mrf分解为Mrk*Mkf，k＜f；Mrk为所述语义关系在潜在语义空间中的表示矩阵；将Mnf*MkfT，得到Mnk；其中，Mnk为所述第一实例在潜在语义空间中的表示矩阵；根据Mnk与MrkT，得到所述第一实例与所述语义关系的相似度；根据所述相似度，在所述第一实例中，筛选出所述第二实例。4.根据权利要求3所述的信息提取方法，其特征在于，根据Mnk与MrkT，得到所述第一实例与所述语义关系的相似度，包括：根据Mnk与MrkT，通过余弦相似度，得到所述第一实例与所述语义关系的相似度。5.根据权利要求3所述的信息提取方法，其特征在于，根据所述相似度，在所述第一实例中，筛选出所述第二实例，包括：对所述相似度进行归一化处理，使每个所述第一实例与所有所述语义关系的相似度之和为1；根据每个所述第一实例对应的归一化处理后的相似度，计算每个所述第一实例的信息熵；选取信息熵小于预定阈值的所述第一实例作为所述第二实例。6.根据权利要求1所述的信息提取方法，其特征在于，还包括：根据所述实体对，对每个所述第二实例进行第二特征的抽取，训练出分类器，所述分类器的目标分类为给定的所述语义关系；其中，所述第二特征包括词汇特征和/或句法特征；根据所述分类器，从文本语句中识别给定的所述语义关系并分类。7.根据权利要求6所述的信息提取方法，其特征在于，根据所述分类器，从文本语句中识别给定的所述语义关系并分类，包括：使用命名实体识别工具，对数据库中包含命名实体的语句进行标记；从标记的语句中检索出包含所述实体对的文本语句；根据所述分类器，识别所述文本语句中的所述实体对对应的所述语义关系并分类。8.根据权利要求1-7任一项所述的信息提取方法，其特征在于，所述词汇特征包括所述实体对在语句中的位置、所述实体对之间的词序列、所述实体对之间的词性序列、所述实体对的大小为X的左窗口、以及所述实体对的大小为X的右窗口中至少一种；其中，X≥0；所述句法特征包括所述实体对之间的最短依存路径、所述实体对的大小为Y的左窗口、以及所述实体对的大小为Y的右窗口中至少一种；其中，Y≥0。9.一种信息提取装置，...

【专利技术属性】
技术研发人员：张振中，
申请(专利权)人：京东方科技集团股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人