一种内容抽取方法及装置制造方法及图纸

技术编号:21432177 阅读:31 留言:0更新日期:2019-06-22 11:55
本申请实施例提供了一种内容抽取方法及装置,包括:根据问题树包含的分类表达式获取问题的目标分类;获取目标分类在抽取树中对应的目标抽取节点,并使用目标抽取节点包含的抽取表达式从阅读文本中抽取目标内容;根据目标分类对应的后处理规则,对目标内容进行后处理,得到问题的答案。由此,本申请实施例提供的方法应用到机器阅读理解时,仅需根据问题的类别构建问题树和抽取树,当问题的类别确定时,问题树和抽取树也相对确定,可以用于从不同的阅读文本中抽取问题的答案,具有普适性,能够提高机器阅读理解的准确率。

【技术实现步骤摘要】
一种内容抽取方法及装置
本申请涉及自然语言处理
,尤其涉及一种内容抽取方法及装置。
技术介绍
机器阅读理解是伴随着深度学习技术的发展而产生的技术主题。机器阅读理解的研究目的就是让机器像人类一样阅读文本,进而根据对该文本的理解来回答问题,具体来说,就是机器根据给定的语料和问题,从语料中找出问题的正确答案。目前的机器阅读理解通常是使用基于深度学习的算法模型实现的,即采用人工构造的标记了问题和答案的数据集训练深度学习模型,从而使深度学习模型具备从简单的文本中抽取一些简单问题答案的能力。然而,由于深度学习模型算法的局限性和数据集规模的局限性,目前基于深度学习模型实现的机器阅读理解方法的准确率不高。例如在一些开放性语境的实际应用中,当从文章中抽取指定问题的答案时,深度学习模型只能实现60%左右的抽取准确率,远远达不到能够应用到生产环境中的要求。可见,对于机器阅读理解来说,其理解准确率还有较大的提升空间。
技术实现思路
本申请实施例提供了一种内容抽取方法及装置,以解决现有技术的机器阅读理解方法从文章中抽取问题答案的准确率较低的问题。第一方面,本申请实施例提供了一种内容抽取方法,包括:根据问题树包含的分类表达式获取问题的目标分类,其中,所述问题树包含分类节点,每个分类节点对应问题的一个分类,所述分类节点包含分类表达式列表,所述分类表达式列表包含多个分类表达式;获取所述目标分类在抽取树中对应的目标抽取节点,并使用所述目标抽取节点包含的抽取表达式从阅读文本中抽取目标内容,其中,所述抽取树包含抽取节点,每个抽取节点对应问题的一个分类,所述抽取节点包含抽取表达式列表,所述抽取表达式列表包含多个抽取表达式;根据所述目标分类对应的后处理规则,对所述目标内容进行后处理,得到所述问题的答案。第二方面,本申请实施例提供了一种内容抽取装置,包括:问题匹配模块,用于根据问题树包含的分类表达式获取问题的目标分类,其中,所述问题树包含分类节点,每个分类节点对应问题的一个分类,所述分类节点包含分类表达式列表,所述分类表达式列表包含多个分类表达式;内容抽取模块,用于获取所述目标分类在抽取树中对应的目标抽取节点,并使用所述目标抽取节点包含的抽取表达式从阅读文本中抽取目标内容,其中,所述抽取树包含抽取节点,每个抽取节点对应问题的一个分类,所述抽取节点包含抽取表达式列表,所述抽取表达式列表包含多个抽取表达式;后处理模块,用于根据所述目标分类对应的后处理规则,对所述目标内容进行后处理,得到所述问题的答案。由以上技术方案可知,本申请实施例提供了一种内容抽取方法及装置,包括:根据问题树包含的分类表达式获取问题的目标分类,所述问题树包含分类节点,所述分类节点包含分类表达式列表,所述分类表达式列表包含多个分类表达式;获取所述目标分类在抽取树中对应的目标抽取节点,并使用所述目标抽取节点包含的抽取表达式从阅读文本中抽取目标内容,所述抽取树包含抽取节点,所述抽取节点包含抽取表达式列表,所述抽取表达式列表包含多个抽取表达式;根据所述目标分类对应的后处理规则,对所述目标内容进行后处理,得到所述问题的答案。由此,本申请实施例提供的技术方案应用到机器阅读理解时,仅需根据问题的类别构建问题树和抽取树,当问题的类别确定时,问题树和抽取树也相对确定,可以用于从不同的阅读文本中抽取问题的答案,具有普适性,能够提高机器阅读理解的准确率。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种内容抽取方法的流程图;图2为本申请实施例提供的一种前处理方法的流程图;图3为本申请实施例提供的一种后处理规则的流程图;图4为本申请实施例提供的一种后处理规则的流程图;图5为本申请实施例提供的一种内容抽取装置的结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。机器阅读理解是伴随着深度学习技术的发展而产生的技术主题。机器阅读理解的研究目的就是让机器像人类一样阅读文本,进而根据对该文本的理解来回答问题,具体来说,就是机器根据给定的语料和问题,从语料中找出问题的正确答案。例如,以一篇文章作为机器阅读理解的阅读文本:俄罗斯国防部新闻局13日发布消息说,“2015友谊之桥”俄罗斯和埃及海军首次联合军事演习当天在地中海结束。……埃及军方发言人此前表示,这是两国间最大规模的军演,目的在于加强埃俄战略性军事与安全合作,增进双方军事技术交流。据介绍,俄方参加演习的舰船包括“莫斯科”号导弹巡洋舰、“西蒙风”号导弹气垫艇、“亚历山大·沙巴林”号大型登陆舰和“MB-31”海洋拖船。埃及海军派出两艘巡航舰、两艘导弹艇以及其他舰船参加此次演习。(记者岳XX)并给出一个问题:本文的作者是谁?则机器阅读理解的目的是希望从阅读文本中找出这篇文章的作者,那么,对于这个问题来说,正确的答案应该是:岳XX。目前的机器阅读理解通常是使用基于深度学习的算法模型实现的,即采用人工构造的标记了问题和答案的数据集训练深度学习模型,由此,算法的局限性和数据集规模的局限性导致基于深度学习模型的机器阅读理解方法在准确性方面存在瓶颈,尤其是在一些开放性语境的实际应用中数据集规模更是远远达不到训练深度学习模型的需求,导致机器阅读理解的准确率较低。本申请实施例提供了一种内容抽取方法及装置,以解决现有技术的机器阅读理解方法从文章中抽取问题答案的准确率较低的问题。下面是本申请的方法实施例,提供了一种内容抽取方法,该方法可应用于服务器、PC(个人电脑)、平板电脑、手机、智能电视、智能音箱、虚拟现实设备和智能穿戴设备等多种设备中。图1为本申请实施例提供的一种内容抽取方法的流程图。如图1所示,该内容抽取方法包括以下步骤:步骤S101,根据问题树包含的分类表达式获取问题的目标分类,其中,所述问题树包含分类节点,每个分类节点对应问题的一个分类,所述分类节点包含分类表达式列表,所述分类表达式列表包含多个分类表达式。具体地,本申请实施例根据指定的问题,从阅读文本中抽取对应的内容作为问题的答案。其中,阅读文本例如可以是一篇文章,包括:新闻稿、自媒体文章、科普文章、小说、散文、专题文章或专业领域的文章等,相应地,根据阅读理解的主要内容,问题可以包含多个类别,例如:文章主题、文章作者、文章来源、文章时间、头衔是谁等。基于上述对问题的分类,本申请实施例可以构建问题树。其中,问题树包括至少一个父节点和多个位于父节点下一级的子节点,并以子节点作为分类节点,每个分类节点对应问题的一个分类,每个分类节点包含至少一个分类表达式列表,分类表达式列表的每一行以成对的形式包含一个类别名称和一个对应的分类表达式。示例地,问题树可以是以下形式:问题分类(父节点)文章作者(子节点)文章主题文章来源头衔是谁文章时间由此,通过使用问题树中的分类表达式本文档来自技高网
...

【技术保护点】
1.一种内容抽取方法,其特征在于,包括:根据问题树包含的分类表达式获取问题的目标分类,其中,所述问题树包含分类节点,每个分类节点对应问题的一个分类,所述分类节点包含分类表达式列表,所述分类表达式列表包含多个分类表达式;获取所述目标分类在抽取树中对应的目标抽取节点,并使用所述目标抽取节点包含的抽取表达式从阅读文本中抽取目标内容,其中,所述抽取树包含抽取节点,每个抽取节点对应问题的一个分类,所述抽取节点包含抽取表达式列表,所述抽取表达式列表包含多个抽取表达式;根据所述目标分类对应的后处理规则,对所述目标内容进行后处理,得到所述问题的答案。

【技术特征摘要】
1.一种内容抽取方法,其特征在于,包括:根据问题树包含的分类表达式获取问题的目标分类,其中,所述问题树包含分类节点,每个分类节点对应问题的一个分类,所述分类节点包含分类表达式列表,所述分类表达式列表包含多个分类表达式;获取所述目标分类在抽取树中对应的目标抽取节点,并使用所述目标抽取节点包含的抽取表达式从阅读文本中抽取目标内容,其中,所述抽取树包含抽取节点,每个抽取节点对应问题的一个分类,所述抽取节点包含抽取表达式列表,所述抽取表达式列表包含多个抽取表达式;根据所述目标分类对应的后处理规则,对所述目标内容进行后处理,得到所述问题的答案。2.根据权利要求1所述的方法,其特征在于,所述分类表达式和所述抽取表达式均由文本概念、关键词和算子组成,其中,所述文本概念包含至少一个概念值,所述概念值作为文本概念的一种表达方式,所述算子用于结合所述文本概念和所述关键词形成表达式的匹配规则。3.根据权利要求2所述的方法,其特征在于,还包括概念树,所述概念树包含多个文本概念,每个所述文本概念包含多个概念节点,每个所述概念节点对应一个概念值。4.根据权利要求1所述的方法,其特征在于,所述根据问题树包含的分类表达式获取问题的目标分类之前,还包括:去除问题中的空格字符;去除阅读文本的开始位置或结束位置包含的特定内容;获取阅读文本连续出现的空白字符,并将连续出现的空白字符替换为一个空格字符。5.根据权利要求1所述的方法,其特征在于,所述后处理规则包括:去除所述目标内容包含的作为噪音的字符串;去除位于所述目标内容之前和所述目标内容之后的空格字符,得到所述答案。6.根据权利要求1所述的方法,其特征在于,所述后处理规则包括:当所述抽取表达式抽取到多个目标内容时,将距离阅读文本末尾在预设范围内,并且距离阅读文本末尾最近的...

【专利技术属性】
技术研发人员:任宁晋耀红李德彦
申请(专利权)人:安徽省泰岳祥升软件有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1