一种通用文本内容挖掘方法、装置、服务器及存储介质制造方法及图纸

技术编号:17994492 阅读:40 留言:0更新日期:2018-05-19 11:41
本发明专利技术实施例公开了一种通用文本内容挖掘方法、装置、服务器及存储介质。其中,该方法包括:获取包含目标实体以及目标特征的问题;将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定问题的答案在所述目标文本中的起始位置和结束位置,其中所述答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。本发明专利技术实施例提供的技术方案,可以准确预测出答案在目标文本中的起始位置和结束位置,增加了答案识别准确率,同时,由于加入了知识库特征,可以提高从文本内容中抽取问题答案的准确性。

A universal text content mining method, device, server and storage medium

The embodiment of the invention discloses a universal text content mining method, device, server and storage medium. The method includes: obtaining the problem of the target entity and the target feature; in the prediction model of the target entity, the target feature, and the target text in the pre constructed answer prediction model, the answer prediction model determines the starting position and the end position of the answer in the target text by the answer prediction model. The prediction model described in this paper is trained on the basis of sample problems that include sample entities and sample features, as well as the initial and end positions of the sample answers in the text. The technical scheme provided by the embodiment of the invention can accurately predict the starting position and end position of the answer in the target text, and increase the accuracy of the answer recognition. At the same time, the accuracy of the problem answers can be improved by adding the features of the knowledge base.

【技术实现步骤摘要】
一种通用文本内容挖掘方法、装置、服务器及存储介质
本专利技术涉及人工智能
,尤其涉及一种通用文本内容挖掘方法、装置、服务器及存储介质。
技术介绍
在信息时代,随着互联网技术发展,互联网上充斥着各种各样海量的内容信息。针对知识图谱中的实体(Subject,S)与其属性(Property,P)构成的问题(Subject+Property,SP),例如刘德华的妻子,如何从短文本中挖掘出用户想要的答案(Object,O),是目前迫切需要解决的问题之一。目前,普遍采用如下两种答案挖掘技术来解决此问题。1)传统机器学习的方法,通过人工针对不同的问题构建不同的特征,抽取准确性较高,而且有些方法,虽然模型不通用,但是训练模型的方法是通用的;2)基于深度学习的通用解决方法,将大量的训练文本输入到神经网络中,经学习训练后可得到通用的解析模型,从而找到答案。虽然上述两种方法都可以从文本中挖掘出答案,但是,其答案挖掘方法的效率都较低,且提供给用户问题答案的准确度也不高。
技术实现思路
本专利技术实施例提供一种通用文本内容挖掘方法、装置、服务器及存储介质,可以提高从文本中抽取问题答案的识别准确度。第一方面,本专利技术实施例提供了一种通用文本内容挖掘方法,该方法包括:获取包含目标实体以及目标特征的问题;将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定问题的答案在所述目标文本中的起始位置和结束位置,其中所述答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。第二方面,本专利技术实施例还提供了一种文本内容挖掘装置,该装置包括:问题获取模块,用于获取包含目标实体以及目标特征的问题;答案位置确定模块,用于将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定问题的答案在所述目标文本中的起始位置和结束位置,其中所述答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。第三方面,本专利技术实施例还提供了一种服务器,该服务器包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面中任意所述的通用文本内容挖掘方法。第四方面,本专利技术实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任意所述的通用文本内容挖掘方法。本专利技术实施例提供的通用文本内容挖掘方法、装置、服务器及存储介质,通过将获取的目标实体和目标特征的问题以及目标文本输入到预先构建的答案预测模型中,可以准确预测出答案在目标文本中的起始位置和结束位置,增加了答案识别准确率,同时,由于加入了知识库特征,可以提高从文本内容中抽取问题答案的准确性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1是本专利技术实施例一中提供的一种通用文本内容挖掘方法的流程图;图2是本专利技术实施例一中提供的一种答案预测模型的结构示意图;图3是本专利技术实施例二中提供的一种通用文本内容挖掘方法的流程图;图4是本专利技术实施例二中提供的一种问题识别模型的结构示意图;图5是本专利技术实施例三中提供的一种通用文本内容挖掘方法的流程图;图6是本专利技术实施例三中提供的一种答案约束模型的结构示意图;图7是本专利技术实施例四中提供的一种通用文本内容挖掘方法的流程图;图8是本专利技术实施例五中提供的一种通用文本内容挖掘装置的结构框图;图9是本专利技术实施例六中提供的一种服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。实施例一图1为本专利技术实施例一提供的一种通用文本内容挖掘方法的流程图,图2为本专利技术实施例一提供的一种答案预测模型的结构示意图。本实施例基于知识库特征和深度学习可用来在目标文本中挖掘用户给定的问题的答案的情况。该方法可以由本专利技术实施例提供的通用文本内容挖掘装置/服务器/计算机可读存储介质来执行,该装置/服务器/计算机可读存储介质可采用软件和/或硬件的方式实现。参见图1,该方法具体包括:S110,获取包含目标实体以及目标特征的问题。在本实施例中,获取用户提出的目标问题后,通过将目标问题与知识图谱中的实体进行匹配,将匹配到的实体作为目标实体,通过将目标问题与目标实体的属性进行匹配,将匹配到的属性特征作为目标特征。例如,目标问题刘德华的妻子中包含的目标实体是刘德华,目标特征是妻子。S120,将目标实体、目标特征以及目标文本输入预先构建的答案预测模型中,通过答案预测模型确定问题的答案在目标文本中的起始位置和结束位置。其中,答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。为了从文本内容中挖掘出答案,采用神经网络来抽取问题的答案,而神经网络模型可以包括输入层、中间层即隐藏层和输出层。其中,隐藏层根据模型训练的难易程度以及实际目标情况等因素一般有多层,其功能主要是增加神经网络的复杂性,以能够模拟复杂的非线性关系。神经网络模型训练过程是把大量的包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置输入到神经网络模型中进行训练,通过各样本训练之后,使得该模型慢慢具有了抽取能力。当把一个待确定问题答案所在位置的样本问题以及目标文本作为输入样本,输入到已经训练好的神经网络模型中,模型会结合该模型现有的参数,对输入样本,做出一个预测,并输出预测的结果。目标文本是指与查找的问题相关的短文或新闻等,可以是选自互联网产品中的文本。需要说明的是,本实施例中答案预测模型是一种边界模型,通过输出答案在文本中的起始位置和结束位置来给出问题对应的答案所在的范围。传统的直接预测答案内容的预测模型,很依赖切词的准确性,如果切词不对,答案就无法找到。该边界模型相比于直接输出答案内容的预测模型的好处在于,边界模型只要预测首尾,而序列标注需要把答案的每一个位置都预测对;并且经实验验证,本实施例中的答案预测模型的准确率和效率均更好。参见图2,答案预测模型依次可以包括输入层,双向LSTM(LongShort-TermMemory,长短期记忆模型)层、关注层、两层双向LSTM层和输出层,其中关注层用于将问题与目标文本进行双向匹配。LSTM是一种特殊的RNN(RecurrentNeuralNetwork,循环神经网络)模型,是为了解决RNN模型梯度弥散的问题而提出的;能够压缩输入向量表示并预测输出。为了得到更加准确的答案,本实施例的答案预测模型中引入了关注层,该关注层中的SP2Context表示用问题匹配文本,ContextSP2表示用文本匹配问题,可以实现问题与目标文本的双向匹配。具体的,输入到关注层中的向量经模型训练后输出两个结果,图中的1表示SP2Context经训练后的输出,2表示ContextSP2经训练后的输出,从而增加了答案的准确性。同时,采用两层双向LSTM层,使得最后输出层输出本文档来自技高网...
一种通用文本内容挖掘方法、装置、服务器及存储介质

【技术保护点】
一种通用文本内容挖掘方法,其特征在于,包括:获取包含目标实体以及目标特征的问题;将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定问题的答案在所述目标文本中的起始位置和结束位置,其中所述答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。

【技术特征摘要】
1.一种通用文本内容挖掘方法,其特征在于,包括:获取包含目标实体以及目标特征的问题;将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定问题的答案在所述目标文本中的起始位置和结束位置,其中所述答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。2.根据权利要求1所述的方法,其特征在于,获取包含目标实体以及目标特征的问题之后,还包括:将所述目标实体与所述目标特征作为问题识别模型的输入,通过所述问题识别模型将所述目标实体的词向量,依据知识库确定的所述目标实体的类型,以及依据知识库确定的所述目标实体的候选特征与所述目标特征进行比较,并依据比较结果确定所述目标实体与所述目标特征是否关联;若不关联,则停止操作。3.根据权利要求1所述的方法,其特征在于,所述答案预测模型依次包括输入层,双向LSTM层、关注层、两层双向LSTM层和输出层,其中所述关注层用于将问题与目标文本进行双向匹配。4.根据权利要求1所述的方法,其特征在于,通过所述答案预测模型确定问题的答案在所述目标文本中的起始位置和结束位置之后,还包括:依据答案在所述目标文本中的起始位置和结束位置确定答案内容;将所述答案内容和所述目标特征作为预设构建的答案约束模型,通过所述答案约束模型确定所述答案内容与所述目标特征之间是否关联;若不关联,则剔除答案内容。5.一种通用文本内容挖掘装置,其特征在于,包括:问题获取模块,用于获取包含目标实体以及目标特征的问题;答案位置确定模块,用于将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定问题的答案在所述目...

【专利技术属性】
技术研发人员:杨仁凯王浩李莹张一麟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1