The embodiment of the invention discloses a universal text content mining method, device, server and storage medium. The method includes: obtaining the problem of the target entity and the target feature; in the prediction model of the target entity, the target feature, and the target text in the pre constructed answer prediction model, the answer prediction model determines the starting position and the end position of the answer in the target text by the answer prediction model. The prediction model described in this paper is trained on the basis of sample problems that include sample entities and sample features, as well as the initial and end positions of the sample answers in the text. The technical scheme provided by the embodiment of the invention can accurately predict the starting position and end position of the answer in the target text, and increase the accuracy of the answer recognition. At the same time, the accuracy of the problem answers can be improved by adding the features of the knowledge base.
【技术实现步骤摘要】
一种通用文本内容挖掘方法、装置、服务器及存储介质
本专利技术涉及人工智能
,尤其涉及一种通用文本内容挖掘方法、装置、服务器及存储介质。
技术介绍
在信息时代,随着互联网技术发展,互联网上充斥着各种各样海量的内容信息。针对知识图谱中的实体(Subject,S)与其属性(Property,P)构成的问题(Subject+Property,SP),例如刘德华的妻子,如何从短文本中挖掘出用户想要的答案(Object,O),是目前迫切需要解决的问题之一。目前,普遍采用如下两种答案挖掘技术来解决此问题。1)传统机器学习的方法,通过人工针对不同的问题构建不同的特征,抽取准确性较高,而且有些方法,虽然模型不通用,但是训练模型的方法是通用的;2)基于深度学习的通用解决方法,将大量的训练文本输入到神经网络中,经学习训练后可得到通用的解析模型,从而找到答案。虽然上述两种方法都可以从文本中挖掘出答案,但是,其答案挖掘方法的效率都较低,且提供给用户问题答案的准确度也不高。
技术实现思路
本专利技术实施例提供一种通用文本内容挖掘方法、装置、服务器及存储介质,可以提高从文本中抽取问题答案的识别准确度。第一方面,本专利技术实施例提供了一种通用文本内容挖掘方法,该方法包括:获取包含目标实体以及目标特征的问题;将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定问题的答案在所述目标文本中的起始位置和结束位置,其中所述答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。第二方面,本专利技术实施例还 ...
【技术保护点】
一种通用文本内容挖掘方法,其特征在于,包括:获取包含目标实体以及目标特征的问题;将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定问题的答案在所述目标文本中的起始位置和结束位置,其中所述答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。
【技术特征摘要】
1.一种通用文本内容挖掘方法,其特征在于,包括:获取包含目标实体以及目标特征的问题;将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定问题的答案在所述目标文本中的起始位置和结束位置,其中所述答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。2.根据权利要求1所述的方法,其特征在于,获取包含目标实体以及目标特征的问题之后,还包括:将所述目标实体与所述目标特征作为问题识别模型的输入,通过所述问题识别模型将所述目标实体的词向量,依据知识库确定的所述目标实体的类型,以及依据知识库确定的所述目标实体的候选特征与所述目标特征进行比较,并依据比较结果确定所述目标实体与所述目标特征是否关联;若不关联,则停止操作。3.根据权利要求1所述的方法,其特征在于,所述答案预测模型依次包括输入层,双向LSTM层、关注层、两层双向LSTM层和输出层,其中所述关注层用于将问题与目标文本进行双向匹配。4.根据权利要求1所述的方法,其特征在于,通过所述答案预测模型确定问题的答案在所述目标文本中的起始位置和结束位置之后,还包括:依据答案在所述目标文本中的起始位置和结束位置确定答案内容;将所述答案内容和所述目标特征作为预设构建的答案约束模型,通过所述答案约束模型确定所述答案内容与所述目标特征之间是否关联;若不关联,则剔除答案内容。5.一种通用文本内容挖掘装置,其特征在于,包括:问题获取模块,用于获取包含目标实体以及目标特征的问题;答案位置确定模块,用于将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定问题的答案在所述目...
【专利技术属性】
技术研发人员:杨仁凯,王浩,李莹,张一麟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。