用于确定问题答案的方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:20944387 阅读:22 留言:0更新日期:2019-04-24 02:21
本申请提出一种用于确定问题答案的方法、装置、电子设备以及可读存储介质,其中,方法包括:通过对目标文本信息中各目标词的词向量,进行语义编码,得到目标词的第一编码向量,对提问问题中各问题词的词向量,进行语义编码,得到各问题词的编码向量,对每一个目标词,根据相应目标词与各问题词的匹配程度,对各问题词的编码向量进行加权求和,得到相应目标词的第二编码向量,将各目标词的第一编码向量和第二编码向量,输入预测模型,以确定各目标词为所述提问问题答案的概率值。该方法通过确定目标词和问题词之间的匹配程度,从而丰富预测模型输入的特征,提高了识别问题中关键词的准确性,进而提高了模型预测答案的准确率。

Method, device, computer equipment and storage medium for determining the answer to a question

This application proposes a method, device, electronic device and readable storage medium for determining the answer to a question. The method includes: semantically encoding the word vectors of each target word in the target text information, obtaining the first encoding vector of the target word, semantically encoding the word vectors of each question word in the question, and obtaining the encoding vector of each question word. For each target word, according to the matching degree between the corresponding target word and each question word, the encoding vectors of each question word are weighted and summed, and the second encoding vectors of the corresponding target word are obtained. The first encoding vectors and the second encoding vectors of each target word are input into the prediction model to determine the probabilistic value of each target word as the answer to the question. By determining the matching degree between the target words and the question words, this method enriches the input characteristics of the prediction model, improves the accuracy of identifying the key words in the question, and then improves the accuracy of the prediction answer of the model.

【技术实现步骤摘要】
用于确定问题答案的方法、装置、计算机设备及存储介质
本申请涉及互联网
,尤其涉及一种用于确定问题答案的方法、装置、计算机设备以及可读存储介质。
技术介绍
随着互联网技术以及自然语言处理技术的快速发展,自然语言处理技术已成为计算机科学领域与人工智能领域中的一个重要研究方向,能够实现人与计算机之间用自然语言进行有效地通信。因此,对于阅读理解技术给定的一篇或多篇文章以及提问问题,可以通过机器学习的方法从模型中预测得到答案。在通过模型预测答案的过程中需要参照提问问题中的问题词,并且不同的问题词对回答该问题的重要性不同。现有技术中,仅依赖注意力机制衡量各问题词的重要程度,使得确定的各问题词的重要程度存在偏差,从而导致预测答案的准确的较低。
技术实现思路
本申请提出一种用于确定问题答案的方法、装置、计算机设备以及可读存储介质,以实现通过在问题词的词向量中增加了用于指示相应问题词为目标文本信息主题词概率的元素,体现目标词和问题词之间的匹配程度,从而丰富预测模型输入的特征,解决了现有技术中不能准确识别问题词中的关键词,从而导致答案的预测率较低的技术问题。本申请第一方面实施例提出了一种用于确定问题答案的方法,包括:对目标文本信息中各目标词的词向量,进行语义编码,得到目标词的第一编码向量;对提问问题中各问题词的词向量,进行语义编码,得到各问题词的编码向量;对每一个目标词,根据相应目标词与各问题词的匹配程度,对各问题词的编码向量进行加权求和,得到相应目标词的第二编码向量;将各目标词的第一编码向量和第二编码向量,输入预测模型,以确定各目标词为所述提问问题答案的概率值;其中,所述预测模型已学习得到所述第一编码向量的取值和所述第二编码向量的取值,与所述概率值之间的映射关系。本申请实施例的用于确定问题答案的方法,通过对目标文本信息中各目标词的词向量,进行语义编码,得到目标词的第一编码向量,对提问问题中各问题词的词向量,进行语义编码,得到各问题词的编码向量,对每一个目标词,根据相应目标词与各问题词的匹配程度,对各问题词的编码向量进行加权求和,得到相应目标词的第二编码向量,将各目标词的第一编码向量和第二编码向量,输入预测模型,以确定各目标词为所述提问问题答案的概率值;其中,预测模型已学习得到第一编码向量的取值和第二编码向量的取值,与概率值之间的映射关系。该方法通过在问题词的词向量中增加了用于指示相应问题词为目标文本信息主题词概率的元素,体现目标词和问题词之间的匹配程度,从而丰富预测模型输入的特征,提高了识别问题中关键词的准确性,进而提高了模型预测答案的准确率。本申请第二方面实施例提出了一种用于确定问题答案的装置,包括:第一编码模块,用于对目标文本信息中各目标词的词向量,进行语义编码,得到目标词的第一编码向量;第二编码模块,用于对提问问题中各问题词的词向量,进行语义编码,得到各问题词的编码向量;计算模块,用于对每一个目标词,根据相应目标词对各问题词的关注程度,对各问题词的编码向量进行加权求和,得到相应目标词的第二编码向量;确定模块,用于将各目标词的第一编码向量和第二编码向量,输入预测模型,以确定各目标词为所述提问问题答案的概率值;其中,所述预测模型已学习得到所述第一编码向量的取值和所述第二编码向量的取值,与所述概率值之间的映射关系。本申请实施例的用于确定问题答案的装置,通过对目标文本信息中各目标词的词向量,进行语义编码,得到目标词的第一编码向量,对提问问题中各问题词的词向量,进行语义编码,得到各问题词的编码向量,对每一个目标词,根据相应目标词与各问题词的匹配程度,对各问题词的编码向量进行加权求和,得到相应目标词的第二编码向量,将各目标词的第一编码向量和第二编码向量,输入预测模型,以确定各目标词为所述提问问题答案的概率值;其中,预测模型已学习得到第一编码向量的取值和第二编码向量的取值,与概率值之间的映射关系。该方法通过在问题词的词向量中增加了用于指示相应问题词为目标文本信息主题词概率的元素,体现目标词和问题词之间的匹配程度,从而丰富预测模型输入的特征,提高了识别问题中关键词的准确性,进而提高了模型预测答案的准确率。本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述实施例中所述的用于确定问题答案的方法。本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述实施例中所述的用于确定问题答案的方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请实施例所提供的一种用于确定问题答案的方法的流程示意图;图2为本申请实施例所提供的另一种用于确定问题答案的方法的流程示意图;图3为本申请实施例所提供的一种用于确定问题答案的装置的结构示意图;图4为本申请实施例所提供的另一种用于确定问题答案的装置的结构示意图;图5为本申请实施例所提供的一种用于确定问题答案的模型的结构示意图;图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。阅读理解技术指给定一篇或多篇文章以及一个问题,利用机器学习的方法让模型预测答案。模型在对答案进行预测时需要参照问题中的词,并且问题中不同的词对回答该问题的重要性是不同的,因此,需要模型能够根据问题词的重要性来决定关注哪些词,以及每个词的关注程度。现有技术中,仅依赖注意力机制衡量各问题词的重要程度,通过该方法难以控制模型判别关键词的学习过程和正确率,使得最终学到的关键词和关键程度可能受到数据偏差、模型结构的影响,同人的观点有较大差别。同时,模型也可能错误地忽略某些关键词,或者过分关注某些词,从而导致答案预测正确率的降低。针对上述现有技术中的问题,本申请实施例提出了一种用于确定问题答案的方法,通过对目标文本信息中各目标词的词向量,进行语义编码,得到目标词的第一编码向量,对提问问题中各问题词的词向量,进行语义编码,得到各问题词的编码向量,对每一个目标词,根据相应目标词与各问题词的匹配程度,对各问题词的编码向量进行加权求和,得到相应目标词的第二编码向量,将各目标词的第一编码向量和第二编码向量,输入预测模型,以确定各目标词为提问问题答案的概率值,进而,根据各目标词为提问问题答案的概率值,从目标文本信息包含的各目标词中抽取答案词,根据答案词,生成提问问题的答案。下面参考附图描述本申请实施例的用于确定问题答案的方法、装置计算机设备以及存储介质。图1为本申请实施例所提供的一种用于确定问题答案的方法的流程示意图。本申请实施例以该用于确定问题答案的方法被配置于用于确定问题答案的装置中来举例说明,该用于确定问题答案的装置可以应用于任一计算机设备中,以使该计算机设备可以执行确定问题答本文档来自技高网...

【技术保护点】
1.一种用于确定问题答案的方法,其特征在于,所述方法包括以下步骤:对目标文本信息中各目标词的词向量,进行语义编码,得到目标词的第一编码向量;对提问问题中各问题词的词向量,进行语义编码,得到各问题词的编码向量;对每一个目标词,根据相应目标词与各问题词的匹配程度,对各问题词的编码向量进行加权求和,得到相应目标词的第二编码向量;将各目标词的第一编码向量和第二编码向量,输入预测模型,以确定各目标词为所述提问问题答案的概率值;其中,所述预测模型已学习得到所述第一编码向量的取值和所述第二编码向量的取值,与所述概率值之间的映射关系。

【技术特征摘要】
1.一种用于确定问题答案的方法,其特征在于,所述方法包括以下步骤:对目标文本信息中各目标词的词向量,进行语义编码,得到目标词的第一编码向量;对提问问题中各问题词的词向量,进行语义编码,得到各问题词的编码向量;对每一个目标词,根据相应目标词与各问题词的匹配程度,对各问题词的编码向量进行加权求和,得到相应目标词的第二编码向量;将各目标词的第一编码向量和第二编码向量,输入预测模型,以确定各目标词为所述提问问题答案的概率值;其中,所述预测模型已学习得到所述第一编码向量的取值和所述第二编码向量的取值,与所述概率值之间的映射关系。2.根据权利要求1所述的方法,其特征在于,各问题词的词向量包括用于指示相应问题词为所述目标文本信息主题词概率的元素;所述将各目标词的第一编码向量和第二编码向量,输入预测模型,包括:将各目标词的第一编码向量中的元素,与所述第二编码向量中的元素合并,作为输入向量输入到所述预测模型;其中,输入向量包含的元素个数为所述第一编码向量中的元素个数与所述第二编码向量中的元素个数之和;所述预测模型,用于根据所述输入向量中各元素取值,确定对应的所述概率值。3.根据权利要求2所述的方法,其特征在于,所述对提问问题中各问题词的词向量,进行语义编码之前,包括:确定所述提问问题中各问题词为所述目标文本信息主题词概率;将每一个问题词的主题词概率作为一个元素,添加到相应问题词的词向量中。4.根据权利要求3所述的方法,其特征在于,所述确定所述提问问题中各问题词为所述目标文本信息主题词概率,包括:确定各问题词在所述目标文本信息中出现的第一频率;确定各问题词在设定的语料库中出现的第二频率;根据各问题词的所述第一频率和所述第二频率,确定各问题词为所述目标文本信息主题词概率。5.根据权利要求1所述的方法,其特征在于,所述对每一个目标词,根据相应目标词对各问题词的关注程度,对各问题词的编码向量进行加权求和,得到相应目标词的第二编码向量,包括:对每一个目标词,采用注意力模型确定相应目标词与各问题词的匹配程度;根据相应目标词对各问题词的匹配程度,以及各问题词为所述目标文本信息主题词概率进行...

【专利技术属性】
技术研发人员:李弘宇刘璟吕雅娟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1