This application proposes a method, device, electronic device and readable storage medium for determining the answer to a question. The method includes: semantically encoding the word vectors of each target word in the target text information, obtaining the first encoding vector of the target word, semantically encoding the word vectors of each question word in the question, and obtaining the encoding vector of each question word. For each target word, according to the matching degree between the corresponding target word and each question word, the encoding vectors of each question word are weighted and summed, and the second encoding vectors of the corresponding target word are obtained. The first encoding vectors and the second encoding vectors of each target word are input into the prediction model to determine the probabilistic value of each target word as the answer to the question. By determining the matching degree between the target words and the question words, this method enriches the input characteristics of the prediction model, improves the accuracy of identifying the key words in the question, and then improves the accuracy of the prediction answer of the model.
【技术实现步骤摘要】
用于确定问题答案的方法、装置、计算机设备及存储介质
本申请涉及互联网
,尤其涉及一种用于确定问题答案的方法、装置、计算机设备以及可读存储介质。
技术介绍
随着互联网技术以及自然语言处理技术的快速发展,自然语言处理技术已成为计算机科学领域与人工智能领域中的一个重要研究方向,能够实现人与计算机之间用自然语言进行有效地通信。因此,对于阅读理解技术给定的一篇或多篇文章以及提问问题,可以通过机器学习的方法从模型中预测得到答案。在通过模型预测答案的过程中需要参照提问问题中的问题词,并且不同的问题词对回答该问题的重要性不同。现有技术中,仅依赖注意力机制衡量各问题词的重要程度,使得确定的各问题词的重要程度存在偏差,从而导致预测答案的准确的较低。
技术实现思路
本申请提出一种用于确定问题答案的方法、装置、计算机设备以及可读存储介质,以实现通过在问题词的词向量中增加了用于指示相应问题词为目标文本信息主题词概率的元素,体现目标词和问题词之间的匹配程度,从而丰富预测模型输入的特征,解决了现有技术中不能准确识别问题词中的关键词,从而导致答案的预测率较低的技术问题。本申请第一方面实施例提出了一种用于确定问题答案的方法,包括:对目标文本信息中各目标词的词向量,进行语义编码,得到目标词的第一编码向量;对提问问题中各问题词的词向量,进行语义编码,得到各问题词的编码向量;对每一个目标词,根据相应目标词与各问题词的匹配程度,对各问题词的编码向量进行加权求和,得到相应目标词的第二编码向量;将各目标词的第一编码向量和第二编码向量,输入预测模型,以确定各目标词为所述提问问题答案的概率值;其中,所述 ...
【技术保护点】
1.一种用于确定问题答案的方法,其特征在于,所述方法包括以下步骤:对目标文本信息中各目标词的词向量,进行语义编码,得到目标词的第一编码向量;对提问问题中各问题词的词向量,进行语义编码,得到各问题词的编码向量;对每一个目标词,根据相应目标词与各问题词的匹配程度,对各问题词的编码向量进行加权求和,得到相应目标词的第二编码向量;将各目标词的第一编码向量和第二编码向量,输入预测模型,以确定各目标词为所述提问问题答案的概率值;其中,所述预测模型已学习得到所述第一编码向量的取值和所述第二编码向量的取值,与所述概率值之间的映射关系。
【技术特征摘要】
1.一种用于确定问题答案的方法,其特征在于,所述方法包括以下步骤:对目标文本信息中各目标词的词向量,进行语义编码,得到目标词的第一编码向量;对提问问题中各问题词的词向量,进行语义编码,得到各问题词的编码向量;对每一个目标词,根据相应目标词与各问题词的匹配程度,对各问题词的编码向量进行加权求和,得到相应目标词的第二编码向量;将各目标词的第一编码向量和第二编码向量,输入预测模型,以确定各目标词为所述提问问题答案的概率值;其中,所述预测模型已学习得到所述第一编码向量的取值和所述第二编码向量的取值,与所述概率值之间的映射关系。2.根据权利要求1所述的方法,其特征在于,各问题词的词向量包括用于指示相应问题词为所述目标文本信息主题词概率的元素;所述将各目标词的第一编码向量和第二编码向量,输入预测模型,包括:将各目标词的第一编码向量中的元素,与所述第二编码向量中的元素合并,作为输入向量输入到所述预测模型;其中,输入向量包含的元素个数为所述第一编码向量中的元素个数与所述第二编码向量中的元素个数之和;所述预测模型,用于根据所述输入向量中各元素取值,确定对应的所述概率值。3.根据权利要求2所述的方法,其特征在于,所述对提问问题中各问题词的词向量,进行语义编码之前,包括:确定所述提问问题中各问题词为所述目标文本信息主题词概率;将每一个问题词的主题词概率作为一个元素,添加到相应问题词的词向量中。4.根据权利要求3所述的方法,其特征在于,所述确定所述提问问题中各问题词为所述目标文本信息主题词概率,包括:确定各问题词在所述目标文本信息中出现的第一频率;确定各问题词在设定的语料库中出现的第二频率;根据各问题词的所述第一频率和所述第二频率,确定各问题词为所述目标文本信息主题词概率。5.根据权利要求1所述的方法,其特征在于,所述对每一个目标词,根据相应目标词对各问题词的关注程度,对各问题词的编码向量进行加权求和,得到相应目标词的第二编码向量,包括:对每一个目标词,采用注意力模型确定相应目标词与各问题词的匹配程度;根据相应目标词对各问题词的匹配程度,以及各问题词为所述目标文本信息主题词概率进行...
【专利技术属性】
技术研发人员:李弘宇,刘璟,吕雅娟,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。