问答处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:24091443 阅读:23 留言:0更新日期:2020-05-09 08:15
本申请公开了问答处理方法、装置、电子设备和存储介质,涉及自然语言处理技术领域。具体实现方案为:在确定待回答问题的答案的过程中,结合第一问题语义表示模型和第二语义表示模型对待回答问题分别进行语义表示,并将各自所得到的语义表示向量结果进行拼接处理,并将拼接的语义向量作为待回答问题的语义表示向量,并从答案向量索引库中获取与待回答问题的语义表示向量匹配的答案语义向量,并答案语义向量所对应的答案,作为待回答问题的目标答案。由此,在无需计算答案置信度,提高了获取问题对应答案的效率,并且,根据候选答案本身以及候选答案所在文章的文章标题与所给问题的相关性,确定与所给问题匹配的正确答案,提升问答匹配准确率。

Q & a processing method, device, electronic equipment and storage medium

【技术实现步骤摘要】
问答处理方法、装置、电子设备和存储介质
本申请涉及计算机
,具体涉及自然语言处理
,尤其涉及问答处理方法、装置、电子设备和存储介质。
技术介绍
问答功能是目前各类信息检索系统开发者力求提供给用户的一种高级功能。由于人工回答用户提出的问题需要的人力成本较高,因此,为节省人力成本,如何针对用户提出的问题智能自动地回答已经成为本领域急需解决的技术问题。在相关技术中,通常有两种自动给出对应问题的答案的方式,第一种方式为基于检索的问题系统先向用户返回对应问题的答案,其中,第一种方式自动给出对应问题的答案的一般过程为:对于输入的问题,首先通过信息检索的方法(例如搜索引擎技术)从海量文本中找出一定量的候选文本,之后通过语义匹配、特征提取等多种方法计算所有候选文本的答案特征,进而计算文本是正确答案的置信度,将置信度最高的文本作为答案。第二种方式为基于问答数据库向用户返回对应问题的答案,一般过程为:对于用户提出的问题q,遍历数据库中的所有<问题-回答>组,分别计算q与问题的匹配置信度,和q与回答的匹配置信度,选择置信度都高于既定阈本文档来自技高网...

【技术保护点】
1.一种问答处理方法,其特征在于,所述方法包括:/n获取待回答问题;/n将所述待回答问题分别输入第一问题语义表示模型和第二问题语义表示模型中,以得到所述待回答问题的第一语义表示向量和第二语义表示向量,其中,所述第一问题语义表示模型是基于问题样本以及所述问题样本所对应的答案样本进行训练而得到的,所述第二问题语义表示模型是基于所述问题样本和所述答案样本所对应的文章标题进行训练而得到的;/n根据所述第一语义表示向量和所述第二语义表示向量进行拼接处理,以得到所述待回答问题的目标语义表示向量;/n将所述待回答问题的目标语义表示向量与预先建立的答案向量索引库中的每个答案语义表示向量进行匹配,其中,所述答案...

【技术特征摘要】
1.一种问答处理方法,其特征在于,所述方法包括:
获取待回答问题;
将所述待回答问题分别输入第一问题语义表示模型和第二问题语义表示模型中,以得到所述待回答问题的第一语义表示向量和第二语义表示向量,其中,所述第一问题语义表示模型是基于问题样本以及所述问题样本所对应的答案样本进行训练而得到的,所述第二问题语义表示模型是基于所述问题样本和所述答案样本所对应的文章标题进行训练而得到的;
根据所述第一语义表示向量和所述第二语义表示向量进行拼接处理,以得到所述待回答问题的目标语义表示向量;
将所述待回答问题的目标语义表示向量与预先建立的答案向量索引库中的每个答案语义表示向量进行匹配,其中,所述答案向量索引库是将答案样本池中所有候选答案转化为语义表示向量而构建的,所述候选答案所对应的答案语义表示向量是根据所述候选答案本身的语义表示向量和所述候选答案所对应的文章标题的标题语义表示向量而得到;
根据匹配到的答案语义表示向量,获取对应的目标答案,并输出所述目标答案。


2.根据权利要求1所述的方法,其特征在于,所述候选答案本身的语义表示向量是通过答案语义表示模型对所述候选答案进行语义向量化表示而得到的,所述标题语义表示向量是通过标题语义表示模型对所述候选答案所对应的文章标题进行语义向量化表示而得到的,所述第一问题语义表示模型是基于所述问题样本以及所述问题样本所对应的答案样本进行训练而得到的,所述标题语义表示模型基于所述问题样本和所述答案样本所对应的文章标题进行训练而得到的。


3.根据权利要求2所述的方法,其特征在于,所述答案样本包括错误答案样本和正确答案样本,通过以下步骤训练得到所述第一问题语义表示模型和所述答案语义表示模型:
根据初始的第一语义表示模型对所述问题样本进行语义向量化表示,以得到所述问题样本的语义表示向量;
根据初始的第二语义表示模型分别对所述错误答案样本和所述正确答案样本进行语义向量化表示,以得到所述错误答案样本的语义表示向量和所述正确答案样本的语义表示向量;
根据所述问题样本的语义表示向量和所述错误答案样本的语义表示向量,确定所述问题样本和错误答案样本之间的第一向量相似度;
根据所述问题样本的语义表示向量和所述正确答案样本的语义表示向量,确定所述问题样本和正确答案样本之间的第二向量相似度;
根据所述第一向量相似度和所述第二向量相似度,调整所述初始的第一语义表示模型和所述第二语义表示模型的模型参数,直至所述第一向量相似度和所述第二向量相似度满足第一预设条件;
将满足第一预设条件时所得到的第一语义表示模型作为所述答案语义表示模型,以及将满足第一预设条件时所得到的第二语义表示模型作为所述第一问题语义表示模型。


4.根据权利要求3所述的方法,其特征在于,所述答案样本包括错误答案样本和正确答案样本,通过以下步骤训练得到所述标题语义表示模型和第二问题语义表示模型:
根据初始的第三语义表示模型分别对所述错误答案样本所对应的文章标题和所述正确答案样本所对应的文章标题进行语义向量化表示,以得到所述错误答案样本所对应的文章标题的第一标题语义向量和所述正确答案样本所对应的文章标题的第二标题语义向量;
根据初始的第四语义表示模型对所述问题样本进行语义向量化表示,以得到所述问题样本的语义表示向量;
根据所述问题样本的语义表示向量和所述第一标题语义表示向量,确定所述问题样本和所述错误答案样本所对应的文章标题的第三向量相似度;
根据所述问题样本的语义表示向量和所述第二标题语义表示向量,确定所述问题样本和所述错误答案样本所对应的文章标题之间的第四向量相似度;
根据所述第三向量相似度和所述第四向量相似度,调整所述初始的第三语义表示模型和第四语义表示模型的模型参数,直至所述第三向量相似度和所述第四向量相似度满足第二预设条件;
将满足第二预设条件时所得到的第三语义表示模型为所述标题语义表示模型,以及将满足第二预设条件时所得到的第三语义表示模型作为所述第二问题语义表示模型。


5.根据权利要求4所述的方法,其特征在于,所述第一语义表示模型、所述第二语义表示模型、所述第三语义表示模型和所述第四语义表示模型均为预训练语义表示模型,所述预训练语义表示模型是利用无监督数据训练而得到的。


6.根据权利要求1-5中任一项所述的方法,其特征在于,根据所述候选答案本身的语义表示向量和所述候选答案所对应的文章标题的标题语义表示向量得到所述候选答案所对应的答案语义表示向量,具体包括:
将所述候选答案本身的语义表示向量乘以预设的第一权重,得到新的语义表示向量;
将所述标题语义表示向量乘以预设的第二权重,得到新的标题语义表示向量;
将所述新的语义表示向量和所述新的标题语义表示向量进行拼接,并将拼接得到的语义表示向量作为所述候选答案所对应的答案语义表示向量;
所述根据所述第一语义表示向量和所述第二语义表示向量进行拼接处理,以得到所述待回答问题的目标语义表示向量,包括:
将所述第一语义表示向量乘以所述第一权重,得到所述待回答问题的第一中间语义表示向量;
将所述第二语义表示向量乘以所述第二权重,得到所述待回答问题的第二中间语义表示向量;
将所述第一中间语义表示向量和所述第二中间语义表示向量进行拼接处理,以得到所述待回答问题的目标语义表示向量。


7.一种问答处理装置,其特征在于,所述装置包括:
获取模块,用于获取待回答问题;
语义表示模块,用于将所述待回答问题分别输入第一问题语义表示模型和第二问题语义表示模型中,以得到所述待回答问题的第一语义表示向量和第二语义表示向量,其中,所述第一问题语义表示模型是基于问题样本以及所述问题样本所对应的答案样本进行训练而得到的,所述...

【专利技术属性】
技术研发人员:丁宇辰刘凯刘璟陈艳
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1