一种基于自动扩展问答数据库的问答方法及设备技术

技术编号:22135292 阅读:38 留言:0更新日期:2019-09-18 09:00
本申请的目的是提供一种基于自动扩展问答数据库的问答方法及设备,本申请通过获取同义转写训练样本,通过所述同义转写训练样本优化神经网络转写模型;确定加入数据库中的问答对,其中,所述问答对包括问题句和问题句对应的答句;通过所述优化后的神经网络转写模型对所述数据库中的问答对中的问题句进行扩展,得到多个扩展问答对。利用将问答数据库中的问句扩展到多条同义或近义的句子的方式来提升问答数据对用户请求的覆盖率,从而优化问答系统的效果。

A Question Answering Method and Equipment Based on Automatic Expanded Question Answering Database

【技术实现步骤摘要】
一种基于自动扩展问答数据库的问答方法及设备
本申请涉及计算机领域,尤其涉及一种基于自动扩展问答数据库的问答方法及设备。
技术介绍
目前业内普遍采用的一种实现自动问答功能的方案是基于海量回答对数据库的查询匹配方法。用户发出了一个文本请求后,根据该文本内容对数据库中所有条目的“问句”字段进行查询,返回匹配到的条目的“答句”字段。使用该方案要求问答数据库中有尽可能多的问答对,以尽可能的覆盖用户发出的文本请求,才能使该自动问答系统达到较为理想的效果。在问答数据不够多的情况下,往往会发生数据库中匹配不到用户当前请求的情况。
技术实现思路
本申请的一个目的是提供一种基于自动扩展问答数据库的问答方法及设备,解决现有技术中数据库匹配用户请求的概率低,问答系统效果不佳的问题。根据本申请的一个方面,提供了一种基于自动扩展问答数据库的问答方法,该方法包括:获取同义转写训练样本,通过所述同义转写训练样本优化神经网络转写模型;确定加入数据库中的问答对,其中,所述问答对包括问题句和问题句对应的答句;通过所述优化后的神经网络转写模型对所述数据库中的问答对中的问题句进行扩展,得到多个扩展问答对。进一步地,获取同义转写训练样本包括:利用语义匹配系统从文本数据库中匹配含义相同程度达到预设阈值的句对,其中,所述句对包括含义相同的多个句子;将所述含义相同程度达到预设阈值的句对放入所述同义转写训练样本中。进一步地,利用语义匹配系统从文本数据库中匹配含义相同程度达到预设阈值的句对,包括:获取待匹配句子,根据字符串比较的方式从语句库中筛选出每一待匹配句子对应的候选句;根据所述语义匹配系统对所述待匹配句子及其对应的候选句进行打分,得到匹配程度结果;根据所述匹配程度结果及预设阈值确定含义相同程度达到预设阈值的句对。进一步地,所述字符串比较的方式包括:使用全文检索将待匹配的句子进行分词,得到分词结果;通过索引查询所述分词结果,并按照所述分词结果中各分词的排序返回查询结果。进一步地,获取同义转写训练样本包括:利用机器翻译系统将第一语言的同义或近义句对翻译成第二语言,将翻译后的句对放入所述同义转写训练样本中。进一步地,获取同义转写训练样本包括:通过回译方式在无标注文本上生成用于训练的同义转写模型训练样本。进一步地,通过回译方式在无标注文本上生成用于训练的同义转写模型训练样本,包括:通过获取的同义转写训练样本训练得到初步转写模型;根据所述初步转写模型对无标注文本进行转写采样,得到包括由所述初步转写模型的输入句子和所述初步转写模型的输出句子组成的句对;将所述句对中的输出句子输入所述初步转写模型的编码器,所述输入句子输入所述初步转写模型的解码器。根据本申请另一个方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述一种基于自动扩展问答数据库的问答方法。根据本申请再一个方面,还提供了一种基于自动扩展问答数据库的问答的设备,其中,所述设备包括:一个或多个处理器;以及存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行前述所述的方法的操作。与现有技术相比,本申请通过获取同义转写训练样本,通过所述同义转写训练样本优化神经网络转写模型;确定加入数据库中的问答对,其中,所述问答对包括问题句和问题句对应的答句;通过所述优化后的神经网络转写模型对所述数据库中的问答对中的问题句进行扩展,得到多个扩展问答对。利用将问答数据库中的问句扩展到多条同义或近义的句子的方式来提升问答数据对用户请求的覆盖率,从而优化问答系统的效果。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出根据本申请的一个方面提供的一种基于自动扩展问答数据库的问答方法流程示意图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本申请作进一步详细描述。在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。图1示出根据本申请的一个方面提供的一种基于自动扩展问答数据库的问答方法流程示意图,该方法包括:步骤S11~步骤S13,在步骤S11中,获取同义转写训练样本,通过所述同义转写训练样本优化神经网络转写模型;在此,同义转写训练样本包括多组含义相同或近似的句子,神经网络转写模型可以为使用神经网络方法训练得到的转写模型,模型的详细结构以及超参数不限,在本申请一实例中,使用注意力机制的序列到序列模型(Seq2seq模型),其中,Seq2seq模型由编码器(encoder)和解码器(decoder)组成,解码器在生成目标语句时通过注意力机制从编码器中获取所需的信息。使用得到的同义转写训练样本进行优化神经网络转写模型时,每条样本由一组相同含义的句子对组成,将每组句对中的一条句子输入编码器,另一条用作解码器的输入以及输出目标。在步骤S12中,确定加入数据库中的问答对,其中,所述问答对包括问题句和问题句对应的答句;在此,通过人工编写或从互联网上获取并经过处理确定问答对,比如问答对中的问题句为“你喜欢吃什么水果?”,答句为“我喜欢吃苹果”。问答对放入数据库中,从而在步骤S13中,通过所述优化后的神经网络转写模型对所述数据库中的问答对中的问题句进行扩展,得到多个扩展问答对。在此,比如数据库中的某一问答对中的问题句:“你喜欢吃什么水果?”使用优化后的神经网络转写模型进行扩展,扩展为“你最喜欢吃的水果是?”、“那个水果是你喜欢的呢?”、“水果当中你的最爱是?”等含义相同或近似的句子,从而和原始的答句“我喜欢吃苹果”组成多个问答对。从而通过将一条问答扩展为多条问答对,每条问答对的问句不同而答句相同,进而当用户进行请求时,在数据库中进行匹配查找相应的问答对,更大的概率使得用户的请求可以在数据库的问答对中找到匹配,从而提升问答系统的效果。在步骤S11中,利用语义匹配系统从文本数据库中匹配含义相同程度达到预设阈值的句对,其中,所述句对包括含义相同的多个句子;将所述含义相同程度达到预设阈值的句对放入所述同义转写训练样本中。在此,利用语义匹配系统从海量文本中找出含义相同的句对,本文档来自技高网...

【技术保护点】
1.一种基于自动扩展问答数据库的问答方法,其中,所述方法包括:获取同义转写训练样本,通过所述同义转写训练样本优化神经网络转写模型;确定加入数据库中的问答对,其中,所述问答对包括问题句和问题句对应的答句;通过所述优化后的神经网络转写模型对所述数据库中的问答对中的问题句进行扩展,得到多个扩展问答对。

【技术特征摘要】
1.一种基于自动扩展问答数据库的问答方法,其中,所述方法包括:获取同义转写训练样本,通过所述同义转写训练样本优化神经网络转写模型;确定加入数据库中的问答对,其中,所述问答对包括问题句和问题句对应的答句;通过所述优化后的神经网络转写模型对所述数据库中的问答对中的问题句进行扩展,得到多个扩展问答对。2.根据权利要求1所述的方法,其中,获取同义转写训练样本包括:利用语义匹配系统从文本数据库中匹配含义相同程度达到预设阈值的句对,其中,所述句对包括含义相同的多个句子;将所述含义相同程度达到预设阈值的句对放入所述同义转写训练样本中。3.根据权利要求2所述的方法,其中,利用语义匹配系统从文本数据库中匹配含义相同程度达到预设阈值的句对,包括:获取待匹配句子,根据字符串比较的方式从语句库中筛选出每一待匹配句子对应的候选句;根据所述语义匹配系统对所述待匹配句子及其对应的候选句进行打分,得到匹配程度结果;根据所述匹配程度结果及预设阈值确定含义相同程度达到预设阈值的句对。4.根据权利要求3所述的方法,其中,所述字符串比较的方式包括:使用全文检索将待匹配的句子进行分词,得到分词结果;通过索引查询所述分词结果,并按照所述分...

【专利技术属性】
技术研发人员:陆晨昱舒畅李竹桥郑思璇朱婷婷李先云刘尧
申请(专利权)人:义语智能科技广州有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1