问答样本生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29330616 阅读:21 留言:0更新日期:2021-07-20 17:48
本申请公开了问答样本生成方法、装置、电子设备和存储介质,涉及人工智能、深度学习和大数据技术领域。具体实现方案为:获取目标问题文本和辅助答案文本集合;根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目标答案文本,以得到包括所述目标问题文本和所述目标答案文本的负问答样本。本申请实施例可以提高负问答样本的生成效率。

【技术实现步骤摘要】
问答样本生成方法、装置、电子设备和存储介质
本申请涉及数据处理
,尤其涉及人工智能技术、大数据技术和深度学习技术,具体涉及一种问答样本生成方法、装置、电子设备和存储介质。
技术介绍
随着科技的发展和互联网技术的不断进步,基于搜索的互动式社区问答平台已经成为人们生活中和工作中获取和分享知识的一种重要渠道。社区问答(CommunityQuestionAnswering,CQA)是结合开放知识共享性网站,通过用户参与,利用网络用户的集体智慧,提供问题的直接答案。然而由于CQA的开放性,CQA的回答质量差异非常大,有些回答可以帮助提问者获取信息,有些回答则不能满提问者需求,即答非所问,甚至包含各种无关、低质量、甚至恶意的信息。这种内容质量的差异是问答社区中待解决的主要问题。
技术实现思路
本申请提供了一种问答样本生成方法、装置、电子设备和存储介质。根据本申请的一方面,提供了一种问答样本生成方法,包括:获取目标问题文本和辅助答案文本集合;根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目标答案文本,以得到包括所述目标问题文本和所述目标答案文本的负问答样本。根据本申请的另一方面,提供了一种问答样本生成装置,包括:问答源数据获取模块,用于获取目标问题文本和辅助答案文本集合;目标答案文本筛选模块,用于根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目标答案文本,以得到包括所述目标问题文本和所述目标答案文本的负问答样本。根据本申请的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例所述的问答样本生成方法。根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本申请任一实施例所述的问答样本生成方法。根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本申请任一实施例所述的问答样本生成方法。本申请实施例可以提高问答样本生成效率。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请实施例的一种问答样本生成方法的示意图;图2是根据本申请实施例的一种问答样本生成方法的示意图;图3是根据本申请实施例的一种问答样本生成方法的示意图;图4是根据本申请实施例的一种问答样本生成方法的示意图;图5是根据本申请实施例的一种问答样本生成方法的示意图;图6是根据本申请实施例的一种问答相关性检测模型训练方法的示意图;图7是根据本申请实施例的一种问答相关性检测模型训练的示意图;图8是根据本申请实施例的一种问答样本生成装置的示意图;图9是用来实现本申请实施例的问答样本生成方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本申请实施例公开的一种问答样本生成方法的流程图,本实施例可以适用于生成用于训练问答相关性检测模型的负问答样本的情况。本实施例方法可以由问答样本生成装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备,手机、平板电脑、车载终端和台式电脑等,也可以是服务器端设备。S101,获取目标问题文本和辅助答案文本集合。目标问题文本可以是指包含问题的文本,示例性的,目标问题文本为“苹果好吃吗?”。辅助答案文本集合包括至少两个辅助答案文本,辅助答案文本可以是指包含答案的文本,且辅助答案文本与目标问题文本的标准答案文本不同。其中,目标问题文本的标准答案文本是指目标问题文本对应的准确答案。示例性的,目标问题文本为“苹果好吃吗?”,标准答案文本为“好吃”,辅助答案文本为“菠萝好吃”。辅助答案文本集合用于选择至少一个辅助答案文本,分别与目标问题文本组成至少一个问答对,作为负问答样本。实际上,目标问题文本和辅助答案文本集合中的各辅助答案文本不存在相关关系。可以从网络中各社区问答平台中收集的问题数据中获取目标问题文本。问题数据是从问答关系的交互文本中,提取出相对于交互文本中的任意一个语句,语义为问题的语句。从网络中社区问答平台中收集的答案数据中获取辅助答案文本集合。答案数据是从问答关系的交互文本中,提取出相对于该交互文本中的任意一个语句,语义为答案的语句。示例性的,社区问答平台可以是指开放性社区问答平台。社区问答平台中的问答数据可以是中文的,也可以是其他外国文字的,如英文。其中,问题数据的收集和答案数据的收集均为随机方式收集,从而,通过随机方式收集到的目标问题文本和辅助答案文本集合中的各辅助答案文本不存在相关关系。S102,根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目标答案文本,以得到包括所述目标问题文本和所述目标答案文本的负问答样本。问答样本是由一个问题文本和一个答案文本组成的问答对。其中,正问答样本是指问题文本和答案文本相关的问答对,负问答样本是指问题文本和答案文本不相关的问答对,即可以理解为“答非所问”的问答对。示例性的,问题文本为“苹果好吃吗?”,而答案文本为“菠萝好吃”形成的问答对为负问答样本;问题文本为“苹果好吃吗?”,而答案文本为“好吃”形成的问答对为正问答样本。相似度值用于描述目标问题文本和各辅助答案文本之间的相似程度。示例性的,可以选择相似度值最高的辅助答案文本确定为目标答案文本,或者可以选择相似度值高的前i个辅助答案文本,确定为目标答案文本。其中,相似度值可以采用词频-逆文本频率指数(TermFrequency–InverseDocumentFrequency,TF-IDF)、隐含狄利克雷分布(LatentDirichletAllocation,LDA)和深度学习等至少一种方法计算。根据目标问题文本和各辅助答案文本之间的相似度筛选目标答案文本,用于查询某个相似度或某几个相似度的辅助答案文本。但由于问题文本和辅助答案文本集合是随机获取,相关性低,可以筛选得到与问题相似但不相关的答案。将筛选得到的目标答案文本和相关性低目标问本文档来自技高网...

【技术保护点】
1.一种问答样本生成方法,包括:/n获取目标问题文本和辅助答案文本集合;/n根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目标答案文本,以得到包括所述目标问题文本和所述目标答案文本的负问答样本。/n

【技术特征摘要】
1.一种问答样本生成方法,包括:
获取目标问题文本和辅助答案文本集合;
根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目标答案文本,以得到包括所述目标问题文本和所述目标答案文本的负问答样本。


2.根据权利要求1所述的方法,在所述目标问题文本选择目标答案文本的情况下,还包括:
从辅助无标注答案集合中获取新辅助答案文本,且采用所述新辅助答案文本替换选择的目标答案文本,以更新所述辅助答案文本集合,用于生成新的负问答样本。


3.根据权利要求1所述的方法,其中,所述辅助无标注答案集合从原始无标注答案集合中获取得到。


4.根据权利要求1所述的方法,其中,所述根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目标答案文本,包括:
分别计算所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度值;其中,所述相似度值包括字面相似度值和/或语法结构相似度值;
根据所述目标问题文本与各所述辅助答案文本之间的相似度值,为所述目标问题文本选择目标答案文本。


5.根据权利要求4所述的方法,其中,所述根据所述目标问题文本与各所述辅助答案文本之间的相似度值,为所述目标问题文本选择目标答案文本,包括:
将所述目标问题文本与各所述辅助答案文本之间的相似度值划分为至少两个相似度区间;其中,所述相似度区间的数量,与待选择的目标答案文本数量相同;
根据所述至少两个相似度区间,为所述目标问题文本选择至少两个目标答案文本。


6.根据权利要求1所述的方法,在得到包括所述目标问题文本和所述目标答案文本的负问答样本的情况下,还包括:
获取正问答样本;
采用生成的负问答样本和所述正问答样本共同训练问答相关性检测模型。


7.根据权利要求6所述的方法,其中,所述训练问答相关性检测模型,包括:
对问答样本进行解析,形成语义信息和语法信息,所述语法信息包括词性信息和/或依存关系信息,所述问答样本包括所述正问答样本和所述负问答样本;
根据所述语义信息和所述语法信息训练问答相关性检测模型。


8.一种问答样本生成装置,包括:
问答源数据获取模块,用于获取目标问题文本和辅助答案文本集合;
目标答案文本筛选模块,用于根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目标答案文本,以得到包括所述目标问题文本和所述目标答案文本的负问答样本。


9.根据权利要求8所述...

【专利技术属性】
技术研发人员:张文君宋丹丹张玉东庞海龙
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1