【技术实现步骤摘要】
问答样本生成方法、装置、电子设备和存储介质
本申请涉及数据处理
,尤其涉及人工智能技术、大数据技术和深度学习技术,具体涉及一种问答样本生成方法、装置、电子设备和存储介质。
技术介绍
随着科技的发展和互联网技术的不断进步,基于搜索的互动式社区问答平台已经成为人们生活中和工作中获取和分享知识的一种重要渠道。社区问答(CommunityQuestionAnswering,CQA)是结合开放知识共享性网站,通过用户参与,利用网络用户的集体智慧,提供问题的直接答案。然而由于CQA的开放性,CQA的回答质量差异非常大,有些回答可以帮助提问者获取信息,有些回答则不能满提问者需求,即答非所问,甚至包含各种无关、低质量、甚至恶意的信息。这种内容质量的差异是问答社区中待解决的主要问题。
技术实现思路
本申请提供了一种问答样本生成方法、装置、电子设备和存储介质。根据本申请的一方面,提供了一种问答样本生成方法,包括:获取目标问题文本和辅助答案文本集合;根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目标答案文本,以得到包括所述目标问题文本和所述目标答案文本的负问答样本。根据本申请的另一方面,提供了一种问答样本生成装置,包括:问答源数据获取模块,用于获取目标问题文本和辅助答案文本集合;目标答案文本筛选模块,用于根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目 ...
【技术保护点】
1.一种问答样本生成方法,包括:/n获取目标问题文本和辅助答案文本集合;/n根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目标答案文本,以得到包括所述目标问题文本和所述目标答案文本的负问答样本。/n
【技术特征摘要】
1.一种问答样本生成方法,包括:
获取目标问题文本和辅助答案文本集合;
根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目标答案文本,以得到包括所述目标问题文本和所述目标答案文本的负问答样本。
2.根据权利要求1所述的方法,在所述目标问题文本选择目标答案文本的情况下,还包括:
从辅助无标注答案集合中获取新辅助答案文本,且采用所述新辅助答案文本替换选择的目标答案文本,以更新所述辅助答案文本集合,用于生成新的负问答样本。
3.根据权利要求1所述的方法,其中,所述辅助无标注答案集合从原始无标注答案集合中获取得到。
4.根据权利要求1所述的方法,其中,所述根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目标答案文本,包括:
分别计算所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度值;其中,所述相似度值包括字面相似度值和/或语法结构相似度值;
根据所述目标问题文本与各所述辅助答案文本之间的相似度值,为所述目标问题文本选择目标答案文本。
5.根据权利要求4所述的方法,其中,所述根据所述目标问题文本与各所述辅助答案文本之间的相似度值,为所述目标问题文本选择目标答案文本,包括:
将所述目标问题文本与各所述辅助答案文本之间的相似度值划分为至少两个相似度区间;其中,所述相似度区间的数量,与待选择的目标答案文本数量相同;
根据所述至少两个相似度区间,为所述目标问题文本选择至少两个目标答案文本。
6.根据权利要求1所述的方法,在得到包括所述目标问题文本和所述目标答案文本的负问答样本的情况下,还包括:
获取正问答样本;
采用生成的负问答样本和所述正问答样本共同训练问答相关性检测模型。
7.根据权利要求6所述的方法,其中,所述训练问答相关性检测模型,包括:
对问答样本进行解析,形成语义信息和语法信息,所述语法信息包括词性信息和/或依存关系信息,所述问答样本包括所述正问答样本和所述负问答样本;
根据所述语义信息和所述语法信息训练问答相关性检测模型。
8.一种问答样本生成装置,包括:
问答源数据获取模块,用于获取目标问题文本和辅助答案文本集合;
目标答案文本筛选模块,用于根据所述目标问题文本与所述辅助答案文本集合中至少两个辅助答案文本之间的相似度,为所述目标问题文本选择目标答案文本,以得到包括所述目标问题文本和所述目标答案文本的负问答样本。
9.根据权利要求8所述...
【专利技术属性】
技术研发人员:张文君,宋丹丹,张玉东,庞海龙,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。