问答对的生成方法和装置制造方法及图纸

技术编号:22022245 阅读:58 留言:0更新日期:2019-09-04 01:17
本发明专利技术提出一种问答对的生成方法和装置,其中,方法包括:获取待解析的文本信息,并提取文本信息中的文本标题和多级子标题;获取与多级子标题中的预设级别的第一子标题,并确定与第一子标题对应的扩展标题;确定多级子标题中高于预设级别的第二子标题;将文本标题和第二子标题,与第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题;根据预设的筛选策略确定多个拼接候选问题中的目标拼接问题;根据目标拼接问题和第一子标题包括的文本信息内容构建问答对。由此,丰富了问答对,召回了更多的问答资源,实现了问答对中的问题与实际应用中的用户问题更加贴近,实用性较强,提高了为用户提供的问答服务质量。

The Method and Device of Question-Answer Pair Generation

【技术实现步骤摘要】
问答对的生成方法和装置
本专利技术涉及信息处理
,尤其涉及一种问答对的生成方法和装置。
技术介绍
随着计算技术的发展,很多信息以文档或者网页等文本的形式存在,文本信息中包含了很多的优质的内容,有些高质量的内容是可以直接作为用户问题的答案的。基于文本信息的内容为用户提供问答服务,是目前常用的一种服务方式。相关技术中,构建问答对实现问答服务,基于文本信息的内容生成问题,进而,基于问题与对应的文档内容构建问答对,然而,这种方式,导致生成的问题受到内容的多种影响,生成的问题总结性不高,质量较差。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种问答对的生成方法,丰富了问答对,召回了更多的问答资源,实现了问答对中的问题与实际应用中的用户问题更加贴近,实用性较强,提高了为用户提供的问答服务质量。本专利技术的第二个目的在于提出一种问答对的生成装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。为达上述目的,本专利技术第一方面实施例提出了一种问答对的生成方法,包括以下步骤本文档来自技高网...

【技术保护点】
1.一种问答对的生成方法,其特征在于,包括以下步骤:获取待解析的文本信息,并提取所述文本信息中的文本标题和多级子标题;获取与所述多级子标题中的预设级别的第一子标题,并确定与所述第一子标题对应的扩展标题;在所述多级子标题中,确定与所述第一子标题对应的第二子标题,其中,所述第二子标题的等级高于所述预设级别;将所述文本标题和所述第二子标题与所述第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题;根据所述多个拼接候选问题确定目标拼接问题;根据所述目标拼接问题和所述第一子标题包括的段落内容构建问答对。

【技术特征摘要】
1.一种问答对的生成方法,其特征在于,包括以下步骤:获取待解析的文本信息,并提取所述文本信息中的文本标题和多级子标题;获取与所述多级子标题中的预设级别的第一子标题,并确定与所述第一子标题对应的扩展标题;在所述多级子标题中,确定与所述第一子标题对应的第二子标题,其中,所述第二子标题的等级高于所述预设级别;将所述文本标题和所述第二子标题与所述第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题;根据所述多个拼接候选问题确定目标拼接问题;根据所述目标拼接问题和所述第一子标题包括的段落内容构建问答对。2.如权利要求1所述的方法,其特征在于,所述并确定与所述第一子标题对应的扩展标题,包括:获取针对所述文本信息的点击日志信息,以及与所述日志信息对应的搜索词集合;提取所述搜索词集合中的实体词,并对包含同样实体词的搜索词泛化处理获取共现短语;根据所述共现短语生成所述扩展标题。3.如权利要求2所述的方法,其特征在于,所述根据所述多个拼接候选问题确定目标拼接问题,包括:获取所述多个拼接候选问题中的每个拼接候选问题和所述搜索词集合中每个搜索词的相似度;确定所述相似度大于预设阈值的候选搜索词;计算所述候选搜索词和对应的拼接候选问题中的第一子标题的段落内容的相关度;根据所述相似度和所述相关度在所述候选搜索词中确定目标搜索词,并根据所述目标搜索词生成所述目标拼接问题。4.如权利要求1所述的方法,其特征在于,所述根据所述多个拼接候选问题确定目标拼接问题,包括:获取针对所述文本信息的点击日志信息,以及与所述日志信息对应的搜索词集合;获取所述多个拼接候选问题中的每个拼接候选问题和所述搜索词集合中搜索词的第一相似度;获取所述第一子标题的段落内容,并计算所述段落内容和所述搜索词集合中搜索词的第二相似度;根据所述第一相似度和所述第二相似度计算得到所述每个拼接候选问题的相似度得分;根据所述相似度得分筛选出所述多个拼接候选问题中的目标拼接问题。5.如权利要求1所述的方法,其特征在于,所述根据所述多个拼接候选问题确定目标拼接问题,包括:将所述多个拼接候选问题输入预先训练的深度模型;获取所述深度模型输出的所述目标拼接问题。6.如权利要求1所述的方法,其特征在于,在所述并确定与所述第一子标题对应的扩...

【专利技术属性】
技术研发人员:崔建青刘璟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1