问题集的生成方法、装置及电子设备制造方法及图纸

技术编号:37802234 阅读:21 留言:0更新日期:2023-06-09 09:32
本公开提供了问题集的生成方法,涉及智能问答、自然语言处理、大数据等技术领域。具体方案:在从搜索引擎日志中获取包括多个候选问题文本的候选问题集之后,将预设的参考文本进行分段,获取多个段落文本,之后,确定每个候选问题文本与每个段落文本间的相关度,并根据每个相关度,从多个候选问题文本中筛选出与参考文本关联的目标问题文本。由此,基于从搜索引擎日志中获取的每个候选问题文本与参考文本中每个段落之间的相关度,从多个候选问题文本中筛选出与参考文本关联的目标问题文本,从而提高了生成问题集的准确性和全面性。高了生成问题集的准确性和全面性。高了生成问题集的准确性和全面性。

【技术实现步骤摘要】
问题集的生成方法、装置及电子设备


[0001]本公开涉及人工智能
,尤其涉及智能问答、自然语言处理、大数据等
,具体涉及问题集的生成方法、装置及电子设备。

技术介绍

[0002]智能问答系统通常根据用户的问题,查询预先构建的常见问题解答库中的问答对,快速确定问题对应的答案。可见常见问题解答库中包含的问题是否准确且全面,将直接影响智能问答系统的有效性。因此,为了提高智能问答系统的有效性,在构建常见问题解答库之前,需要充分且准确的收集用户可能提出的问题。

技术实现思路

[0003]本公开提供了一种问题集的生成方法、装置及电子设备。
[0004]根据本公开的一方面,提供了一种问题集的生成方法,包括:
[0005]从搜索引擎日志中获取候选问题集,其中,候选问题集中包括多个候选问题文本;
[0006]将预设的参考文本进行分段,获取多个段落文本;
[0007]确定每个候选问题文本与每个段落文本间的相关度;
[0008]根据每个相关度,从多个候选问题文本中筛选出与参考文本关联的目标问题文本。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种问题集的生成方法,包括:从搜索引擎日志中获取候选问题集,其中,所述候选问题集中包括多个候选问题文本;将预设的参考文本进行分段,获取多个段落文本;确定每个所述候选问题文本与每个所述段落文本间的相关度;根据每个所述相关度,从多个所述候选问题文本中筛选出与所述参考文本关联的目标问题文本。2.如权利要求1所述的方法,其中,所述确定每个所述候选问题文本与每个所述段落文本间的相关度,包括:对每个所述候选问题文本及每个所述段落文本进行向量转换,确定每个所述候选问题文本对应的第一语义向量及每个所述段落文本对应的第二语义向量;基于多个所述第一语义向量和多个所述第二语义向量,构建多个第一矩阵及第二矩阵,其中,每个所述第一矩阵中包括多个第一语义向量,每个所述第二矩阵中包括多个第二语义向量;分别计算每个所述第一矩阵与每个所述第二矩阵间的乘积,以确定构成所述第一矩阵的各第一语义向量与构成所述第二矩阵的各第二语义向量之间的第一距离;根据每个所述第一距离,确定每个所述候选问题文本与每个所述段落文本间的相关度。3.如权利要求1所述的方法,其中,还包括:对所述问题集中每个目标问题文本进行向量转换,确定每个所述目标问题文本对应的第三语义向量;基于多个所述第三语义向量,构建多个第三矩阵,其中,每个所述第三矩阵中包括多个第三语义向量;计算多个所述第三矩阵两两之间的乘积,以确定多个所述第三语义向量两两之间的第二距离;根据每个所述第二距离,确定多个所述目标问题文本之间的相似度;根据所述相似度对各所述目标问题文本进行分组,确定每个所述目标问题文本所属的问题组。4.如权利要求3所述的方法,其中,所述根据所述相似度对各所述目标问题文本进行分组,确定每个所述目标问题文本所属的问题组,包括:从多个所述目标问题文本中随机选择的预设数量个相似度小于第一阈值的目标问题文本,作为中心问题文本;在任一目标问题文本与任一中心问题文本之间的相似度大于第二阈值的情况下,确定所述任一目标问题文本与所述任一中心问题文本属于同一问题组;在任一目标问题文本与每个所述中心问题文本间的相似度均小于或等于所述第二阈值的情况下,根据所述任一目标问题文本与每个所述问题组中的每个目标问题文本之间的相似度,确定所述任一目标问题文本所属的问题组,直至确定每个所述目标问题文本所属的问题组。5.如权利要求4所述的方法,其中,还包括:响应于任一目标问题文本属于多个问题组,删除所述任一目标问题文本。
6.如权利要求1所述的方法,其中,所述候选问题集还包含每个所述候选问题文本对应的标签,所述方法还包括:根据各所述目标问题文本对应的标签对所述目标问题文本进行分类,确定每种类型的目标问题文本的数量;响应于任一目标问题文本对应的数量小于第三阈值,删除所述任一目标问题文本。7.一种问题集的生成装置,包括:获取模块,用于从搜索引擎日志中获取候选问题集,其中,所述候选问题集中包括多个候选问题文本;分段模块,用于将预设的参考文本进行分段,获取多个段落文本;确定模块,用于确定每个所述候选问题文本与每个所述段落文本间的相关度;筛选模块,用于根据每个所述相关度,...

【专利技术属性】
技术研发人员:刘坤
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1