问答模型中问题的挖掘方法、装置及设备制造方法及图纸

技术编号:38332251 阅读:10 留言:0更新日期:2023-07-29 09:15
本申请公开了一种问答模型中问题的挖掘方法、装置及设备,涉及数字医疗领域,可以解决可以解决问题模型中问题挖掘效率低的问题。包括:获取历史样本问题,对历史样本问题进行初分组,得到多个第一组,其中,第一组内的历史样本问题之间的距离小于第一预设阈值;利用聚类算法将每个第一组内的历史样本问题进行再分组,得到多个第二组,其中,每个第二组内的历史样本问题之间的距离小于第二预设阈值,第二预设阈值小于第一预设阈值;计算第二组之间的距离,将小于第二预设阈值的第二组合并,得到合并后的第二组;将所有合并后的第二组确定为建立问答模型所需的目标问题集。立问答模型所需的目标问题集。立问答模型所需的目标问题集。

【技术实现步骤摘要】
问答模型中问题的挖掘方法、装置及设备


[0001]本申请涉及数字医疗领域,尤其涉及到一种问答模型中问题的挖掘方法、装置及设备。

技术介绍

[0002]问答模型是一种在已有“问题

答案”映射中找到与用户提问相匹配的问句,并将其对应的答案返回给用户的问答式检索模型,如医学问答模型有助于辅助医生回答患者问题,提高诊疗效率,又如金融问答模型有助于工作人员为金融用户办理服务,提高服务效率。
[0003]在建立问答模型之前,需要从大量的问题中将相似的问题挖掘到一个问题集中,目前通过孪生网络模型进行两两问题之间的相似度计算(具体过程是将问题1与问题2分别输入孪生网络模型中的两个子网络模型,两个子网络模型分别提取对应问题的特征信息,根据提取的特征信息计算相似度),但在对大量数据进行处理时,计算两两之间的相似度,会导致资源消耗大且效率低。

技术实现思路

[0004]有鉴于此,本申请提供了一种问答模型中问题的挖掘方法、装置及设备,涉及数字医疗领域,可以解决问题模型中问题挖掘效率低的问题。
[0005]根据本申请的一个方面,提供了一种问答模型中问题的挖掘方法,该方法包括:
[0006]获取历史样本问题,对所述历史样本问题进行初分组,得到多个第一组,其中,所述第一组内的历史样本问题之间的距离小于第一预设阈值;
[0007]利用聚类算法将每个所述第一组内的历史样本问题进行再分组,得到多个第二组,其中,每个所述第二组内的历史样本问题之间的距离小于第二预设阈值,所述第二预设阈值小于所述第一预设阈值;
[0008]计算所述第二组之间的距离,将小于所述第二预设阈值的第二组合并,得到合并后的第二组;
[0009]将所有所述合并后的第二组确定为建立问答模型所需的目标问题集。
[0010]优选地,所述对所述历史样本问题进行初分组,得到多个第一组,其中,所述第一组内的历史样本问题之间的距离小于第一预设阈值,包括:
[0011]计算所述历史样本问题之间的距离,将所述历史样本问题之间的距离小于第一预设阈值的历史样本问题进行第一层初分组;
[0012]计算所述第一层初分组内的历史样本问题的文本长度,将所述文本长度按照不同的预设长度区间进行第二层初分组,得到多个第一组,其中,所述第一组内的历史样本问题之间的距离小于第一预设阈值且所述文本长度在相同的所述预设长度区间内。
[0013]优选地,在所述获取历史样本问题之前,还包括:
[0014]获取历史样本消息,提取所述历史样本消息中的问句;
[0015]确定所述问句中文本相同且存在数量大于预设值的第一问句,将所述第一问句作为第二组;
[0016]确定所述问句中文本相同且存在数量小于等于所述预设值的第二问句,将所述第一问句以及所述第二问句中的重复问句删除,得到历史样本问题。
[0017]优选地,所述计算所述第二组之间的距离,将小于所述第二预设阈值的第二组合并,包括:
[0018]确定任意所述第二组的历史样本问题中的代表问题;
[0019]计算所述代表问题之间的距离,若所述代表问题之间的距离小于所述第二预设阈值,则将所述第二组合并为一组。
[0020]优选地,在所述将所有所述合并后的第二组确定为建立问答模型所需的目标问题集之后,还包括:
[0021]在所述合并后的第二组中选择任一个排序在第一位,确定与第一位距离最近的所述合并后的第二组,并排序在第二位,确定与第二位距离最近的所述合并后的第二组,并排序在第三位,依次将所有所述合并后的第二组排序完成。
[0022]优选地,还包括:
[0023]从每个所述合并后的第二组中确定一个标准问题;
[0024]获取与每个所述标准问题对应的标准答案,建立所述标准问题与所述标准答案的映射。
[0025]根据本申请的另一个方面,提供了一种问答模型中问题的挖掘装置,该装置包括:
[0026]初分组模块,用于获取历史样本问题,对所述历史样本问题进行初分组,得到多个第一组,其中,所述第一组内的历史样本问题之间的距离小于第一预设阈值;
[0027]再分组模块,用于利用聚类算法将每个所述第一组内的历史样本问题进行再分组,得到多个第二组,其中,每个所述第二组内的历史样本问题之间的距离小于第二预设阈值,所述第二预设阈值小于所述第一预设阈值;
[0028]合并模块,用于计算所述第二组之间的距离,将小于所述第二预设阈值的第二组合并,得到合并后的第二组;
[0029]确定模块,用于将所有所述合并后的第二组确定为建立问答模型所需的目标问题集。
[0030]优选的,该装置还包括:预处理模块,用于获取历史样本消息,提取所述历史样本消息中的问句,确定所述问句中文本相同且存在数量大于预设值的第一问句,将所述第一问句作为第二组,确定所述问句中文本相同且存在数量小于等于所述预设值的第二问句,将所述第一问句以及所述第二问句中的重复问句删除,得到历史样本问题。
[0031]根据本专利技术的又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述问答模型中问题的挖掘方法。
[0032]根据本专利技术的再一个方面,提供了一种计算机设备,包括存储介质、处理器以及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述问答模型中问题的挖掘方法。
[0033]借由上述技术方案,本申请公开了一种问答模型中问题的挖掘方法、装置及设备,首先获取历史样本问题,对历史样本问题进行初分组,得到多个第一组,其中,第一组内的
历史样本问题之间的距离小于第一预设阈值;然后,利用聚类算法将每个第一组内的历史样本问题进行再分组,得到多个第二组,其中,每个第二组内的历史样本问题之间的距离小于第二预设阈值,第二预设阈值小于第一预设阈值;进一步的,计算第二组之间的距离,将小于第二预设阈值的第二组合并,得到合并后的第二组;最后,将所有合并后的第二组确定为建立问答模型所需的目标问题集。通过本申请中的技术方案,通过对历史样本问题进行初分组,将大量的历史样本问题划分成多个第一组,对第一组内的历史样本问题进行聚类,聚类的计算量只是组内历史样本问题数量(为了提高聚类速度,可以每个组内历史样本问题使用一次聚类算法,所有第一组可以并行聚类),相比于直接对所有历史样本问题进行相似度计算,极大的节省了计算量,提高了效率。
[0034]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0035]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
[0036]图1示出了本申请实施例提供的一种问答模型中问题的挖掘方法的流程示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问答模型中问题的挖掘方法,其特征在于,包括:获取历史样本问题,对所述历史样本问题进行初分组,得到多个第一组,其中,所述第一组内的历史样本问题之间的距离小于第一预设阈值;利用聚类算法将每个所述第一组内的历史样本问题进行再分组,得到多个第二组,其中,每个所述第二组内的历史样本问题之间的距离小于第二预设阈值,所述第二预设阈值小于所述第一预设阈值;计算所述第二组之间的距离,将小于所述第二预设阈值的第二组合并,得到合并后的第二组;将所有所述合并后的第二组确定为建立问答模型所需的目标问题集。2.根据权利要求1所述的方法,其特征在于,所述对所述历史样本问题进行初分组,得到多个第一组,其中,所述第一组内的历史样本问题之间的距离小于第一预设阈值,包括:计算所述历史样本问题之间的距离,将所述历史样本问题之间的距离小于第一预设阈值的历史样本问题进行第一层初分组;计算所述第一层初分组内的历史样本问题的文本长度,将所述文本长度按照不同的预设长度区间进行第二层初分组,得到多个第一组,其中,所述第一组内的历史样本问题之间的距离小于第一预设阈值且所述文本长度在相同的所述预设长度区间内。3.根据权利要求1所述的方法,其特征在于,在所述获取历史样本问题之前,还包括:获取历史样本消息,提取所述历史样本消息中的问句;确定所述问句中文本相同且存在数量大于预设值的第一问句,将所述第一问句作为第二组;确定所述问句中文本相同且存在数量小于等于所述预设值的第二问句,将所述第一问句以及所述第二问句中的重复问句删除,得到历史样本问题。4.根据权利要求1或3所述的方法,其特征在于,所述计算所述第二组之间的距离,将小于所述第二预设阈值的第二组合并,包括:确定任意所述第二组的历史样本问题中的代表问题;计算所述代表问题之间的距离,若所述代表问题之间的距离小于所述第二预设阈值,则将所述第二组合并为一组。5.根据权利要求1所述的方法,其特征在于,在所述将所有所述合并后的第二组确...

【专利技术属性】
技术研发人员:徐卓扬赵越赵婷婷孙行智胡岗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1