构建医疗训练样本的方法及装置、医疗文本的检索方法制造方法及图纸

技术编号:30531685 阅读:14 留言:0更新日期:2021-10-30 12:37
本申请涉及人工智能技术领域,具体提供了一种构建医疗训练样本的方法及装置、医疗文本的检索方法,构建医疗训练样本的方法包括:获取问答集合;根据回复文本的来源作者所属医疗机构的机构权威等级特征和回复文本的来源作者对应的医疗职称特征,计算回复文本的权威度分数;根据回复文本的权威度分数在问答集合中进行问答语料筛选,并将筛选到的问答语料添加到候选问答集合中;将候选问答集合中的回复文本进行组合,得到对应于目标医疗主题的目标科普文章;将目标科普文章与目标问答语料进行关联,得到医疗训练样本,目标问答语料是从候选问答集合中获取的一问答语料;本方案实现了自动构建医疗训练样本。动构建医疗训练样本。动构建医疗训练样本。

【技术实现步骤摘要】
构建医疗训练样本的方法及装置、医疗文本的检索方法


[0001]本申请涉及人工智能
,具体而言,涉及一种构建医疗训练样本的方法及装置、医疗文本的检索方法。

技术介绍

[0002]为了提高检索效率,基于人工智能技术构建的医疗问答模型被应用于医疗相关问题的检索中,通过将医疗提问文本输入至该医疗问答模型中,由该医疗问答模型在理解医疗提问文本的基础上自动输出针对该医疗提问文本的医疗答案文本,以此实现自动检索针对医疗提问文本的医疗答案文本。
[0003]为了保证医疗问答模型针对医疗提问文本所输出医疗答案文本的准确性,需要通过若干医疗训练样本对其进行训练。医疗训练样本是问题

答案

文章三元组语料,其中,问题即医疗提问文本,答案即针对医疗提问文本的医疗答案文本,文章即该医疗答案文本所来源的科普文章。相关技术中,该问题

答案

文章三元组的医疗训练样本通过人工来构建的,存在工作量大且效率低的问题。

技术实现思路

[0004]本申请的实施例提供了一种构建医疗训练样本的方法及装置、医疗文本的检索方法,以实现自动构建医疗训练样本。
[0005]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0006]根据本申请实施例的一个方面,提供了一种构建医疗训练样本的方法,包括:
[0007]获取问答集合,所述问答集合包括针对目标医疗主题的若干问答语料,所述问答语料包括提问文本和回复文本;
[0008]根据所述回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征,计算所述回复文本的权威度分数;
[0009]根据所述回复文本的权威度分数在所述问答集合中进行问答语料筛选,并将筛选到的问答语料添加到候选问答集合中;
[0010]将所述候选问答集合中的回复文本进行组合,得到对应于所述目标医疗主题的目标科普文章;
[0011]将所述目标科普文章与目标问答语料进行关联,得到医疗训练样本,所述目标问答语料是从所述候选问答集合中获取的一问答语料;所述医疗训练样本用于对医疗问答模型进行训练,其中,所述医疗问答模型用于从若干医疗科普文章中获取针对所输入医疗提问文本的医疗答案文本。
[0012]根据本申请实施例的一个方面,提供了一种医疗文本的检索方法,包括:
[0013]获取检索请求,所述检索请求指示了医疗提问文本;
[0014]通过医疗问答模型从若干医疗科普文章中获取针对所述医疗提问文本的医疗答
案文本;所述医疗问答模型是利用上述构建医疗训练样本的方法所构建的医疗训练样本进行训练的;
[0015]以所述医疗答案文本作为对应于所述医疗答案文本所在医疗科普文章的文本摘要;
[0016]向所述检索请求的发起方返回所述医疗答案文本所在医疗科普文章的地址信息和文本摘要。
[0017]根据本申请实施例的一个方面,提供了一种构建医疗训练样本的装置,包括:
[0018]问答集合获取模块,用于获取问答集合,所述问答集合包括针对目标医疗主题的若干问答语料,所述问答语料包括提问文本和回复文本;
[0019]权威度分数计算模块,用于根据所述回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征,计算所述回复文本的权威度分数;
[0020]筛选模块,用于根据所述回复文本的权威度分数在所述问答集合中进行问答语料筛选,并将筛选到的问答语料添加到候选问答集合中;
[0021]组合模块,用于将所述候选问答集合中的回复文本进行组合,得到对应于所述目标医疗主题的目标科普文章;
[0022]关联模块,用于将所述目标科普文章与目标问答语料进行关联,得到医疗训练样本,所述目标问答语料是从所述候选问答集合中获取的一问答语料;所述医疗训练样本用于对医疗问答模型进行训练,其中,所述医疗问答模型用于从若干医疗科普文章中获取针对所输入医疗提问文本的医疗答案文本。
[0023]根据本申请实施例的一个方面,提供了一种医疗文本的检索装置,包括:
[0024]检索请求获取模块,用于获取检索请求,所述检索请求指示了医疗提问文本;
[0025]医疗答案文本获取模块,用于通过医疗问答模型从若干医疗科普文章中获取针对所述医疗提问文本的医疗答案文本;所述医疗问答模型是利用上述构建医疗训练样本的方法所构建的医疗训练样本进行训练的
[0026]文本摘要确定模块,用于以所述医疗答案文本作为对应于所述医疗答案文本所在医疗科普文章的文本摘要;
[0027]返回模块,用于向所述检索请求的发起方返回所述医疗答案文本所在医疗科普文章的地址信息和文本摘要。
[0028]根据本申请实施例的一个方面,提供了一种电子设备,包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上所述构建医疗训练样本的方法或医疗文本的检索方法。
[0029]根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如上所述构建医疗训练样本的方法或医疗文本的检索方法。
[0030]在本申请的方案中,借助于互联网医疗内容平台中所存在大量的医疗相关的问答语料,根据相同医疗主题下的多个问答语料来反向自动构造目标科普文章,即将所筛选出候选问答集合中问答语料的回复文本进行组合。在此基础上,基于从候选问答集合中所选取目标问答语料中提问文本和回复文本之间的问答关系,将目标科普文章与该目标问答语
料进行关联,形成了文章

问题

答案三元组的医疗训练样本,实现了自动构建医疗训练样本,而需要通过人工构建,提高了医疗训练样本的构建效率。
[0031]而且,在本申请的方案中,根据问答语料中回复文本来源的作者所属的医疗机构的机构权威等级特征和回复文本的来源作者对应的医疗职称特征计算问答语料中回复文本的权威度分数,并根据回复文本的权威度分数对问答集合中的问答语料进行筛选,得到候选问答集合,可以保证候选问答语料中回复文本的权威度高,保证了候选问答集合中回复文本、目标科普文章中内容的科学性和可靠性,从而,保证了所得到医疗训练样本的可靠性。
[0032]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0033]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0034]图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
[0035]图2是根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建医疗训练样本的方法,其特征在于,包括:获取问答集合,所述问答集合包括针对目标医疗主题的若干问答语料,所述问答语料包括提问文本和回复文本;根据所述回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征,计算所述回复文本的权威度分数;根据所述回复文本的权威度分数在所述问答集合中进行问答语料筛选,并将筛选到的问答语料添加到候选问答集合中;将所述候选问答集合中的回复文本进行组合,得到对应于所述目标医疗主题的目标科普文章;将所述目标科普文章与目标问答语料进行关联,得到医疗训练样本,所述目标问答语料是从所述候选问答集合中获取的一问答语料;所述医疗训练样本用于对医疗问答模型进行训练,其中,所述医疗问答模型用于从若干医疗科普文章中获取针对所输入医疗提问文本的医疗答案文本。2.根据权利要求1所述的方法,其特征在于,所述根据所述回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征,计算所述回复文本的权威度分数,包括:获取所述回复文本的来源作者所属医疗机构的机构权威等级特征,并获取所述回复文本的来源作者对应的医疗职称特征;将所述机构权威等级特征所映射的数值与所述医疗职称特征所映射的数值进行加权,得到所述回复文本对应的权威度分数。3.根据权利要求2所述的方法,其特征在于,所述获取所述回复文本的来源作者所属医疗机构的机构权威等级特征,包括:获取所述回复文本对应的机构信息,所述机构信息指示了所述回复文本的来源作者所属的目标医疗机构;确定所述目标医疗机构在目标医疗机构排行榜中的排名;根据所述目标医疗机构所在的目标医疗机构排行榜和所述目标医疗机构在所述目标医疗机构排行榜中的排名,确定所述目标医疗机构对应的机构权威等级特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标医疗机构所在的目标医疗机构排行榜和所述目标医疗机构在所述目标医疗机构排行榜中的排名,确定所述目标医疗机构对应的机构权威等级特征,包括:获取所述目标医疗机构排行榜对应的权重系数;将所述目标医疗机构排行榜对应的权重系数与所述目标医疗机构在目标医疗机构排行榜中的排名相乘,得到目标数值;将所得到的目标数值作为所述目标医疗机构对应的机构权威等级特征。5.根据权利要求1所述的方法,其特征在于,所述将所述候选问答集合中的回复文本进行组合,得到对应于所述目标医疗主题的目标科普文章之前,所述方法还包括:计算所述候选问答集合中任意两个问答语料之间的语义相似度;根据所述语义相似度对所述候选问答集合中的问答语料进行过滤,将过滤后所述候选问答集合中问答语料中的回复文本作为进行组合的对象。
6.根据权利要求5所述的方法,其特征在于,所述计算所述候选问答集合中任意两个问答语料之间的语义相似度,包括:对于所述候选问答集合中需要进行相似度计算的第一问答语料和第二问答语料,计算所述第一问答语料中的提问文本与所述第二问答语料中的提问文本之间的第一语义相似度,并计算所述第一问答语料中的回复文本...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1