【技术实现步骤摘要】
构建医疗训练样本的方法及装置、医疗文本的检索方法
[0001]本申请涉及人工智能
,具体而言,涉及一种构建医疗训练样本的方法及装置、医疗文本的检索方法。
技术介绍
[0002]为了提高检索效率,基于人工智能技术构建的医疗问答模型被应用于医疗相关问题的检索中,通过将医疗提问文本输入至该医疗问答模型中,由该医疗问答模型在理解医疗提问文本的基础上自动输出针对该医疗提问文本的医疗答案文本,以此实现自动检索针对医疗提问文本的医疗答案文本。
[0003]为了保证医疗问答模型针对医疗提问文本所输出医疗答案文本的准确性,需要通过若干医疗训练样本对其进行训练。医疗训练样本是问题
‑
答案
‑
文章三元组语料,其中,问题即医疗提问文本,答案即针对医疗提问文本的医疗答案文本,文章即该医疗答案文本所来源的科普文章。相关技术中,该问题
‑
答案
‑
文章三元组的医疗训练样本通过人工来构建的,存在工作量大且效率低的问题。
技术实现思路
[0004]本申请的实施例提供了一种构建医疗训练样本的方法及装置、医疗文本的检索方法,以实现自动构建医疗训练样本。
[0005]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0006]根据本申请实施例的一个方面,提供了一种构建医疗训练样本的方法,包括:
[0007]获取问答集合,所述问答集合包括针对目标医疗主题的若干问答语料,所述问答语料包括提问文本和回复 ...
【技术保护点】
【技术特征摘要】
1.一种构建医疗训练样本的方法,其特征在于,包括:获取问答集合,所述问答集合包括针对目标医疗主题的若干问答语料,所述问答语料包括提问文本和回复文本;根据所述回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征,计算所述回复文本的权威度分数;根据所述回复文本的权威度分数在所述问答集合中进行问答语料筛选,并将筛选到的问答语料添加到候选问答集合中;将所述候选问答集合中的回复文本进行组合,得到对应于所述目标医疗主题的目标科普文章;将所述目标科普文章与目标问答语料进行关联,得到医疗训练样本,所述目标问答语料是从所述候选问答集合中获取的一问答语料;所述医疗训练样本用于对医疗问答模型进行训练,其中,所述医疗问答模型用于从若干医疗科普文章中获取针对所输入医疗提问文本的医疗答案文本。2.根据权利要求1所述的方法,其特征在于,所述根据所述回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征,计算所述回复文本的权威度分数,包括:获取所述回复文本的来源作者所属医疗机构的机构权威等级特征,并获取所述回复文本的来源作者对应的医疗职称特征;将所述机构权威等级特征所映射的数值与所述医疗职称特征所映射的数值进行加权,得到所述回复文本对应的权威度分数。3.根据权利要求2所述的方法,其特征在于,所述获取所述回复文本的来源作者所属医疗机构的机构权威等级特征,包括:获取所述回复文本对应的机构信息,所述机构信息指示了所述回复文本的来源作者所属的目标医疗机构;确定所述目标医疗机构在目标医疗机构排行榜中的排名;根据所述目标医疗机构所在的目标医疗机构排行榜和所述目标医疗机构在所述目标医疗机构排行榜中的排名,确定所述目标医疗机构对应的机构权威等级特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标医疗机构所在的目标医疗机构排行榜和所述目标医疗机构在所述目标医疗机构排行榜中的排名,确定所述目标医疗机构对应的机构权威等级特征,包括:获取所述目标医疗机构排行榜对应的权重系数;将所述目标医疗机构排行榜对应的权重系数与所述目标医疗机构在目标医疗机构排行榜中的排名相乘,得到目标数值;将所得到的目标数值作为所述目标医疗机构对应的机构权威等级特征。5.根据权利要求1所述的方法,其特征在于,所述将所述候选问答集合中的回复文本进行组合,得到对应于所述目标医疗主题的目标科普文章之前,所述方法还包括:计算所述候选问答集合中任意两个问答语料之间的语义相似度;根据所述语义相似度对所述候选问答集合中的问答语料进行过滤,将过滤后所述候选问答集合中问答语料中的回复文本作为进行组合的对象。
6.根据权利要求5所述的方法,其特征在于,所述计算所述候选问答集合中任意两个问答语料之间的语义相似度,包括:对于所述候选问答集合中需要进行相似度计算的第一问答语料和第二问答语料,计算所述第一问答语料中的提问文本与所述第二问答语料中的提问文本之间的第一语义相似度,并计算所述第一问答语料中的回复文本...
【专利技术属性】
技术研发人员:康战辉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。