【技术实现步骤摘要】
一种语料预测方法、模型训练方法及相关装置
[0001]本申请涉及自然语言处理
,具体涉及一种语料预测方法、模型训练方法及相关装置。
技术介绍
[0002]随着电子技术的迅速发展,各行各业的数据量呈爆发式增长,人类进入大数据时代,交通大数据、气象大数据、金融大数据、商业大数据、生物医学大数据等充斥着人们的日常工作生活。在大数据时代,电子病例(Electronic Medical Record,简称EMR)也在医院中逐渐普及;电子病例又称为基于计算机的病人记录,其基于电子设备进行保存、管理和传输,替代了手写的纸张病例。
[0003]然而,受限于医疗语料的特殊性,使用相关输入法软件书写电子病例时,输入法软件所提供的用于给出书写提示的预测下文语料普遍无法在书写电子病例时给出有效的提示,即所给出的预测下文语料并非书写电子病例时真正所需的下文语料,因此无法有效地提高电子病例的书写效率。
技术实现思路
[0004]本申请实施例提供了一种语料预测方法、模型训练方法及相关装置,能够在书写电子病历时给出有效的提示信 ...
【技术保护点】
【技术特征摘要】
1.一种语料预测方法,其特征在于,所述方法包括:获取在书写电子病历的过程中输入的上文语料;通过目标语料预测模型,根据所述上文语料,在候选预测语料集合中选出与所述上文语料之间的相关度满足预设条件的各个目标预测语料;针对每个所述目标预测语料,确定所述目标预测语料与所述上文语料之间的匹配度,作为所述目标预测语料对应的匹配度;根据所述各个目标预测语料各自对应的匹配度,对所述各个目标预测语料进行排序,并将排序后的所述各个目标预测语料作为所述电子病历的书写提示信息。2.根据权利要求1所述的方法,其特征在于,所述通过目标语料预测模型,根据所述上文语料,在候选预测语料集合中选出与所述上文语料之间的相关度满足预设条件的各个目标预测语料,包括:通过所述目标语料预测模型,确定所述候选预测语料集合中每个候选预测语料与所述上文语料之间的相关度,作为所述候选预测语料对应的相关度;在所述候选预测语料集合中,选出所对应的相关度最高的n个候选预测语料,作为所述目标预测语料;所述n为大于1的整数。3.根据权利要求1所述的方法,其特征在于,所述针对每个所述目标预测语料,确定所述目标预测语料与所述上文语料之间的匹配度,作为所述目标预测语料对应的匹配度,包括:从所述上文语料中提取目标实体,根据所述目标实体确定所述上文语料对应的实体语料特征;针对每个所述目标预测语料,计算所述目标预测语料的语料特征与所述实体语料特征之间的相似度,作为所述目标预测语料对应的匹配度。4.一种模型训练方法,其特征在于,所述方法包括:获取训练电子病历语料;根据所述训练电子病历语料,生成多个训练样本,所述训练样本中包括训练上文语料和训练下文语料;并且根据所述训练电子病历语料,构建候选预测语料集合;基于所述多个训练样本,训练初始语料预测模型;所述初始语料预测模型用于确定所述候选预测语料集合中各候选预测语料各自与输入的上文语料之间的相关度;待训练得到的所述初始语料预测模型满足训练结束条件后,将所述初始语料预测模型作为目标语料预测模型;所述目标语料预测模型用于在电子病历书写场景中提供书写提示信息。5.根据权利要求4所述的方法,其特征在于,所述根据所述训练电子病历语料,生成多个训练样本,包括:对所述训练电子病历语料进行分词处理,得到所述训练电子病历语料中包括的各个分词;利用所述训练电子病历语料中相邻的第一数量的分词,组成所述训练上文语料;利用所述训练电子病历语料中位于所述训练上文语料之后的第二数量的分词,组成所述训练下文语料。6.根据权利要求4所述的方法,其特征在于,所述根据所述训练...
【专利技术属性】
技术研发人员:胡文,陈联忠,胡可云,
申请(专利权)人:北京嘉和海森健康科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。