样本数据的生成方法、装置、设备和存储介质制造方法及图纸

技术编号:28943344 阅读:20 留言:0更新日期:2021-06-18 21:52
本申请适用于人工智能技术领域,提供了一种样本数据的生成方法、装置、设备和存储介质,获取包含命名实体的病历语句,并在预设语料库中查找包括命名实体且与病历语句的相似度值满足预设范围的多个目标语料,进而根据多个目标语料和预设的问句模板,生成预训练语言模型的样本数据。本申请中,所生成的预训练语言模型的样本数据是根据多个目标语料和问句模板自动生成的,而不是根据一个目标语料生成的,大大提高了所生成的样本数据的丰富性。

【技术实现步骤摘要】
样本数据的生成方法、装置、设备和存储介质
本申请涉及人工智能
,特别涉及一种样本数据的生成方法、装置、设备和存储介质。
技术介绍
随着人工智能自然语言处理的发展,特别是在智能问诊领域,预训练语言模型被越来越多的应用,以实现人工智能自然语言处理。但是采用预训练语言模型实现人工智能自然语言处理的过程中,通常需要通过大规模的人工标记数据对预训练语言模型进行训练,需要耗费大量的人力物力。同时,由于不同的人对同一自然语言有不同的理解,所以会导致不同的人对同一个问题的标注不同,导致标注的样本数据不准确,进而导致预训练语言模型不准确。如何提高预训练语言模型的样本数据的丰富性,是人工智能自然语言处理领域亟待解决的问题。
技术实现思路
本申请提供一种样本数据的生成方法、装置、系统、设备和存储介质,能够提高预训练语言模型的样本数据的丰富性。第一方面,本申请实施例提供一种样本数据的生成方法,该方法包括:获取包含命名实体的病历语句;在预设语料库中查找包括命名实体且与病历语句的相似度值满足预设范围的多个目本文档来自技高网...

【技术保护点】
1.一种样本数据的生成方法,其特征在于,包括:/n获取包含命名实体的病历语句;/n在预设语料库中查找包括所述命名实体且与所述病历语句的相似度值满足预设范围的多个目标语料;/n根据所述多个目标语料和预设的问句模板,生成预训练语言模型的样本数据。/n

【技术特征摘要】
1.一种样本数据的生成方法,其特征在于,包括:
获取包含命名实体的病历语句;
在预设语料库中查找包括所述命名实体且与所述病历语句的相似度值满足预设范围的多个目标语料;
根据所述多个目标语料和预设的问句模板,生成预训练语言模型的样本数据。


2.根据权利要求1所述的方法,其特征在于,所述在预设语料库中查找包括所述命名实体且与所述病历语句的相似度值满足预设范围的多个目标语料,包括:
在所述预设语料库中查找包括所述命名实体的候选语句;
获取所述候选语句与所述病历语句的相似度值;
将与所述病历语句的相似度值小于预设阈值的多个候选语句作为所述多个目标语料。


3.根据权利要求2所述的方法,其特征在于,所述获取所述候选语句与所述病历语句的相似度值,包括:
去除所述病历语句所在的病历中的候选语句,得到目标候选语句;
将所述目标候选语句和所述病历语句输入向量转换模型,得到所述目标候选语句对应的候选向量以及所述病历语句对应的语句向量;
计算所述候选向量与所述语句向量之间的余弦值,得到所述目标候选语句与所述病历语句的相似度值。


4.根据权利要求3所述的方法,其特征在于,所述将与所述病历语句的相似度值小于预设阈值的多个候选语料作为所述多个目标语料,包括:
将与所述病历语句的相似度值小于所述预设阈值的目标候选语句按照相似度值从大到小的顺序排序,得到各所述目标候选语句的序号;
将序号小于N的各所述目标候选语句作为所述多个目标语料,所述N为正整数。


5.根据权利要求1-4任一项所述的方法,其特征在于,所述预设的问句模板包括目标疑问词,所述根据所述目标语料和预设的问句模板,生成预...

【专利技术属性】
技术研发人员:孙超王健宗吴天博程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1