医疗文本数据的数据增强方法、装置、设备及介质制造方法及图纸

技术编号：38943965 阅读：30 留言：0更新日期：2023-09-25 09:41

本发明专利技术涉及人工智能及智慧医疗技术领域，公开了一种医疗文本数据的数据增强方法、装置、设备及介质，包括：对已有医疗文本进行聚类，得到聚类结果；根据聚类结果，获取每个已有医疗文本的权重；根据所有已有医疗文本的权重，建立抽样总体，从抽样总体中进行采样，得到采样医疗文本；生成采样医疗文本对应的相似医疗文本；利用生成的相似医疗文本对已有医疗文本进行数据增强。本申请通过采样具有代表性的采样医疗文本，生成相似医疗文本，可以更丰富、更多样性地扩充数据，实现更多样化的数据增强。强。强。

全部详细技术资料下载

【技术实现步骤摘要】
医疗文本数据的数据增强方法、装置、设备及介质

[0001]本专利技术涉及人工智能及智慧医疗
，尤其涉及一种医疗文本数据的数据增强方法、装置、设备及介质。

技术介绍

[0002]数据增强是一种在训练机器学习或者深度学习模型时使用的技术，通过对原始数据进行一系列变换、扰动或组合，生成新的训练数据，使模型可以学习到更多的不同情况和变化，目的是于增加训练数据的数量和多样性，从而提高模型的性能。在智慧医疗领域，数据增强技术在模型训练中应用广泛，原因是医疗数据普遍数据较少，而机器学习和深度学习模型训练需要一定量的数据，因此通常会使用数据增强技术对医疗数据集进行扩充。
[0003]现有技术对医疗文本进行数据扩充主要是根据文本形式对医疗文本数据进行简单复制以实现数据增强。然而，通过这种方式增加的医疗文本数据仅仅只是数量上面的增加，过于单调，并不能丰富医疗文本数据的多样性和丰富性。应用此方法得到的数据增强后的医疗文本数据也无法帮助不同任务的模型训练实现显著的模型性能提升。

技术实现思路

[0004]本专利技术提供...

【技术保护点】

【技术特征摘要】
1.一种医疗文本数据的数据增强方法，其特征在于，所述方法包括：对已有医疗文本进行聚类，得到聚类结果；根据所述聚类结果，获取每个已有医疗文本的权重；根据所有已有医疗文本的权重，建立抽样总体，从所述抽样总体中进行采样，得到采样医疗文本，其中，所述抽样总体中包含所有已有医疗文本，且所述抽样总体中所有已有医疗文本的数量按照所述权重配置；生成所述采样医疗文本对应的相似医疗文本；利用生成的所述相似医疗文本对所述已有医疗文本进行数据增强。2.如权利要求1所述的医疗文本数据的数据增强方法，其特征在于，所述对已有医疗文本进行聚类，得到聚类结果，包括：根据属性标签对所述已有医疗文本进行分组，对同一个分组中的已有医疗文本进行聚类，得到每个所述分组对应的聚类结果；所述根据所述聚类结果，获取每个已有医疗文本的权重，包括：根据目标分组的聚类结果，获取在所述目标分组中每个已有医疗文本的权重，其中，所述目标分组为所有分组中的任意一个分组；所述根据所有已有医疗文本的权重，建立抽样总体，从所述抽样总体中进行采样，得到采样医疗文本，包括：根据目标分组中所有已有医疗文本的权重，建立所述目标分组对应的抽样总体，从所述目标分组的抽样总体中进行采样，得到所述目标分组对应的采样医疗文本，其中，所述目标分组的抽样总体中包含所述目标分组的所有已有医疗文本，且所述目标分组的抽样总体中所有已有医疗文本的数量按照所述权重配置。3.如权利要求1或2所述的医疗文本数据的数据增强方法，其特征在于，在利用生成的所述相似医疗文本对所述已有医疗文本进行数据增强之前，所述方法还包括：对所述相似医疗文本与对应的采样医疗文本进行语义相似度检查；根据得到的检查结果，将指示语义相似度低于相似度阈值的相似医疗文本剔除。4.如权利要求2所述的医疗文本数据的数据增强方法，其特征在于，一个聚类结果包括多个聚类簇，所述根据目标分组的聚类结果，获取在所述目标分组中每个已有医疗文本的权重，包括：计算目标聚类簇所包含的已有医疗文本的数量与所述目标聚类簇对应的目标分组所包含的已有医疗文本的数量的比值，得到所述目标聚类簇的簇权重，其中，所述目标聚类簇为所述目标分组的聚类结果中的任意一个聚类簇；计算目标已有医疗文本与所在的目标聚类簇的聚类中心的距离作为第一距离，计算在所述目标聚类簇中已有医疗文本到所述聚类中心的最远距离，计算所述第一距离的倒数与所述最远距离的比值，得到所述目标已有医疗文本的...

【专利技术属性】
技术研发人员：唐蕊，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人