医疗文本数据的数据增强方法、装置、设备及介质制造方法及图纸

技术编号:38943965 阅读:13 留言:0更新日期:2023-09-25 09:41
本发明专利技术涉及人工智能及智慧医疗技术领域,公开了一种医疗文本数据的数据增强方法、装置、设备及介质,包括:对已有医疗文本进行聚类,得到聚类结果;根据聚类结果,获取每个已有医疗文本的权重;根据所有已有医疗文本的权重,建立抽样总体,从抽样总体中进行采样,得到采样医疗文本;生成采样医疗文本对应的相似医疗文本;利用生成的相似医疗文本对已有医疗文本进行数据增强。本申请通过采样具有代表性的采样医疗文本,生成相似医疗文本,可以更丰富、更多样性地扩充数据,实现更多样化的数据增强。强。强。

【技术实现步骤摘要】
医疗文本数据的数据增强方法、装置、设备及介质


[0001]本专利技术涉及人工智能及智慧医疗
,尤其涉及一种医疗文本数据的数据增强方法、装置、设备及介质。

技术介绍

[0002]数据增强是一种在训练机器学习或者深度学习模型时使用的技术,通过对原始数据进行一系列变换、扰动或组合,生成新的训练数据,使模型可以学习到更多的不同情况和变化,目的是于增加训练数据的数量和多样性,从而提高模型的性能。在智慧医疗领域,数据增强技术在模型训练中应用广泛,原因是医疗数据普遍数据较少,而机器学习和深度学习模型训练需要一定量的数据,因此通常会使用数据增强技术对医疗数据集进行扩充。
[0003]现有技术对医疗文本进行数据扩充主要是根据文本形式对医疗文本数据进行简单复制以实现数据增强。然而,通过这种方式增加的医疗文本数据仅仅只是数量上面的增加,过于单调,并不能丰富医疗文本数据的多样性和丰富性。应用此方法得到的数据增强后的医疗文本数据也无法帮助不同任务的模型训练实现显著的模型性能提升。

技术实现思路

[0004]本专利技术提供一种医疗文本数据的数据增强方法、装置、设备及介质,以解决现有技术中对于医疗文本的数据增强欠缺丰富性和多样性的技术问题。
[0005]第一方面,提供了一种医疗文本数据的数据增强方法,该方法包括:
[0006]对已有医疗文本进行聚类,得到聚类结果;
[0007]根据聚类结果,获取每个已有医疗文本的权重;
[0008]根据所有已有医疗文本的权重,建立抽样总体,从抽样总体中进行采样,得到采样医疗文本,其中,抽样总体中包含所有已有医疗文本,且抽样总体中所有已有医疗文本的数量按照权重配置;
[0009]生成采样医疗文本对应的相似医疗文本;
[0010]利用生成的相似医疗文本对已有医疗文本进行数据增强。
[0011]第二方面,提供了一种医疗文本数据的数据增强装置,该装置包括:
[0012]聚类模块,用于对已有医疗文本进行聚类,得到聚类结果;
[0013]权重计算模块,用于根据聚类结果,获取每个已有医疗文本的权重;
[0014]采样模块,用于根据所有已有医疗文本的权重,建立抽样总体,从抽样总体中进行采样,得到采样医疗文本,其中,抽样总体中包含所有已有医疗文本,且抽样总体中所有已有医疗文本的数量按照权重配置;
[0015]文本生成模块,用于生成采样医疗文本对应的相似医疗文本;
[0016]数据增强模块,用于利用生成的相似医疗文本对已有医疗文本进行数据增强。
[0017]第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述医疗文本数据的数据增
强方法的步骤。
[0018]第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述医疗文本数据的数据增强方法的步骤。
[0019]上述医疗文本数据的数据增强的方法、装置、设备及介质所实现的方案中,通过聚类获取到每个已有医疗文本的权重,根据权重构建由已有医疗文本构成的抽样总体,从抽样总体中进行采样,权重越高代表该已有医疗文本越具有代表性且在抽样总体中占比越大,越可能被抽样到,因此最终得到的采样医疗文本具有代表性和多样性,同理,根据采样医疗文本生成的相似医疗文本也具有代表性和多样性;另外,本申请并非通过简单复制来扩充数据,而是通过生成相似医疗文本来扩充数据,因此,得到的相似医疗文本相较于文本复制而言更具有多样性和丰富性,通过相似医疗文本来扩充已有医疗文本,得到的数据增强后的医疗文本可以帮助不同任务的模型训练实现显著的模型性能提升,增加模型的鲁棒性。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术一实施例中医疗文本数据的数据增强方法的一应用环境示意图;
[0022]图2是本专利技术一实施例中医疗文本数据的数据增强方法的流程示意图;
[0023]图3是本专利技术另一实施例中医疗文本数据的数据增强方法的流程示意图;
[0024]图4是本专利技术一实施例中医疗文本数据的数据增强的装置的结构示意图;
[0025]图5是本专利技术一实施例中医疗文本数据的数据增强的装置的结构示意图;
[0026]图6是本专利技术一实施例中计算机设备的结构示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]本专利技术实施例提供的医疗文本数据的数据增强方法可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。服务端通过客户端接收用户指令,对用户指令所指示的已有医疗文本进行数据增强,服务端具体执行以下步骤:对已有医疗文本进行聚类,得到聚类结果;根据聚类结果,获取每个已有医疗文本的权重;根据所有已有医疗文本的权重,建立抽样总体,从抽样总体中进行采样,得到采样医疗文本,其中,抽样总体中包含所有已有医疗文本,且抽样总体中所有已有医疗文本的数量按照权重配置;生成采样医疗文本对应的相似医疗文本;利用生成的相似医疗文本对已有医疗文本进行数据增强。其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通
过具体的实施例对本专利技术进行详细的描述。
[0029]请参阅图2所示,图2为本专利技术实施例提供的医疗文本数据的数据增强方法的一个流程示意图,该医疗文本数据的数据增强方法包括:
[0030]S101:对已有医疗文本进行聚类,得到聚类结果。
[0031]具体地,聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。
[0032]在一个具体实施例中,可以利用基于密度的聚类算法,例如:DBSCAN(Density

Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)等。通过该聚类方法对已有医疗文本进行聚类,得到聚类结果,此聚类结果即对应的多个聚类簇。每个聚类簇包括至少一个已有医疗文本,且不同聚类簇所包含的已有医疗文本不重叠。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗文本数据的数据增强方法,其特征在于,所述方法包括:对已有医疗文本进行聚类,得到聚类结果;根据所述聚类结果,获取每个已有医疗文本的权重;根据所有已有医疗文本的权重,建立抽样总体,从所述抽样总体中进行采样,得到采样医疗文本,其中,所述抽样总体中包含所有已有医疗文本,且所述抽样总体中所有已有医疗文本的数量按照所述权重配置;生成所述采样医疗文本对应的相似医疗文本;利用生成的所述相似医疗文本对所述已有医疗文本进行数据增强。2.如权利要求1所述的医疗文本数据的数据增强方法,其特征在于,所述对已有医疗文本进行聚类,得到聚类结果,包括:根据属性标签对所述已有医疗文本进行分组,对同一个分组中的已有医疗文本进行聚类,得到每个所述分组对应的聚类结果;所述根据所述聚类结果,获取每个已有医疗文本的权重,包括:根据目标分组的聚类结果,获取在所述目标分组中每个已有医疗文本的权重,其中,所述目标分组为所有分组中的任意一个分组;所述根据所有已有医疗文本的权重,建立抽样总体,从所述抽样总体中进行采样,得到采样医疗文本,包括:根据目标分组中所有已有医疗文本的权重,建立所述目标分组对应的抽样总体,从所述目标分组的抽样总体中进行采样,得到所述目标分组对应的采样医疗文本,其中,所述目标分组的抽样总体中包含所述目标分组的所有已有医疗文本,且所述目标分组的抽样总体中所有已有医疗文本的数量按照所述权重配置。3.如权利要求1或2所述的医疗文本数据的数据增强方法,其特征在于,在利用生成的所述相似医疗文本对所述已有医疗文本进行数据增强之前,所述方法还包括:对所述相似医疗文本与对应的采样医疗文本进行语义相似度检查;根据得到的检查结果,将指示语义相似度低于相似度阈值的相似医疗文本剔除。4.如权利要求2所述的医疗文本数据的数据增强方法,其特征在于,一个聚类结果包括多个聚类簇,所述根据目标分组的聚类结果,获取在所述目标分组中每个已有医疗文本的权重,包括:计算目标聚类簇所包含的已有医疗文本的数量与所述目标聚类簇对应的目标分组所包含的已有医疗文本的数量的比值,得到所述目标聚类簇的簇权重,其中,所述目标聚类簇为所述目标分组的聚类结果中的任意一个聚类簇;计算目标已有医疗文本与所在的目标聚类簇的聚类中心的距离作为第一距离,计算在所述目标聚类簇中已有医疗文本到所述聚类中心的最远距离,计算所述第一距离的倒数与所述最远距离的比值,得到所述目标已有医疗文本的...

【专利技术属性】
技术研发人员:唐蕊
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1