训练样本的处理方法、相关设备、存储介质及程序产品技术

技术编号：38207589 阅读：13 留言：0更新日期：2023-07-21 16:56

本申请公开了一种训练样本的处理方法、相关设备、存储介质及程序产品，方法包括：获取第一训练样本，第一训练样本包括多个训练图像及每个训练图像中各个分析对象的参考描述文本；在第一训练样本中遍历每个分析对象的参考描述文本，基于每个分析对象的样本丢弃率及该分析对象对应参考描述文本的标签，确定每个分析对象的目标参考描述文本；基于每个分析对象的目标参考描述文本，目标参考描述文本所属的参考检测报告及多个训练图像，确定第二训练样本；第二训练样本中每个分析对象的第一标签的参考描述文本的数量和第二标签的参考描述文本的数量的比值处于预设区间，平衡了模型优化时采用的各分析对象不同标签的参考描述文本的数量比值。的数量比值。的数量比值。

全部详细技术资料下载

【技术实现步骤摘要】
训练样本的处理方法、相关设备、存储介质及程序产品

[0001]本申请涉及计算机
，尤其涉及一种训练样本的处理方法、相关设备、存储介质及程序产品。

技术介绍

[0002]医疗技术的飞速发展离不开计算机科学技术的助力，现如今医疗行业中医学检测报告的自动生成也可以基于计算机科学技术来实现。正常情况下，自动生成的医学检测报告可以用于辅助医生进行相应的医学诊断，从而可以降低医生进行医学诊断时的工作量，提升患者的就诊速度。在生成医学检测报告时，通常可以采用相关的报告生成模型对医学检测图像(如：X光片、CT光片等)进行文本描述来实现。然而，现有的报告生成模型在训练过程中通常存在如下问题：训练图像包括的各个分析对象之间，不同标签的训练样本数量的比例不均衡，进而导致在实际应用中采用报告生成模型生成的医学检测报告准确度较低。因此，如何均衡各个分析对象之间不同标签的训练数据的数量比例成了当下的研究热点。

技术实现思路

[0003]本申请实施例提供了一种训练样本的处理方法、相关设备、存储介质及程序产品，可提升不同标签的训练样本的比例均衡性。
[0004]一方面，本申请实施例提供了一种训练样本的处理方法，包括：
[0005]获取第一训练样本，所述第一训练样本包括多个训练图像以及每个训练图像的参考检测报告，每个训练图像包括多个分析对象，参考检测报告包括每个分析对象的参考描述文本；
[0006]遍历所述第一训练样本的多个分析对象中每个分析对象的多个参考描述文本，并基于每个分析对象的样本丢弃率，以及所述...

【技术保护点】

【技术特征摘要】
1.一种训练样本的处理方法，其特征在于，包括：获取第一训练样本，所述第一训练样本包括多个训练图像以及每个训练图像的参考检测报告，每个训练图像包括多个分析对象，参考检测报告包括每个分析对象的参考描述文本；遍历所述第一训练样本的多个分析对象中每个分析对象的多个参考描述文本，并基于每个分析对象的样本丢弃率，以及所述每个分析对象的多个参考描述文本中每个参考描述文本的标签，在所述多个参考描述文本中确定目标参考描述文本，每个分析对象的目标参考描述文本中第一标签的参考描述文本的数量和第二标签的参考描述文本的数量的比值位于预设区间内；基于每个分析对象的目标参考描述文本，每个目标参考描述文本所属的参考检测报告以及所述多个训练图像，确定第二训练样本；所述第二训练样本包括所述多个训练图像以及每个训练图像的训练检测报告，训练检测报告包括对应训练图像的参考检测报告中的目标参考描述文本，所述第二训练样本用于对报告生成模型进行模型优化。2.根据权利要求1所述的方法，其特征在于，所述基于每个分析对象的样本丢弃率，以及所述每个分析对象的多个参考描述文本中每个参考描述文本的标签，在所述多个参考描述文本中确定目标参考描述文本，包括：若任一参考描述文本的标签为所述第一标签，则基于所述每个分析对象的样本丢弃率确定所述任一参考描述文本对应的文本保留率，并在所述文本保留率为非零值时，将所述任一参考描述文本作为目标参考描述文本；若任一参考描述文本的标签为所述第二标签，则将所述任一参考描述文本直接确定为目标参考描述文本。3.根据权利要求2所述的方法，其特征在于，所述基于所述每个分析对象的样本丢弃率确定所述任一参考描述文本对应的文本保留率，包括：采用随机值生成函数在所述样本丢弃率的约束下，生成所述任一参考描述文本对应的文本参考保留率；获取文本保留率约束参数值，并将所述文本保留率约束参数值与所述文本参考保留率之间的差值，作为所述任一参考描述文本对应的文本保留率。4.根据权利要求1
‑
3任一项所述的方法，其特征在于，在确定每个分析对象的目标参考描述文本之前，所述方法还包括：基于样本平衡参数确定所述多个分析对象中每个分析对象的样本丢弃率；其中，任一分析对象的样本丢弃率的确定方式包括：获取所述任一分析对象的多个参考描述文本中每个参考描述文本的标签；在所述任一分析对象的多个参考描述文本中，确定第一标签的参考描述文本的数量以及第二标签的参考描述文本的数量；根据所述样本平衡参数，所述第一标签的参考描述文本的数量以及第二标签的参考描述文本的数量，确定所述任一分析对象的样本丢弃率。5.根据权利要求4所述的方法，其特征在于，所述根据所述样本平衡参数，所述第一标签的参考描述文本的数量以及第二标签的参考描述文本的数量，确定所述任一分析对象的样本丢弃率，包括：
获取所述第二标签的参考描述文本的数量与所述第一标签的参考描述文本的数量之间的比值，并将获取到的比值与所述样本平衡参数进行乘法运算，得到乘法运算结果；获取样本丢弃率约束参数值，并将所述丢弃率约束参数与所述乘法运算结果之间的差值，作为第一候选丢弃率；获取第二候选丢弃率，将所述第一候选丢弃率和所述第二候选丢弃率中最大的候选丢弃率，作为所述任一分析对象的样本丢弃率。6.根据权利要求1所述的方法，其特征在于，所述基于每个分析对象的目标参考描述文本，每个目标参考描述文本所属的参考检测报告以及所述多个训练图像，确定第二训练样本，包括：基于每个目标参考描述文本所属的参考检测报告，在所述多个分析对象的目标参考描述文本中确定属于任一参考检测报告的目标参考描述文本；生成所述任一参考检测报告对应的训练图像的训练检测报告，所述训练检测报告包括确定出的目标参考描述文本；基于所述多个训练图像以及每个训练图像对应生成的训练检测报告，构建所述第二训练样本。7.根据权利要求1或6所述的方法，其特征在于，获取第一训练样本中每个训练图像的参考检测报告的方式包括：获取所述每个训练图像的目标检测报告，目标检测报告包括至少一个分析对象的参考描述文本；若所述目标检测报告中参考描述文本的数量小于所述每个训练图像中分析对象的数量，则对...

【专利技术属性】
技术研发人员：宁慕楠，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人