System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于数据筛选和对抗网络的医学跨域辅助诊断方法及装置制造方法及图纸_技高网

基于数据筛选和对抗网络的医学跨域辅助诊断方法及装置制造方法及图纸

技术编号:41235186 阅读:4 留言:0更新日期:2024-05-09 23:49
本发明专利技术涉及医学跨域数据处理技术领域,尤其涉及基于数据筛选和对抗网络的医学跨域辅助诊断方法及装置;该方法能够在已知源域已标注电子病历文本数据数量的基础上,通过源域已标注电子病历文本数据的数量和目标域未标注电子病历文本数据的数量之间的关系公式,能够计算目标域未标注电子病历文本数据所需的数量,并采用权重随机抽样法,实现目标域未标注电子病历文本数据所需数量的筛选,随后将源域已标注电子病历文本数据和筛选出的目标域未标注电子病历文本数据进行合并训练,利用优化后的对抗网络,能够在保证模型效果的基础上,不仅加快模型的推理速度,还能够提高疾病诊断预测结果的准确率。

【技术实现步骤摘要】

本专利技术涉及医学跨域数据处理,尤其涉及基于数据筛选和对抗网络的医学跨域辅助诊断方法及装置


技术介绍

1、在医学场景下的数据具有以下特点:

2、(1)私密性,针对患者的电子病例数据必须进行脱敏预处理操作后,才能用于模型训练;

3、(2)专业性,由于数据的专业性较强,存在标注困难的问题,同时对标注人员的水平和专业程度要求较高;

4、(3)专有性,不同医院的电子病例书写规范不同,并且不同医生的书写风格也不同。

5、鉴于此,为获得大量且高质量的医学标注数据需要投入大量的人力物力,并且在针对实际场景中某个或某几个科室已经训练好诊断模型的前提下,需要将其应用到跨科室或跨医院的情况时,仍需要对新的电子病例数据进行重新标注,存在浪费时间和财务成本的问题。

6、近年来出现了一些针对医学领域的伪样本生成及迁移策略,主要包括以下两种主流策略:

7、(1)采用应用于医学影像领域的gan网络,通过设置生成器和判别器来生成新的样本图片用以扩充医学影像训练数据;

8、(2)基于模型的迁移方式,即通过基于深度预训练模型,对目标域数据进行微调训练和迁移。

9、但是以上两种针对医学领域的伪样本生成及迁移的策略均存在一些不足之处,如针对第一种策略而言,由于gan网络只适用于针对连续性的实数领域,而无法适用于离散型的文本数据,另外,目前针对医学文本领域的伪样本生成还没有明确的技术方案;针对第二种策略而言,这种常见的迁移方式会造成灾难性遗忘,即模型在经过目标域数据训练之后,虽然在目标域下训练效果大大提升,但在之前源域所掌握的知识将会受到干扰而产生较大的下降。

10、为此,本专利技术提供了基于数据筛选和对抗网络的医学跨域辅助诊断方法及装置,该方法通过高效的数据筛选方式筛选出所需数量的目标域未标注电子病历文本数据,并将源域已标注电子病历文本数据和筛选出的目标域未标注电子病历文本数据进行合并,输入至经过优化的对抗网络中,用于提取和留存不同科室和/或医院数据的深层共性特征,以便减少人工标注过程,以解决当前诊断模型跨域时的问题。


技术实现思路

1、基于此,有必要针对上述技术问题,提供基于数据筛选和对抗网络的医学跨域辅助诊断方法及装置。

2、根据本专利技术的第一方面,提供了基于数据筛选和对抗网络的医学跨域辅助诊断方法,该方法包括:

3、获取若干数量的源域已标注电子病历文本数据和原始目标域未标注电子病历文本数据;

4、基于源域已标注电子病历文本数据的数量和目标域未标注电子病历文本数据的数量之间的关系公式,计算目标域未标注电子病历文本数据的选取数量;

5、基于权重随机抽样法,从原始目标域未标注电子病历文本数据中筛选出对应选取数量的目标域未标注电子病历文本数据;

6、将源域已标注电子病历文本数据和筛选后的目标域未标注电子病历文本数据作为待训练文本,并在每条待训练文本的末尾添加数据来源标签,构造出第一类训练数据;

7、基于特征抽取模型、域判别模型和诊断分类模型,构建原始对抗网络;

8、将第一类训练数据输入至预设的特征抽取模型中进行向量化处理,得到第二类训练数据;将第二类训练数据输入至预设的域判别模型中进行训练,生成分类结果属于输入数据来源的预测概率值;基于分类结果属于输入数据来源的预测概率值和分类结果属于输入数据来源的实际概率值,计算数据来源类别的交叉熵损失函数值;

9、选取包括数据来源为源域的第二类训练数据构造出第三类训练数据,将第三类训练数据输入至预设的诊断分类模型中进行训练,生成疾病类别属于对应疾病类别的预测概率值;基于疾病类别属于对应疾病类别的预测概率值和疾病类别属于对应疾病类别的实际概率值,计算疾病诊断类别的交叉熵损失函数值;

10、基于数据来源类别的交叉熵损失函数值和疾病诊断类别的交叉熵损失函数值确定训练的总损失值,根据训练的总损失值对原始对抗网络进行反向梯度传播训练,直到最终达到目标训练轮次或预设训练轮次内总损失值收敛最小时停止训练,得到目标对抗网络;

11、将待迁移的目标域未标注电子病历文本数据输入至目标对抗网络中,输出对应目标域未标注电子病历文本数据的疾病诊断预测结果,以完成医学跨域的辅助诊断。

12、在一些实施例的一些可选的实现方式中,所述基于源域已标注电子病历文本数据的数量和目标域未标注电子病历文本数据的数量之间的关系公式,计算目标域未标注电子病历文本数据的选取数量,具体包括:

13、若获取源域已标注电子病历文本数据的数量为y条,则源域已标注电子病历文本数据的数量和目标域未标注电子病历文本数据的数量之间的关系公式为:

14、

15、式中:x表示目标域未标注电子病历文本数据的选取数量,表示目标域平均困惑度,表示源域平均困惑度。

16、在一些实施例的一些可选的实现方式中,所述基于权重随机抽样法,从原始目标域未标注电子病历文本数据中筛选出对应选取数量的目标域未标注电子病历文本数据,具体包括:

17、将获取的所有原始目标域未标注电子病历文本数据输入至已训练的源域模型中进行训练,在训练过程中,对每条原始目标域未标注电子病历文本数据中的每个字符均对应输出熵值,选取该条原始目标域未标注电子病历文本数据中所有字符的熵值最大值作为该条原始目标域未标注电子病历文本数据的熵值进行输出,得到该条原始目标域未标注电子病历文本数据的熵值;

18、将经过训练后的所有熵值按照升序进行排列,构造出熵值分值区间;

19、将熵值分值区间平均分成n等份,得到n个熵值分值子区间;

20、将n个熵值分值子区间对应的权重分别按照1-n等差数列逐渐递增的方式进行赋值,并根据赋值后的权重,在对应熵值分值子区间内进行随机抽样,筛选出对应选取数量的目标域未标注电子病历文本数据。

21、在一些实施例的一些可选的实现方式中,所述将第一类训练数据输入至预设的特征抽取模型中进行向量化处理,得到第二类训练数据,具体包括:

22、 将包含有待训练文本和对应数据来源标签的第一类训练数据输入至特征抽取模型中,其中,所述数据来源为源域或目标域,所述特征抽取模型采用multi-queryattention注意力头结构,通过特征抽取模型的bert结构,生成对应数据来源的文本向量,所述对应数据来源的文本向量包括源域文本向量和目标域文本向量,根据源域文本向量和目标域文本向量构造出第二类训练数据。

23、在一些实施例的一些可选的实现方式中,所述将第二类训练数据输入至预设的域判别模型中进行训练,生成分类结果属于输入数据来源的预测概率值,具体包括:

24、将第二类训练数据输入至预设的域判别模型中,所述域判别模型为全卷积网络fcn模型,通过域判别模型的输入层对输入的第二类训练数据进行格式处理,通过域判别模型的隐藏层对输入层输出的特征向量基于权重和偏置进行加权求和,然本文档来自技高网...

【技术保护点】

1.基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,包括:

2.根据权利要求1所述的基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,所述基于源域已标注电子病历文本数据的数量和目标域未标注电子病历文本数据的数量之间的关系公式,计算目标域未标注电子病历文本数据的选取数量,具体包括:

3.根据权利要求2所述的基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,所述基于权重随机抽样法,从原始目标域未标注电子病历文本数据中筛选出对应选取数量的目标域未标注电子病历文本数据,具体包括:

4.根据权利要求1所述的基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,所述将第一类训练数据输入至预设的特征抽取模型中进行向量化处理,得到第二类训练数据,具体包括:

5.根据权利要求4所述的基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,所述将第二类训练数据输入至预设的域判别模型中进行训练,生成分类结果属于输入数据来源的预测概率值,具体包括:

6.根据权利要求5所述的基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,所述基于分类结果属于输入数据来源的预测概率值和分类结果属于输入数据来源的实际概率值,计算数据来源类别的交叉熵损失函数值,具体包括:

7.根据权利要求5所述的基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,所述选取包括数据来源为源域的第二类训练数据构造出第三类训练数据,将第三类训练数据输入至预设的诊断分类模型中进行训练,生成疾病类别属于对应疾病类别的预测概率值,具体包括:

8.根据权利要求7所述的基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,所述基于疾病类别属于对应疾病类别的预测概率值和疾病类别属于对应疾病类别的实际概率值,计算疾病诊断类别的交叉熵损失函数值,具体包括:

9.根据权利要求1所述的基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,所述基于数据来源类别的交叉熵损失函数值和疾病诊断类别的交叉熵损失函数值确定训练的总损失值,具体包括:

10.基于数据筛选和对抗网络的医学跨域辅助诊断装置,其特征在于,包括:

...

【技术特征摘要】

1.基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,包括:

2.根据权利要求1所述的基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,所述基于源域已标注电子病历文本数据的数量和目标域未标注电子病历文本数据的数量之间的关系公式,计算目标域未标注电子病历文本数据的选取数量,具体包括:

3.根据权利要求2所述的基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,所述基于权重随机抽样法,从原始目标域未标注电子病历文本数据中筛选出对应选取数量的目标域未标注电子病历文本数据,具体包括:

4.根据权利要求1所述的基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,所述将第一类训练数据输入至预设的特征抽取模型中进行向量化处理,得到第二类训练数据,具体包括:

5.根据权利要求4所述的基于数据筛选和对抗网络的医学跨域辅助诊断方法,其特征在于,所述将第二类训练数据输入至预设的域判别模型中进行训练,生成分类结果属于输入数据来源的预测概率值,具体包括:

6.根据权利要求5所述的基...

【专利技术属性】
技术研发人员:马鹏程白焜太刘莉杨雅婷宋佳祥刘硕许娟史文钊
申请(专利权)人:神州医疗科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1