基于医学命名实体识别的持续学习的模型训练方法及装置制造方法及图纸

技术编号:35707299 阅读:15 留言:0更新日期:2022-11-23 15:04
本发明专利技术公开了基于医学命名实体识别的持续学习的模型训练方法及装置,通过在进行持续学习的模型训练过程中保留种子数据,在使用模型训练新数据时,和新数据一块进行模型训练,在训练得到的新模型具备旧知识后,让新模型能同时拥有新旧知识的能力,采取冻结第0、4、8层的bert层以及参数信息,让其不进行参数更新,保留之前学到的信息,降低旧知识的遗忘性,得到的训练结果遗忘率最低并且准确率最高,在医学领域中,可以既不需要全量的数据进行训练,又不会忘记在原始医院学到的知识,所以能将原始医院的模型适应到新医院进行训练,从而避免新医院进行大量文本标注,节约训练时间,提高训练效率和训练结果的准确率,让医学命名实体识别更为精准。识别更为精准。识别更为精准。

【技术实现步骤摘要】
基于医学命名实体识别的持续学习的模型训练方法及装置


[0001]本专利技术属于人工智能
,具体涉及基于医学命名实体识别的持续学习的模型训练方法及装置。

技术介绍

[0002]人工智能病理诊断应用使得疾病的分析和诊断更具科学性和高效性。其中基于医学命名实体识别只是人工智能病理诊断中的一个组成部分,从一段诊断中提取出重要的信息,比如疾病名、临床表现、发病时长等等。
[0003]但是,不同的医院对于同一种疾病表述不同,例如:胃癌,也可以表述为胃恶性肿瘤。或者由于地域性或其他原因,B医院的疾病并没有在A医院出现,因此,在A医院训练出来的实体识别模型,并不一定适合B医院。如果重新为B医院训练一个模型,不但浪费时间,而且需要B医院大量的标注文本,费时费力。在不考虑时间成本和人员成本的情况下,将A、B两个医院的数据合并训练一个模型,这样就会即适合A医院,也适合B医院,显然这种方法是不待见的。那么如果只用B医院的数据接着训练A医院的模型,这样的模型最后只适合B医院,A医院学到的知识又忘了,这就是模型在学习新知识期间会发生灾难性遗忘的问题。

技术实现思路

[0004]针对上述现有技术的不足,本申请提供一种基于医学命名实体识别的持续学习的模型训练方法及装置。
[0005]第一方面本申请提出了基于医学命名实体识别的持续学习的模型训练方法,包括以下步骤:从多个数据源获取医学文本语料;采用二元语言统计模型对所述医学文本语料进行处理后构建医学知识图谱;从所述医学知识图谱中抽调出待训练语句;将所述待训练语句输入bert语言模型进行持续学习训练,在训练过程中对种子数据进行保留,将保留后的种子数据和新数据进行融合;将所述bert语言模型中的预设层数和参数信息进行冻结,向处理后bert语言模型输入融合后的数据,得到最终训练结果。
[0006]在一些实施例的一些可选的实现方式中,所述多个数据源至少包括:目标医院数据源、诊疗数据源和医学专业书籍数据源。
[0007]在一些实施例的一些可选的实现方式中,所述采用二元语言统计模型对所述医学文本语料进行处理后构建医学知识图谱,包括:利用所述二元语言统计模型对所述医学文本语料进行分词处理,获取相邻词间的搭配信息;根据所述搭配信息构建所述二元语言统计模型对应的医学词典;图形化重构所述词典,得到所述二元语言统计模型对应的医学知识图谱。
[0008]在一些实施例的一些可选的实现方式中,所述根据所述搭配信息构建所述二元语言统计模型对应的医学词典,包括:根据所述搭配信息遍历所述医学文本语料,计算所述搭配信息的词频;建立所述搭配信息与词频的对应关系,并保存所述对应关系形成所述医学词典。
[0009]在一些实施例的一些可选的实现方式中,所述图形化重构所述词典,得到所述二元语言统计模型的知识图谱,包括:以所述医学词典中搭配信息包含的相邻词作为两相邻节点,按照相邻词的搭配关系连接两相邻节点形成边,并以所述搭配信息的词频标识所述边,构建得到所述医学知识图谱。
[0010]在一些实施例的一些可选的实现方式中,所述从所述医学知识图谱中抽调出待训练语句,包括:基于所述二元语言统计模型计算神经网络中自然语句的联合概率;根据所述联合概率抽调所述自然语句,得到联合概率不为零的合理语句;根据所述医学知识图谱对所述合理语句进行路径搜索,并根据搜索结果映射得到所述待训练语句。
[0011]在一些实施例的一些可选的实现方式中,所述将所述待训练语句输入bert语言模型进行持续学习训练,在训练过程中对种子数据进行保留,包括:从所述待训练语句中提取任意两条待训练语句作为待判断语句;通过余弦相似度计算所述待判断语句之间的相似性,得到相似度计算结果;根据所述相似度计算结果和预设的相似度阈值对所述待判断语句进行筛选,得到相似度计算结果低于相似度阈值的保留语句;对所有所述待训练语句进行计算和筛选,并设定种子数据的保留数量阈值,如果最终得到所述保留语句的数量小于等于所述保留数量阈值,则全部作为种子数据存储在json文件中,如果最终得到所述保留语句的数量大于所述保留数量阈值,则随机选取与所述保留数量阈值相等数值的保留语句作为种子数据存储在json文件中。
[0012]在一些实施例的一些可选的实现方式中,所述通过余弦相似度计算所述待判断语句之间的相似性,得到相似度计算结果,包括:所述待判断语句包括第一待判断语句和第二待判断语句;使用语言处理工具对所述第一待判断语句和所述第二待判断语句进行文本拆分,得到第一分词结果和第二分词结果;对所述第一分词结果和所述第二分词结果取并集,得到分词清单;使用one

hot编码将所述第一待判断语句和所述第二待判断语句转换为数字向量,并结合上述第一待判断语句和所述第二待判断语句和所述分词清单进行重复度对照,得到第一句子向量表示和第二句子向量表示;将所述第一句子向量表示和第二句子向量表示带入余弦相似度公式,得到相似度计算结果。
[0013]在一些实施例的一些可选的实现方式中,所述将保留后的种子数据和新数据进行融合,包括:获取持续训练过程中产生的新数据;
通过加载json文件获取保留的种子数据;将所述新数据和所述种子数据进行合并,得到融合数据,所述融合数据既具备新数据的特征,也具备所述种子数据的特征。
[0014]在一些实施例的一些可选的实现方式中,所述将所述bert语言模型中的预设层数和参数信息进行冻结,向处理后bert语言模型输入融合后的数据,得到最终训练结果,包括:在持续训练过程中遍历bert语言模型的编码器的第1

11层,当遍历到第0、4和8层时,将第0、4和8层的梯度更新设置为停止更新,完成对第0、4和8层和参数信息的冻结;将所述融合数据输入冻结处理后的模型进行训练,得到最终训练结果。
[0015]本公开实施例的第二方面,提供了一种基于医学命名实体识别的持续学习的模型训练装置,包括:数据获取模块,用于从多个数据源获取医学文本语料;医学知识图谱构建模块,用于采用二元语言统计模型对所述医学文本语料进行处理后构建医学知识图谱;语句抽调模块,用于从所述医学知识图谱中抽调出待训练语句;数据处理模块,用于将所述待训练语句输入bert语言模型进行持续学习训练,在训练过程中对种子数据进行保留,将保留后的种子数据和新数据进行融合;模型处理模块,用于将所述bert语言模型中的预设层数和参数信息进行冻结,向处理后bert语言模型输入融合后的数据,得到最终训练结果。
[0016]本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
[0017]本公开实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0018]本专利技术的有益效果:在进行持续学习的模型训练过程中保留种子数据,在使用模型训练新数据时,和新数据一块进行模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于医学命名实体识别的持续学习的模型训练方法,其特征在于:包括以下步骤:从多个数据源获取医学文本语料;采用二元语言统计模型对所述医学文本语料进行处理后构建医学知识图谱;从所述医学知识图谱中抽调出待训练语句;将所述待训练语句输入bert语言模型进行持续学习训练,在训练过程中对种子数据进行保留,将保留后的种子数据和新数据进行融合;将所述bert语言模型中的预设层数和参数信息进行冻结,向处理后bert语言模型输入融合后的数据,得到最终训练结果。2.根据权利要求1所述的方法,其特征在于:所述多个数据源至少包括:目标医院数据源、诊疗数据源和医学专业书籍数据源。3.根据权利要求2所述的方法,其特征在于:所述采用二元语言统计模型对所述医学文本语料进行处理后构建医学知识图谱,包括:利用所述二元语言统计模型对所述医学文本语料进行分词处理,获取相邻词间的搭配信息;根据所述搭配信息构建所述二元语言统计模型对应的医学词典;图形化重构所述词典,得到所述二元语言统计模型对应的医学知识图谱。4.根据权利要求3所述的方法,其特征在于:所述根据所述搭配信息构建所述二元语言统计模型对应的医学词典,包括:根据所述搭配信息遍历所述医学文本语料,计算所述搭配信息的词频;建立所述搭配信息与词频的对应关系,并保存所述对应关系形成所述医学词典。5.根据权利要求4所述的方法,其特征在于:所述图形化重构所述词典,得到所述二元语言统计模型的知识图谱,包括:以所述医学词典中搭配信息包含的相邻词作为两相邻节点,按照相邻词的搭配关系连接两相邻节点形成边,并以所述搭配信息的词频标识所述边,构建得到所述医学知识图谱。6.根据权利要求5所述的方法,其特征在于:所述从所述医学知识图谱中抽调出待训练语句,包括:基于所述二元语言统计模型计算神经网络中自然语句的联合概率;根据所述联合概率抽调所述自然语句,得到联合概率不为零的合理语句;根据所述医学知识图谱对所述合理语句进行路径搜索,并根据搜索结果映射得到所述待训练语句。7.根据权利要求6所述的方法,其特征在于:所述将所述待训练语句输入bert语言模型进行持续学习训练,在训练过程中对种子数据进行保留,包括:从所述待训练语句中任意提取两条待训练语句作为待判断语句;通过余弦相似度计算所述待判断语句之间的相似性,得到相似度计算结果;根据所述相似度计算结果和预设的相似度阈值对所述待判断语句进行筛选,得到相似度计算结果低于相似度阈值的保留语句;对所有所述待训练语句进行计算和筛选,并设定种子数据的保留数量阈值,如果最终得到所述保留语句的数量小于等于所述保留数量阈值,则全部作为种子数据存储在json文件中,如果最终得到所述保留语句的数量大于所述保留数量阈值,则随机选取与所述保留

【专利技术属性】
技术研发人员:宋佳祥杨雅婷白焜太刘硕许娟
申请(专利权)人:神州医疗科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1