基于医学命名实体识别的持续学习的模型训练方法及装置制造方法及图纸

技术编号：35707299 阅读：15 留言：0更新日期：2022-11-23 15:04

本发明专利技术公开了基于医学命名实体识别的持续学习的模型训练方法及装置，通过在进行持续学习的模型训练过程中保留种子数据，在使用模型训练新数据时，和新数据一块进行模型训练，在训练得到的新模型具备旧知识后，让新模型能同时拥有新旧知识的能力，采取冻结第0、4、8层的bert层以及参数信息，让其不进行参数更新，保留之前学到的信息，降低旧知识的遗忘性，得到的训练结果遗忘率最低并且准确率最高，在医学领域中，可以既不需要全量的数据进行训练，又不会忘记在原始医院学到的知识，所以能将原始医院的模型适应到新医院进行训练，从而避免新医院进行大量文本标注，节约训练时间，提高训练效率和训练结果的准确率，让医学命名实体识别更为精准。识别更为精准。识别更为精准。

全部详细技术资料下载

【技术实现步骤摘要】
基于医学命名实体识别的持续学习的模型训练方法及装置

[0001]本专利技术属于人工智能
，具体涉及基于医学命名实体识别的持续学习的模型训练方法及装置。

技术介绍

[0002]人工智能病理诊断应用使得疾病的分析和诊断更具科学性和高效性。其中基于医学命名实体识别只是人工智能病理诊断中的一个组成部分，从一段诊断中提取出重要的信息，比如疾病名、临床表现、发病时长等等。
[0003]但是，不同的医院对于同一种疾病表述不同，例如：胃癌，也可以表述为胃恶性肿瘤。或者由于地域性或其他原因，B医院的疾病并没有在A医院出现，因此，在A医院训练出来的实体识别模型，并不一定适合B医院。如果重新为B医院训练一个模型，不但浪费时间，而且需要B医院大量的标注文本，费时费力。在不考虑时间成本和人员成本的情况下，将A、B两个医院的数据合并训练一个模型，这样就会即适合A医院，也适合B医院，显然这种方法是不待见的。那么如果只用B医院的数据接着训练A医院的模型，这样的模型最后只适合B医院，A医院学到的知识又忘了，这就是模型在学习新知识期间会发生灾难性遗忘的问题。

技术实现思路

[0004]针对上述现有技术的不足，本申请提供一种基于医学命名实体识别的持续学习的模型训练方法及装置。
[0005]第一方面本申请提出了基于医学命名实体识别的持续学习的模型训练方法，包括以下步骤：从多个数据源获取医学文本语料；采用二元语言统计模型对所述医学文本语料进行处理后构建医学知识图谱；从所述医学知识图谱中抽调出待训练语句；将所述待训练语句输...

【技术保护点】

【技术特征摘要】
1.基于医学命名实体识别的持续学习的模型训练方法，其特征在于：包括以下步骤：从多个数据源获取医学文本语料；采用二元语言统计模型对所述医学文本语料进行处理后构建医学知识图谱；从所述医学知识图谱中抽调出待训练语句；将所述待训练语句输入bert语言模型进行持续学习训练，在训练过程中对种子数据进行保留，将保留后的种子数据和新数据进行融合；将所述bert语言模型中的预设层数和参数信息进行冻结，向处理后bert语言模型输入融合后的数据，得到最终训练结果。2.根据权利要求1所述的方法，其特征在于：所述多个数据源至少包括：目标医院数据源、诊疗数据源和医学专业书籍数据源。3.根据权利要求2所述的方法，其特征在于：所述采用二元语言统计模型对所述医学文本语料进行处理后构建医学知识图谱，包括：利用所述二元语言统计模型对所述医学文本语料进行分词处理，获取相邻词间的搭配信息；根据所述搭配信息构建所述二元语言统计模型对应的医学词典；图形化重构所述词典，得到所述二元语言统计模型对应的医学知识图谱。4.根据权利要求3所述的方法，其特征在于：所述根据所述搭配信息构建所述二元语言统计模型对应的医学词典，包括：根据所述搭配信息遍历所述医学文本语料，计算所述搭配信息的词频；建立所述搭配信息与词频的对应关系，并保存所述对应关系形成所述医学词典。5.根据权利要求4所述的方法，其特征在于：所述图形化重构所述词典，得到所述二元语言统计模型的知识图谱，包括：以所述医学词典中搭配信息包含的相邻词作为两相邻节点，按照相邻词的搭配关系连接两相邻节点形成边，并以所述搭配信息的词频标识所述边，构建得到所述医学知识图谱。6.根据权利要求5所述的方法，其特征在于：所述从所述医学知识图谱中抽调出待训练语句，包括：基于所述二元语言统计模型计算神经网络中自然语句的联合概率；根据所述联合概率抽调所述自然语句，得到联合概率不为零的合理语句；根据所述医学知识图谱对所述合理语句进行路径搜索，并根据搜索结果映射得到所述待训练语句。7.根据权利要求6所述的方法，其特征在于：所述将所述待训练语句输入bert语言模型进行持续学习训练，在训练过程中对种子数据进行保留，包括：从所述待训练语句中任意提取两条待训练语句作为待判断语句；通过余弦相似度计算所述待判断语句之间的相似性，得到相似度计算结果；根据所述相似度计算结果和预设的相似度阈值对所述待判断语句进行筛选，得到相似度计算结果低于相似度阈值的保留语句；对所有所述待训练语句进行计算和筛选，并设定种子数据的保留数量阈值，如果最终得到所述保留语句的数量小于等于所述保留数量阈值，则全部作为种子数据存储在json文件中，如果最终得到所述保留语句的数量大于所述保留数量阈值，则随机选取与所述保留

【专利技术属性】
技术研发人员：宋佳祥，杨雅婷，白焜太，刘硕，许娟，
申请(专利权)人：神州医疗科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人