一种基于深度学习的中文临床术语标准化方法技术

技术编号：38140497 阅读：17 留言：0更新日期：2023-07-08 09:54

本发明专利技术公开了一种基于深度学习的中文临床术语标准化方法，涉及到临床术语领域，针对每一个诊断原词，进行所述数据的预处理；从标准词集合中产生该诊断原词，利用所述诊断原词达到所述候选集生成；使用所述模型排序对候选集中的每个词进行排序；通过模型预测出标准词个数K，并结合所述模型排序的结果，得到前K个词作为所述标准词集合。所述数据的预处理分为数据清洗和标准词集合生成，所述数据清洗包括清洗诊断原词的无关字符，所述标准词生成包括选取ICD

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的中文临床术语标准化方法

[0001]本专利技术涉及临床术语领域，特别涉及一种基于深度学习的中文临床术语标准化方法。

技术介绍

[0002]针对中文临床术语标准化问题，已有大量的研究和探索。目前主要分为三类方法，即基于人工手动结合规则的方法、基于机器学习的方法和基于深度学习的方法。
[0003]基于人工手动结合规则的方法最早应用于国外对临床术语的标准化。然而这种方式总体学习成本较高，并且效率低下。需要大量的专业人员，并且耗时易出错，现在应用较少。
[0004]基于机器学习的方法相对于基于人工手动结合规则的方法有一定进步。但是并没有深入挖掘文本中所包含的语义信息。
[0005]随着深度学习技术的发展和计算性能的大幅提升，神经网络被广泛应用于临床信息处理领域。深度学习在文本建模上具有强大的表征能力，不仅可以更好地表示词语和文本，还可以学习到词语的上下文关系和重要词语的信息，在自然语言处理领域展现出强大的优势。因此，深度学习成为目前研究临床术语标准化的主流方法。
[0006]本提案提出一种基于深度学习的中文临床术语标准化的方法。将临床术语标准化工作分为候选集生成，模型排序，个数预测三部分。同时针对候选集生成，提出一种基于无监督与有监督学习融合的候选集生成方法，将候选集生成问题抽象成文本相似度计算问题。

技术实现思路

[0007]本专利技术的目的在于提供一种基于深度学习的中文临床术语标准化方法，以解决上述
技术介绍
中提出的问题。
[0008]为实现上述目的...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的中文临床术语标准化方法，其特征在于：包括数据的预处理、候选集生成、模型排序、个数预测，该方法包括以下步骤：S1、数据的预处理，数据的预处理分为数据清洗和标准词集合生成，发明数据清洗包括清洗诊断原词的无关字符，标准词生成包括选取ICD
‑
10作为标准词集合，优化对比损失，增加正样例之间的相似性，减小负样例之间的相似性，在有监督学习场景下，将训练集中标注的诊断原词和标准词数据，作为正样例（X，X+），将训练过程中同一个Batch内除自身之外的其它所有诊断原词及其标准词作为负样例（X，X
‑
）进行数据增强，在无监督学习场景下，构建负样例的过程则与有监督学习场景相同，针对每一个诊断原词，进行所述数据的预处理；S2、候选集生成，候选集生成是通过给定一个诊断原词，从标准词集合中筛选出若干个标准词作为匹配候选的过程，在候选集生成过程中，将对比学习分别运用到有监督学习和无监督学习两种场景中，对比学习的核心是通过数据增强的方式构建正负样例，然后将正负样例同时输入到模型中进行特征提取进而生成句嵌入，最后优化对比损失，增加正样例之间的相似性，减小负样例之间的相似性，从标准词集合中产生该诊断原词，利用所述诊断原词达到所述候选集生成，通过迁移学习将有监督学习场景和无监督学习场景下通过对比学习生成的模型进行融合，形成最终的候选集生成模型，在推理过程中，输入一个诊断原词，通过模型生成嵌入结果，并与每一个标准词生成的嵌入结果进行相似度计算并排...

【专利技术属性】
技术研发人员：曹天甲，倪广健，程龙龙，田野，
申请(专利权)人：中电云脑天津科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人