疾病名称对码列表的生成方法、装置、设备及存储介质制造方法及图纸

技术编号:30831657 阅读:19 留言:0更新日期:2021-11-18 12:47
本发明专利技术涉及数字医疗领域,公开了疾病名称对码列表的生成方法、装置、设备及存储介质,用于利用改进的对码模型对待对码的疾病名称进行准确分词并对码,提高了对码模型对疾病名称的对码准确率和召回率。本发明专利技术方法包括:获取初始数据集,所述初始数据集包括多条需要进行对码的原始医疗语句;对所述初始数据集进行预处理,得到多个类别的医疗数据;调用预置的实体识别模型对于所述多个类别的医疗数据进行实体识别,得到疾病名称识别结果;调用预置的对码模型将所述疾病名称识别结果与预置的标准数据集进行对码,得到对码结果;基于所述对码结果生成对码列表,所述对码列表包括原始短语列、标准短语列和数据编码列。标准短语列和数据编码列。标准短语列和数据编码列。

【技术实现步骤摘要】
疾病名称对码列表的生成方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能领域,尤其涉及一种疾病名称对码列表的生成方法、装置、设备及存储介质。

技术介绍

[0002]医学临床数据标准化是支持医联(共)体、区域内数据互通互认、医保异地结算等多种场景的基础能力。在制定统一的标准目录之前,不同省市、地区、医院在建立信息化系统的同时,对于诊疗、手术、疾病、药品等的编码及名称没有采用统一的标准,造成医疗信息不能全国通用。
[0003]目前,在进行医疗支付方式改革的过程中,也需要将历史数据的编码均统一化,否则,难以适应新时代医疗保障的要求,目前的疾病名称都是通过人为对码生成列表,效率低下。

技术实现思路

[0004]本专利技术提供了一种疾病名称对码列表的生成方法、装置、设备及存储介质,用于利用改进的对码模型对待对码的疾病名称进行准确分词并对码,提高了对码模型对疾病名称的对码准确率和召回率。
[0005]本专利技术实施例的第一方面提供一种疾病名称对码列表的生成方法,包括:获取初始数据集,所述初始数据集包括多条需要进行对码的原始医疗语句;对所述初始数据集进行预处理,得到多个类别的医疗数据;调用预置的对码模型中的识别神经网络对于所述多个类别的医疗数据进行实体识别,得到疾病名称识别结果;调用所述对码模型中的分布式全文检索引擎和孪生网络将所述疾病名称识别结果与预置的标准数据集进行对码,得到对码结果;基于所述对码结果生成对码列表,所述对码列表包括原始短语列、标准短语列和数据编码列。
[0006]可选的,在本专利技术实施例第一方面的第一种实现方式中,所述对所述初始数据集进行预处理,得到多个类别的医疗数据,包括:对所述初始数据集进行格式调整和文本纠错,得到替换后的数据文本;筛选掉所述替换后的数据文本中的非医疗数据和重复数据,得到筛选后的数据;将筛选后的数据中缺失数据和异常数据进行补全、修改或删除操作,得到调整后的数据;将调整后的数据按照预置科室类别进行集成,得到多个类别的医疗数据。
[0007]可选的,在本专利技术实施例第一方面的第二种实现方式中,所述将调整后的数据按照预置科室类别进行集成,得到多个类别的医疗数据,包括:获取预置科室类别中每个科室类别对应的关键词集合,得到多个科室关键词集合,每个科室关键词集合对应一个科室类别;将所述调整后的数据与所述多个科室关键词集合依次进行匹配,得到多个匹配结果对,所述匹配结果对包括已匹配的医疗语句和已匹配的科室类别;将所述调整后的数据按照每个匹配结果对中的已匹配的科室类别进行集成,得到多个类别的医疗数据,每个类别的医疗数据中包括属于此类别的多个医疗相关语句。
[0008]可选的,在本专利技术实施例第一方面的第三种实现方式中,所述调用预置的对码模型中的识别神经网络对于所述多个类别的医疗数据进行实体识别,得到疾病名称识别结果,包括:将所述多个类别的医疗数据转换为多个字词向量序列;对所述多个字词向量序列进行标注,得到多个标注后的向量序列;从预置的对码模型中调用识别神经网络对所述多个标注后的向量序列进行实体识别,得到实体识别结果,所述实体识别结果包括多个医疗实体特征向量及每个医疗实体对应的词性;从所述实体识别结果的多个医疗实体特征向量中筛选出多个疾病名称,得到疾病名称识别结果,所述疾病名称识别结果中包括多个名词属性的疾病名称。
[0009]可选的,在本专利技术实施例第一方面的第四种实现方式中,所述从预置的对码模型中调用识别神经网络对所述多个标注后的向量序列进行实体识别,得到实体识别结果,所述实体识别结果包括多个医疗实体特征向量及每个医疗实体对应的词性,包括:调用预置的对码模型中识别神经网络的BiLSTM层对所述多个标注后的序列进行特征提取,得到多个预测标签序列,其中,预测标签序列中的每个预测标签对应所述标注后的序列中的每个单词;调用所述识别神经网络的CRF层对所述多个预测标签序列进行上下文语义约束调整,得到最优标签序列;确定所述最优标签序列中每个医疗实体特征向量对应的词性,得到最优词性序列,并将所述最优标签序列及所述最优词性序列确定为实体识别结果。
[0010]可选的,在本专利技术实施例第一方面的第五种实现方式中,所述调用所述对码模型中的分布式全文检索引擎和孪生网络将所述疾病名称识别结果与预置的标准数据集进行对码,得到对码结果,包括:将所述疾病名称识别结果中的每个疾病名称特征向量与预置的标准数据集进行全词匹配,得到全词匹配结果;若全词匹配结果不为空,则将匹配到的多个词语确定为候选对码集;若全词匹配结果为空,则利用分布式全文检索引擎Elasticsearch进行相关词召回,得到召回候选集,所述召回候选集中包括多个召回的词语;计算所述召回候选集和所述疾病名称识别结果之间的相似度,得到按照从大到小排列的相似度序列,将所述相似度序列中靠前的预置数量的词语确定为候选对码集;调用所述对码模型中的孪生网络将所述候选对码集与预置的标准疾病名称进行对码,生成对码结果,所述对码结果包括多个短语对,每个短语对包括原始疾病名称与对应的标准疾病名称。
[0011]可选的,在本专利技术实施例第一方面的第六种实现方式中,所述基于所述对码结果生成对码列表,所述对码列表包括原始短语列、标准短语列和数据编码列,包括:基于所述对码结果中多个短语对确定多个目标原始疾病名称,并将所述多个目标原始疾病名称导入原始短语列;基于所述对码结果中多个短语对确定多个目标标准疾病名称,并将所述多个目标标准疾病名称导入标准短语列;基于每个目标标准疾病名称在预置编码标准目录中查找至少一个候选编码;将所述至少一个候选编码中更新时间最晚的候选编码确定为每个目标标准疾病名称对应的标准疾病编码,得到多个标准疾病编码,并将所述多个标准疾病编码导入数据编码列;将所述原始短语列、所述标准短语列和所述数据编码列依次排列,生成对码列表。
[0012]本专利技术实施例的第二方面提供了一种疾病名称对码列表的生成装置,包括:获取模块,用于获取初始数据集,所述初始数据集包括多条需要进行对码的原始医疗语句;预处理模块,用于对所述初始数据集进行预处理,得到多个类别的医疗数据;识别模块,用于调用预置的对码模型中的识别神经网络对于所述多个类别的医疗数据进行实体识别,得到疾
病名称识别结果;对码模块,用于调用所述对码模型中的分布式全文检索引擎和孪生网络将所述疾病名称识别结果与预置的标准数据集进行对码,得到对码结果;生成模块,用于基于所述对码结果生成对码列表,所述对码列表包括原始短语列、标准短语列和数据编码列。
[0013]可选的,在本专利技术实施例第二方面的第一种实现方式中,预处理模块包括:数据纠错单元,用于对所述初始数据集进行格式调整和文本纠错,得到替换后的数据文本;数据筛选单元,用于筛选掉所述替换后的数据文本中的非医疗数据和重复数据,得到筛选后的数据;数据调整单元,用于将筛选后的数据中缺失数据和异常数据进行补全、修改或删除操作,得到调整后的数据;数据集成单元,用于将调整后的数据按照预置科室类别进行集成,得到多个类别的医疗数据。
[0014]可选的,在本专利技术实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种疾病名称对码列表的生成方法,其特征在于,包括:获取初始数据集,所述初始数据集包括多条需要进行对码的原始医疗语句;对所述初始数据集进行预处理,得到多个类别的医疗数据;调用预置的对码模型中的识别神经网络对于所述多个类别的医疗数据进行实体识别,得到疾病名称识别结果;调用所述对码模型中的分布式全文检索引擎和孪生网络将所述疾病名称识别结果与预置的标准数据集进行对码,得到对码结果;基于所述对码结果生成对码列表,所述对码列表包括原始短语列、标准短语列和数据编码列。2.根据权利要求1所述的疾病名称对码列表的生成方法,其特征在于,所述对所述初始数据集进行预处理,得到多个类别的医疗数据,包括:对所述初始数据集进行格式调整和文本纠错,得到替换后的数据文本;筛选掉所述替换后的数据文本中的非医疗数据和重复数据,得到筛选后的数据;将筛选后的数据中缺失数据和异常数据进行补全、修改或删除操作,得到调整后的数据;将调整后的数据按照预置科室类别进行集成,得到多个类别的医疗数据。3.根据权利要求2所述的疾病名称对码列表的生成方法,其特征在于,所述将调整后的数据按照预置科室类别进行集成,得到多个类别的医疗数据,包括:获取预置科室类别中每个科室类别对应的关键词集合,得到多个科室关键词集合,每个科室关键词集合对应一个科室类别;将所述调整后的数据与所述多个科室关键词集合依次进行匹配,得到多个匹配结果对,所述匹配结果对包括已匹配的医疗语句和已匹配的科室类别;将所述调整后的数据按照每个匹配结果对中的已匹配的科室类别进行集成,得到多个类别的医疗数据,每个类别的医疗数据中包括属于此类别的多个医疗相关语句。4.根据权利要求1所述的疾病名称对码列表的生成方法,其特征在于,所述调用预置的对码模型中的识别神经网络对于所述多个类别的医疗数据进行实体识别,得到疾病名称识别结果,包括:将所述多个类别的医疗数据转换为多个字词向量序列;对所述多个字词向量序列进行标注,得到多个标注后的向量序列;从预置的对码模型中调用识别神经网络对所述多个标注后的向量序列进行实体识别,得到实体识别结果,所述实体识别结果包括多个医疗实体特征向量及每个医疗实体对应的词性;从所述实体识别结果的多个医疗实体特征向量中筛选出多个疾病名称,得到疾病名称识别结果,所述疾病名称识别结果中包括多个名词属性的疾病名称。5.根据权利要求4所述的疾病名称对码列表的生成方法,其特征在于,所述从预置的对码模型中调用识别神经网络对所述多个标注后的向量序列进行实体识别,得到实体识别结果,所述实体识别结果包括多个医疗实体特征向量及每个医疗实体对应的词性,包括:调用预置的对码模型中识别神经网络的BiLSTM层对所述多个标注后的序列进行特征提取,得到多个预测标签序列,其中,预测标签序列中的每个预测标签对应所述标注后的序
列中的每个单词;调用所述识别神经网络的CRF层对所述多个预测标签序列进行上下文语义约束调整,得到最优标签序列;确定所述最优标签序列中每个医疗实体特征向量对应的词性,得到最优词性序列,并将所述最优标签序列及所述最优词性序列确定为实体识...

【专利技术属性】
技术研发人员:许坷坷
申请(专利权)人:平安医疗健康管理股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1