疾病名称对码列表的生成方法、装置、设备及存储介质制造方法及图纸

技术编号：30831657 阅读：19 留言：0更新日期：2021-11-18 12:47

本发明专利技术涉及数字医疗领域，公开了疾病名称对码列表的生成方法、装置、设备及存储介质，用于利用改进的对码模型对待对码的疾病名称进行准确分词并对码，提高了对码模型对疾病名称的对码准确率和召回率。本发明专利技术方法包括：获取初始数据集，所述初始数据集包括多条需要进行对码的原始医疗语句；对所述初始数据集进行预处理，得到多个类别的医疗数据；调用预置的实体识别模型对于所述多个类别的医疗数据进行实体识别，得到疾病名称识别结果；调用预置的对码模型将所述疾病名称识别结果与预置的标准数据集进行对码，得到对码结果；基于所述对码结果生成对码列表，所述对码列表包括原始短语列、标准短语列和数据编码列。标准短语列和数据编码列。标准短语列和数据编码列。

全部详细技术资料下载

【技术实现步骤摘要】
疾病名称对码列表的生成方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能领域，尤其涉及一种疾病名称对码列表的生成方法、装置、设备及存储介质。

技术介绍

[0002]医学临床数据标准化是支持医联(共)体、区域内数据互通互认、医保异地结算等多种场景的基础能力。在制定统一的标准目录之前，不同省市、地区、医院在建立信息化系统的同时，对于诊疗、手术、疾病、药品等的编码及名称没有采用统一的标准，造成医疗信息不能全国通用。
[0003]目前，在进行医疗支付方式改革的过程中，也需要将历史数据的编码均统一化，否则，难以适应新时代医疗保障的要求，目前的疾病名称都是通过人为对码生成列表，效率低下。

技术实现思路

[0004]本专利技术提供了一种疾病名称对码列表的生成方法、装置、设备及存储介质，用于利用改进的对码模型对待对码的疾病名称进行准确分词并对码，提高了对码模型对疾病名称的对码准确率和召回率。
[0005]本专利技术实施例的第一方面提供一种疾病名称对码列表的生成方法，包括：获取初始数据集，所述初始数据集包括多条需要进行对码的原始医疗语句；对所述初始数据集进行预处理，得到多个类别的医疗数据；调用预置的对码模型中的识别神经网络对于所述多个类别的医疗数据进行实体识别，得到疾病名称识别结果；调用所述对码模型中的分布式全文检索引擎和孪生网络将所述疾病名称识别结果与预置的标准数据集进行对码，得到对码结果；基于所述对码结果生成对码列表，所述对码列表包括原始短语列、标准短语列和数据编码列。
[000...

【技术保护点】

【技术特征摘要】
1.一种疾病名称对码列表的生成方法，其特征在于，包括：获取初始数据集，所述初始数据集包括多条需要进行对码的原始医疗语句；对所述初始数据集进行预处理，得到多个类别的医疗数据；调用预置的对码模型中的识别神经网络对于所述多个类别的医疗数据进行实体识别，得到疾病名称识别结果；调用所述对码模型中的分布式全文检索引擎和孪生网络将所述疾病名称识别结果与预置的标准数据集进行对码，得到对码结果；基于所述对码结果生成对码列表，所述对码列表包括原始短语列、标准短语列和数据编码列。2.根据权利要求1所述的疾病名称对码列表的生成方法，其特征在于，所述对所述初始数据集进行预处理，得到多个类别的医疗数据，包括：对所述初始数据集进行格式调整和文本纠错，得到替换后的数据文本；筛选掉所述替换后的数据文本中的非医疗数据和重复数据，得到筛选后的数据；将筛选后的数据中缺失数据和异常数据进行补全、修改或删除操作，得到调整后的数据；将调整后的数据按照预置科室类别进行集成，得到多个类别的医疗数据。3.根据权利要求2所述的疾病名称对码列表的生成方法，其特征在于，所述将调整后的数据按照预置科室类别进行集成，得到多个类别的医疗数据，包括：获取预置科室类别中每个科室类别对应的关键词集合，得到多个科室关键词集合，每个科室关键词集合对应一个科室类别；将所述调整后的数据与所述多个科室关键词集合依次进行匹配，得到多个匹配结果对，所述匹配结果对包括已匹配的医疗语句和已匹配的科室类别；将所述调整后的数据按照每个匹配结果对中的已匹配的科室类别进行集成，得到多个类别的医疗数据，每个类别的医疗数据中包括属于此类别的多个医疗相关语句。4.根据权利要求1所述的疾病名称对码列表的生成方法，其特征在于，所述调用预置的对码模型中的识别神经网络对于所述多个类别的医疗数据进行实体识别，得到疾病名称识别结果，包括：将所述多个类别的医疗数据转换为多个字词向量序列；对所述多个字词向量序列进行标注，得到多个标注后的向量序列；从预置的对码模型中调用识别神经网络对所述多个标注后的向量序列进行实体识别，得到实体识别结果，所述实体识别结果包括多个医疗实体特征向量及每个医疗实体对应的词性；从所述实体识别结果的多个医疗实体特征向量中筛选出多个疾病名称，得到疾病名称识别结果，所述疾病名称识别结果中包括多个名词属性的疾病名称。5.根据权利要求4所述的疾病名称对码列表的生成方法，其特征在于，所述从预置的对码模型中调用识别神经网络对所述多个标注后的向量序列进行实体识别，得到实体识别结果，所述实体识别结果包括多个医疗实体特征向量及每个医疗实体对应的词性，包括：调用预置的对码模型中识别神经网络的BiLSTM层对所述多个标注后的序列进行特征提取，得到多个预测标签序列，其中，预测标签序列中的每个预测标签对应所述标注后的序
列中的每个单词；调用所述识别神经网络的CRF层对所述多个预测标签序列进行上下文语义约束调整，得到最优标签序列；确定所述最优标签序列中每个医疗实体特征向量对应的词性，得到最优词性序列，并将所述最优标签序列及所述最优词性序列确定为实体识...

【专利技术属性】
技术研发人员：许坷坷，
申请(专利权)人：平安医疗健康管理股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人