当前位置: 首页 > 专利查询>清华大学专利>正文

疾病自动编码系统、方法、设备和存储介质技术方案

技术编号:21574374 阅读:27 留言:0更新日期:2019-07-10 16:10
本申请提供了一种疾病自动编码系统、方法、设备和存储介质,其中,方法包括:获取目标对象,目标对象为待编码疾病名称或疾病描述;从疾病编码库中筛选出与目标对象相关的编码,由筛选出的编码组成候选编码集;基于候选编码集中各个编码对应的疾病名称与目标对象的语义关系,从候选编码集中确定目标对象对应的编码。本申请提供的疾病自动编码方法能够自动、准确、高效地从疾病编码库中确定出待编码疾病名称或疾病描述对应的编码。

Disease Automatic Coding System, Method, Equipment and Storage Medium

【技术实现步骤摘要】
疾病自动编码系统、方法、设备和存储介质
本申请涉及医学数据编码
,尤其涉及一种疾病自动编码系统、方法、设备和存储介质。
技术介绍
国际疾病分类(internationalclassificationofdisease,ICD)作为疾病和有关健康问题的国际统计分类标准,是卫生信息标准体系的重要组成部分。目前,ICD有43种不同语言的译本,全世界使用ICD的国家有117个,ICD广泛应用于医疗机构、医疗保险、人口管理等部门及病人信息收集与统计分析,全球约70%的卫生费用支出依据ICD进行医疗支付和卫生资源配置。为了便于对疾病数据进行存储、检索和分析,需要按照ICD编码规则,将临床诊断中的疾病名称或者疾病描述转换为编码,将疾病名称或者疾病描述转换为编码的过程即为疾病编码,疾病编码的本质在于从疾病编码库中确定出与疾病名称或者疾病描述对应的编码。目前的疾病编码方式多为人工编码方式,即由编码人员根据疾病名称或者疾病描述从疾病编码库中确定与疾病名称或者疾病描述对应的编码。然而,人工编码方式主观性较强,会影响编码准确性,且人工编码方式费时费力,即人工成本和时间成本较高。
技术实现思路
有鉴于此,本申请提供了一种疾病自动编码系统、方法、设备和存储介质,用以解决现有技术中的人工编码方式主观性较强,会影响编码准确性,且人工编码方式费时费力,导致人工成本和时间成本较高的问题,其技术方案如下:一种疾病自动编码方法,包括:获取目标对象,所述目标对象为疾病名称或疾病描述;从疾病编码库中筛选出与所述目标对象相关的编码,由筛选出的编码组成候选编码集;基于所述候选编码集中各个候选编码对应的疾病名称与所述目标对象的语义关系,从所述候选编码集中确定所述目标对象对应的编码。可选的,所述从疾病编码库中筛选出与所述目标对象相关的编码,包括:基于所述目标对象和所述疾病编码库中各类编码对应的疾病名称,确定所述目标对象对于各类编码的目标文本统计特征,其中,所述目标对象对于任一类编码的目标文本统计特征用于表征该类编码与所述目标对象的相关程度;基于所述目标对象对于各类编码的目标文本统计特征,从所述疾病编码库中筛选出与所述目标对象相关的编码。可选的,所述基于所述目标对象和所述疾病编码库中各类编码对应的疾病名称,确定所述目标对象对于各类编码的目标文本统计特征,包括:将所述疾病编码库中的编码进行分类,获得多个编码集,每个编码集对应一个编码类别;基于所述目标对象和每个编码集对应的疾病名称,确定所述目标对象对于每个编码集的第一文本统计特征、和/或第二文本统计特征、和/或第三文本统计特征、和/或第四文本统计特征;其中,任一编码集对应的疾病名称包括该编码集中各个编码对应的疾病名称,所述目标对象对于任一编码集的第一文本统计特征、第二文本统计特征、第三文本统计特征、第四文本统计特征分别用于表征所述目标对象中的各个词出现在该编码集对应的疾病名称中的频度、所述目标对象中的各个词出现在该编码集对应的疾病名称组成的文档中的词频-逆文档频度、所述目标对象与该编码集对应的疾病名称的文本相似度、所述目标对象与该编码集对应的疾病名称中的关键词和修饰词的匹配程度;基于所述目标对象对于每个编码集的第一文本统计特征、和/或第二文本统计特征、和/或第三文本统计特征、和/或第四文本统计特征,确定所述目标对象对于各类编码的目标文本统计特征。可选的,对于任一编码集,基于所述目标对象和该编码集对应的疾病名称,确定所述目标对象对于该编码集的第一文本统计特征,包括:获取第一词集中每个词的权重,其中,所述第一词集通过对第二词集进行去重处理得到,所述第二词集为对该编码集对应的疾病名称进行分词处理后得到的词组成的集合,所述第一词集中每个词的权重通过所述第一词集中每个词在所述第二词集中出现的次数确定;获取目标词集,并基于所述第一词集中每个词的权重确定所述目标词集中每个词的权重,其中,所述目标词集为对所述目标对象进行分词处理后得到的词组成的集合;通过所述目标词集中每个词的权重,确定所述目标对象对于该编码集的第一文本统计特征。可选的,对于任一编码集,基于所述目标对象和该编码集对应的疾病名称,确定所述目标对象对于该编码集的第二文本统计特征,包括:获取该编码集对应的疾病文档,该编码集对应的疾病文档由该编码集对应的疾病名称组成;获取目标词集,并确定所述目标词集中的各个词出现在该编码集对应的疾病文档的词频-逆文档频度,其中,所述目标词集为对所述目标对象进行分词处理后得到的词组成的集合;通过所述目标词集中的各个词出现在该编码集对应的疾病文档的词频-逆文档频度,确定所述目标对象对于该编码集的第二文本统计特征。可选的,对于任一编码集,基于所述目标对象和该编码集对应的疾病名称,确定所述目标对象对于该编码集的第三文本统计特征,包括:分别计算所述目标对象与该编码集对应的疾病名称的编辑距离;通过所述目标对象与该编码集对应的疾病名称的编辑距离,确定所述目标对象对于该编码集的第三文本统计特征。可选的,对于任一编码集,基于所述目标对象和该编码集对应的疾病名称,确定所述目标对象对于该编码集的第四文本统计特征,包括:获取该编码集对应的属性图,其中,所述属性图包括主导词和属性词,所述主导词为该编码集对应的疾病名称中的关键词,所述属性词为所述主导词的修饰词;将所述目标对象与该编码集对应的属性图中的主导词和属性词进行匹配;基于所述目标对象与该编码集对应的属性图的匹配情况,确定所述目标对象对于该编码集的第四文本统计特征。可选的,所述基于所述候选编码集中各个候选编码对应的疾病名称与所述目标对象的语义关系,从所述候选编码集中确定所述目标对象对应的编码,包括:基于所述各个候选编码对应的疾病名称与所述目标对象的语义相似信息,确定所述各个候选编码对应的疾病名称的语义向量;基于所述各个候选编码对应的疾病名称的语义向量,从所述候选编码集中确定所述目标对象对应的编码。可选的,所述基于所述各个候选编码对应的疾病名称与所述目标对象的语义相似信息,确定所述各个候选编码对应的疾病名称的语义向量,包括:对于任一候选编码:基于该候选编码对应的疾病名称中每个字符与所述目标对象中各个字符的语义相似度,确定该候选编码对应的疾病名称中每个字符的语义权重;基于该候选编码对应的疾病名称中每个字符的语义向量和语义权重,确定该编码对应的疾病名称的语义向量;以得到所述各个候选编码对应的疾病名称的语义向量。可选的,所述基于该候选编码对应的疾病名称中每个字符与所述目标对象中各个字符的语义相似度,确定该候选编码对应的疾病名称中每个字符的语义权重,包括:确定该候选编码对应的疾病名称中每个字符的语义向量以及所述目标对象中每个字符的语义向量;对于该候选编码对应的疾病名称中的任一字符,分别计算该字符的语义向量与所述目标对象的各个字符的语义向量的相似度,将计算得到的多个相似度中的最大相似度作为该字符的语义权重,以得到该编码对应的疾病名称中每个字符的语义权重。可选的,所述基于所述各个候选编码对应的疾病名称的语义向量,从所述候选编码集中确定所述目标对象对应的编码,包括:通过所述各个候选编码对应的疾病名称的语义向量,确定所述各个候选编码的得分,其中,任一候选编码的得分能够表征该候选编码对应的疾病名称与所述目标对本文档来自技高网...

【技术保护点】
1.一种疾病自动编码方法,其特征在于,包括:获取目标对象,所述目标对象为疾病名称或疾病描述;从疾病编码库中筛选出与所述目标对象相关的编码,由筛选出的编码组成候选编码集;基于所述候选编码集中各个候选编码对应的疾病名称与所述目标对象的语义关系,从所述候选编码集中确定所述目标对象对应的编码。

【技术特征摘要】
1.一种疾病自动编码方法,其特征在于,包括:获取目标对象,所述目标对象为疾病名称或疾病描述;从疾病编码库中筛选出与所述目标对象相关的编码,由筛选出的编码组成候选编码集;基于所述候选编码集中各个候选编码对应的疾病名称与所述目标对象的语义关系,从所述候选编码集中确定所述目标对象对应的编码。2.根据权利要求1所述的疾病自动编码方法,其特征在于,所述从疾病编码库中筛选出与所述目标对象相关的编码,包括:基于所述目标对象和所述疾病编码库中各类编码对应的疾病名称,确定所述目标对象对于各类编码的目标文本统计特征,其中,所述目标对象对于任一类编码的目标文本统计特征用于表征该类编码与所述目标对象的相关程度;基于所述目标对象对于各类编码的目标文本统计特征,从所述疾病编码库中筛选出与所述目标对象相关的编码。3.根据权利要求2所述的疾病自动编码方法,其特征在于,所述基于所述目标对象和所述疾病编码库中各类编码对应的疾病名称,确定所述目标对象对于各类编码的目标文本统计特征,包括:将所述疾病编码库中的编码进行分类,获得多个编码集,每个编码集对应一个编码类别;基于所述目标对象和每个编码集对应的疾病名称,确定所述目标对象对于每个编码集的第一文本统计特征、和/或第二文本统计特征、和/或第三文本统计特征、和/或第四文本统计特征;其中,任一编码集对应的疾病名称包括该编码集中各个编码对应的疾病名称,所述目标对象对于任一编码集的第一文本统计特征、第二文本统计特征、第三文本统计特征、第四文本统计特征分别用于表征所述目标对象中的各个词出现在该编码集对应的疾病名称中的频度、所述目标对象中的各个词出现在该编码集对应的疾病名称组成的文档中的词频-逆文档频度、所述目标对象与该编码集对应的疾病名称的文本相似度、所述目标对象与该编码集对应的疾病名称中的关键词和修饰词的匹配程度;基于所述目标对象对于每个编码集的第一文本统计特征、和/或第二文本统计特征、和/或第三文本统计特征、和/或第四文本统计特征,确定所述目标对象对于各类编码的目标文本统计特征。4.根据权利要求3所述的疾病自动编码方法,其特征在于,对于任一编码集,基于所述目标对象和该编码集对应的疾病名称,确定所述目标对象对于该编码集的第一文本统计特征,包括:获取第一词集中每个词的权重,其中,所述第一词集通过对第二词集进行去重处理得到,所述第二词集为对该编码集对应的疾病名称进行分词处理后得到的词组成的集合,所述第一词集中每个词的权重通过所述第一词集中每个词在所述第二词集中出现的次数确定;获取目标词集,并基于所述第一词集中每个词的权重确定所述目标词集中每个词的权重,其中,所述目标词集为对所述目标对象进行分词处理后得到的词组成的集合;通过所述目标词集中每个词的权重,确定所述目标对象对于该编码集的第一文本统计特征。5.根据权利要求3所述的疾病自动编码方法,其特征在于,对于任一编码集,基于所述目标对象和该编码集对应的疾病名称,确定所述目标对象对于该编码集的第二文本统计特征,包括:获取该编码集对应的疾病文档,该编码集对应的疾病文档由该编码集对应的疾病名称组成;获取目标词集,并确定所述目标词集中的各个词出现在该编码集对应的疾病文档的词频-逆文档频度,其中,所述目标词集为对所述目标对象进行分词处理后得到的词组成的集合;通过所述目标词集中的各个词出现在该编码集对应的疾病文档的词频-逆文档频度,确定所述目标对象对于该编码集的第二文本统计特征。6.根据权利要求3所述的疾病自动编码方法,其特征在于,对于任一编码集,基于所述目标对象和该编码集对应的疾病名称,确定所述目标对象对于该编码集的第三文本统计特征,包括:分别计算所述目标对象与该编码集对应的疾病名称的编辑距离;通过所述目标对象与该编码集对应的疾病名称的编辑距离,确定所述目标对象对于该编码集的第三文本统计特征。7.根据权利要求3所述的疾病自动编码方法,其特征在于,对于任一编码集,基于所述目标对象和该编码集对应的疾病名称,确定所述目标对象对于该编码集的第四文本统计特征,包括:获取该编码集对应的属性图,其中,所述属性图包括主导词和属性词,所述主导词为该编码集对应的疾病名称中的关键词,所述属性词为所述主导词的修饰词;将所述目标对象与该编码集对应的属性图中的主导词和属性词进行匹配;基于所述目标对象与该编码集对应的属性图的匹配情况,确定所述目标对象对于该编码集的第四文本统计特征。8.根据权利要求1~7中任意一项所述的疾病自动编码方法,其特征在于,所述基于所述候选编码集中各个候选编码对应的疾病名称与所述目标对象的语义关系,从所述候选编码集中确定所述目标对象对应的编码,包括:基于所述各个候选编码对应的疾病名称与所述目标对象的语义相似信息,确定所述各个候选编码对应的疾病名称的语义向量;基于所述各个候选编码对应的疾病名称的语义向量,从所述候选编码集中确定所述目标对象对应的编码。9.根据权利要求8所述的疾病自动编码方法,其特征在于,所述基于所述各个候选编码对应的疾病名称与所述目标对象的语义相似信息,确定所述各个候选编码对应的疾病名称的语义向量,包括:对于任一候选编码:基于该候选编码对应的疾病名称中每个字符与所述目标对象中各个字符的语义相似度,确定该候选编码对应的疾病名称中每个字符的语义权重;基于该候选编码对应的疾病名称中每个字符的语义向量和语义权重,确定该编码对应的疾病名称的语义向量;以得到所述各个候选编码对应的疾病名称的语义向量。10.根据权利要求9所述的疾病自动编码方法,其特征在于,所述基于该候选编码对应的疾病名称中每个字符与所述目标对象中各个字符的语义相似度,确定该候选编码对应的疾病名称中每个字符的语义权重,包括:确定该候选编码对应的疾病名称中每个字符的语义向量以及所述目标对象中每个字符的语义向量;对于该候选编码对应的疾病名称中的任一字符,分别计算该字符的语义向量与所述目标对象的各个字符的语义向量的相似度,将计算得到的多个相似度中的最大相似度作为该字符的语义权重,以得到该编码对应的疾病名称中每个字符的语义权重。11.根据权利要求8所述的疾病自动编码方法,其特征在于,所述基于所述各个候选编码对应的疾病名称的语义向量,从所述候选编码集中确定所述目标对象对应的编码,包括:通过所述各个候选编码对应的疾病名称的语义向量,确定所述各个候选编码的得分,其中,任一候选编码的得分能够表征该候选编码对应的疾病名称与所述目标对象的语义相似程度;将得分最高的候选编码确定为所述目标对象对应的编码。12.一种疾病自动编码系统,其特征在于,包括:获取模块、编码粗筛模块、编码细筛模块;所述获取模块,用于获取目标对象,所述目标对象为疾病名称或疾病描述;所述编码粗筛模块,用于从疾病编码库中筛选出与所述目标对...

【专利技术属性】
技术研发人员:吴及周梦强刘喜恩吕萍
申请(专利权)人:清华大学科大讯飞股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1