一种实现诊断信息标准化的算法处理系统技术方案

技术编号:38527342 阅读:9 留言:0更新日期:2023-08-19 17:03
本发明专利技术涉及一种实现诊断信息标准化的算法处理系统,属于医疗系统领域,包括:一套表组:用于管理国家诊断标准中诊断标准与诊断术语,以及单字、英文、近义词之间的相互关系;精准对比模块:对诊断描述和诊断标准进行比对;元素替换精确对比模块:对诊断原始描述进行去标点和拼音化两种转换,将诊断国家标准的构成术语进行各类替换,用诊断描述的两种替换内容和诊断标准的各类替换内容,进行比对;相似度计算模块:对诊断原始描述、诊断国家标准同时进行拼音化和去标点符号化转写后进行相似度计算。计算。计算。

【技术实现步骤摘要】
一种实现诊断信息标准化的算法处理系统


[0001]本专利技术属于医疗系统领域,涉及一种实现诊断信息标准化的算法处理系统。

技术介绍

[0002]在医疗机构的临床服务中,医生会因多种情况(急诊/国标未找到等),对患者的疾病或状态进行自由化的书写。诊断内容可能因错别字,词序,医生书写习惯等,造成其他医务工作者,对文本内容产生二义性或无法理解,对后续的治疗方案或药品配置方案造成明显干扰,影响医疗服务效率效果。
[0003]医疗机构的生产系统中已经存在大量非标准诊断内容,同时对医疗工作者做诊断内容的培训也因需记忆内容多且复杂,存在困难。
[0004]所以,通过技术手段进行事后弥补和事中提示,是业务系统的实际需求。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种实现诊断信息标准化的算法处理系统。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]一种实现诊断信息标准化的算法处理系统,包括:
[0008]一套表组:用于管理国家诊断标准中诊断标准与诊断术语,以及单字、英文、近义词之间的相互关系;
[0009]精准对比模块:对诊断描述和诊断标准进行比对;
[0010]元素替换精确对比模块:对诊断原始描述进行去标点和拼音化两种转换,将诊断国家标准的构成术语进行各类替换,用诊断描述的两种替换内容和诊断标准的各类替换内容,进行比对;
[0011]相似度计算模块:对诊断原始描述、诊断国家标准同时进行拼音化和去标点符号化转写后进行相似度计算。
[0012]进一步,所述表组包括:
[0013]诊断描述——诊断标准的黑白名单表:记录机构中,需强制进行描述和标准对照的记录存在白名单表。一些已存在或者预判会出现的无价值诊断描述存在黑名单表。
[0014]汉字—拼音对照表:存储中文汉字和拼音的对照关系;
[0015]诊断标准—诊断术语映射表:管理诊断描述和诊断术语的一对多关系的表;
[0016]诊断标准—拼音名称映射表:对标点符号进行空格替换后,标准的中文和拼英文的对照关系;
[0017]诊断术语—诊断英文名映射表:存在英文标准名称的中文诊断术语,和英文名的对照关系表;
[0018]诊断术语—同义词映射表:管理组成诊断描述的诊断术语,和同义词的一对多关系的表。
[0019]进一步,所述相似度计算模块的相似度计算包括:
[0020]基于诊断原始描述中每个字的拼音在诊断国家标准的拼音字符串中是否存在进行查找,初筛可能的诊断国家标准范围;
[0021]完成诊断国家标准基于组成术语的英文、同义词的拼音的列表扩大,形成第二轮的可能的诊断国家标准范围;
[0022]基于jaro

winkler相似度算法,计算诊断原始描述的拼音串和上一步诊断国家标准扩大的拼音串、英文替换拼音串的相似度对比;将各种匹配结果中可能性最大的一对,作为结果返回。
[0023]进一步,所述系统的工作流程如下:
[0024]S1:诊断原始描述,进入黑白名单表,精确匹配表组中的记录,如果存在于白名单,则传入诊断原始描述,返回对应于白名单表中的诊断标准描述;如果存在于黑名单,则返回空,表示诊断原始描述为非法内容;
[0025]S2:如果步骤S1的诊断原始描述不存在于黑白名单表中,则在原始诊断描述中基于底层支持表组增加以下内容:不含标点符号的中文字符串和不含标点符号的拼音字符串作为查询源,和诊断国家标准的全中文字符串、去标点中文字符串,全拼音去标点符号字符串进行精确比较,返回匹配到的诊断国家标准作为结果;
[0026]S3:如果步骤S2的诊断原始描述及扩展项不能找到诊断国家标准及其扩展项的对应记录,则将原始诊断描述及其扩展项作为输入,通过底层支持表组按近义词、英文术语临时扩展国家诊断标准的结果集;通过精确比较,返回匹配到的诊断国家标准作为结果;
[0027]S4:如果步骤S3的诊断原始描述及扩展项不能找到诊断国家标准及其扩展项的对应记录,则将步骤S3的拼音化的原始诊断描述作为输入;同时将步骤S3中的拼音化的诊断国家标准组作为输入;把诊断国家标准集合用代码处理,排除掉拼音字符串不包含原始诊断描述任何字符的拼音的诊断国家标准;然后通过jaro

winkler算法,对拼音化的诊断原始描述和剩下的拼音化的诊断国家标准组做相似度比较;将相似度最高的诊断国家标准的标准代码和名称,作为结果返回。
[0028]本专利技术的有益效果在于:本专利技术用于对自由化书写的医疗诊断信息,进行标准化处理,实现诊断信息的统一,帮助组织内所有医疗人员,准确理解患者的疾病信息,避免错误制定治疗方案。本专利技术基于国家疾病分类与代码,将接收的医疗诊断信息先后执行黑白名单判定,内容精确对比(文本精确对比,无标点精确对比,拼音化精确比对),同义词/诊断名英文标准缩写的替换后比对(文本精确对比,无标点精确对比,拼音化精确比对,英文标准缩写),相似度计算(首先通过术语拼音化后单字出现与否(术语/同义词/英文标准缩写存在)筛选潜在的国家标准诊断条例数,再通过Jaro

Winkler相似度算法,获取诊断内容,相对于前一步潜在国家标准诊断集中记录的相似概率)。从以上算法结果中,获取概率最大的结果返回,实现诊断信息的标准化内容返回。
[0029]本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0030]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作优选的详细描述,其中:
[0031]图1为一种实现诊断信息标准化的算法处理系统处理流程图;
[0032]图2为系统流程步骤S2的具体流程图;
[0033]图3为系统流程步骤S3的具体流程图;
[0034]图4为系统流程步骤S4的具体流程图。
具体实施方式
[0035]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0036]其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利技术的限制;为了更好地说明本专利技术的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0037]本专利技术实施例的附图中相同或相似的标号对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现诊断信息标准化的算法处理系统,其特征在于:包括:一套表组:用于管理国家诊断标准中诊断标准与诊断术语,以及单字、英文、近义词之间的相互关系;精准对比模块:对诊断描述和诊断标准进行比对;元素替换精确对比模块:对诊断原始描述进行去标点和拼音化两种转换,将诊断国家标准的构成术语进行各类替换,用诊断描述的两种替换内容和诊断标准的各类替换内容,进行比对;相似度计算模块:对诊断原始描述、诊断国家标准同时进行拼音化和去标点符号化转写后进行相似度计算。2.根据权利要求1所述的实现诊断信息标准化的算法处理系统,其特征在于:所述表组包括:诊断描述——诊断标准的黑白名单表:记录机构中,需强制进行描述和标准对照的记录存在白名单表,已存在或者预判会出现的无价值诊断描述存在黑名单表;汉字—拼音对照表:存储中文汉字和拼音的对照关系;诊断标准—诊断术语映射表:管理诊断描述和诊断术语的一对多关系的表;诊断标准—拼音名称映射表:对标点符号进行空格替换后,标准的中文和拼英文的对照关系;诊断术语—诊断英文名映射表:存在英文标准名称的中文诊断术语,和英文名的对照关系表;诊断术语—同义词映射表:管理组成诊断描述的诊断术语,和同义词的一对多关系的表。3.根据权利要求1所述的实现诊断信息标准化的算法处理系统,其特征在于:所述相似度计算模块的相似度计算包括:基于诊断原始描述中每个字的拼音在诊断国家标准的拼音字符串中是否存在进行查找,初筛可能的诊断国家标准范围;完成诊断国家标准基于组成术语的英文、同义词的拼音的列表扩大,形成第二轮的可能的诊断国家标准范围;基于jaro

winkler相似度算法,计算诊...

【专利技术属性】
技术研发人员:李翀舒金才陈金雄尚华
申请(专利权)人:北京高灵智腾信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1