一种中文疾病诊断信息的自然语言处理方法及系统技术方案

技术编号:12405234 阅读:131 留言:0更新日期:2015-11-28 19:46
本发明专利技术的实施方式提供了一种中文疾病诊断信息的自然语言处理方法及系统。该方法包括:参照预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典,将中文疾病诊断信息切分成具有独立语义的第一类型子字符串和第二类型子字符串;其中,第一类型子字符串能够与本体词典中的本体直接匹配,第二类型子字符串不能够与本体直接匹配;对第二类型子字符串进行预设维度的解析,根据解析结果查找第二类型子字符串相匹配的本体,或查找与第二类型子字符串达到预设匹配条件的本体;输出第一类型子字符串和第二类型子字符串相匹配的本体。本发明专利技术的方法提升了中文疾病诊断信息的识别成功率,为有效利用中文疾病诊断信息提供了便利。

【技术实现步骤摘要】

本专利技术的实施方式涉及医疗信息化领域,更具体地,本专利技术的实施方式涉及一种 中文疾病诊断信息的自然语言处理方法及系统
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的 描述不因为包括在本部分中就承认是现有技术。 随着信息技术的快速发展,我国越来越多的医院正加速建设医疗信息化平台,以 提高医院的服务水平与核心竞争力。医疗信息化平台的使用有助于提升医生的工作效率, 给患者提供很好的体验,为提高医疗服务质量提供很大帮助。 依托医疗信息化平台,医疗从业人员可在计算机中直接输入疾病诊断结果等医疗 信息,为共享医疗信息和查阅医疗信息提供了极大方便。
技术实现思路
实际临床作业中每天会产生大量的病案信息,医疗从业人员会将这些病案信息以 中文疾病诊断信息的形式输入医疗信息化平台中,研究和利用中文疾病诊断信息对于医疗 信息化发展具有非常重要的意义。由于每天都会有海量的中文疾病诊断信息输入,仅靠人 工力量识别这些信息然后再进行研究和利用几乎是不可能的,必须借助计算机对其识别和 利用。 但是由于输入的中文疾病诊断信息属于自然语言,格式复杂多样,没有统一的标 准,例如,采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替 标准术语、文字中夹杂符号等杂乱信息等等,就使得计算机识别中文疾病诊断信息具有相 当大的难度。 为了提高计算机对中文疾病诊断信息的识别成功率,非常需要一种中文疾病诊断 信息的自然语言处理方法,以便识别和利用输入至医疗信息化平台中的中文疾病诊断信 息。 在本上下文中,本专利技术的实施方式期望提供一种中文疾病诊断信息的自然语言处 理方法及系统。 在本专利技术实施方式的第一方面中,提供了一种中文疾病诊断信息的自然语言处理 方法,包括: 步骤1,输入中文疾病诊断信息字符串; 步骤2,对所述中文疾病诊断信息字符串进行预处理,得到预处理后的中文疾病诊 断信息字符串; 步骤3,基于预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病部 位术语词典,将所述预处理后的中文疾病诊断信息字符串切分成若干第一类型子字符串和 第二类型子字符串; 其中,所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二 类型子字符串不能够与所述本体词典中的本体直接匹配; 所述本体词典包括若干本体,所述本体为标准术语或扩充术语;所述国际疾病分 类ICD版本中规定的疾病名称;所述扩充术语为与所述标准术语具有同义关系的词语或具 有属种关系的词语; 所述疾病程度术语词典包括若干疾病程度术语,所述疾病程度术语是用于描述疾 病急慢性程度或疾病严重程度或病理类型或临床分期的词语; 所述疾病并发术语词典包括若干疾病并发术语,所述疾病并发术语是用于描述至 少两种疾病并发出现的词语; 所述发病部位术语词典包括若干发病部位术语,所述发病部位术语是用于描述疾 病发病部位的词语; 步骤4,对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的 解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果; 并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行 匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预 设匹配条件的一个或多个本体; 步骤5,输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符 串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。 在本专利技术实施方式的第二方面中,提供了一种中文疾病诊断信息的自然语言处理 系统,包括: 词典数据库,用于提供本体词典、疾病程度术语词典、疾病并发术语词典和发病部 位术语词典;其中, 所述本体词典包括若干本体,所述本体为标准术语或扩充术语;所述国际疾病分 类ICD版本中规定的疾病名称;所述扩充术语为与所述标准术语具有同义关系的词语或具 有属种关系的词语; 所述疾病程度术语词典包括若干疾病程度术语,所述疾病程度术语是用于描述疾 病急慢性程度或疾病严重程度或病理类型或临床分期的词语; 所述疾病并发术语词典包括若干疾病并发术语,所述疾病并发术语是用于描述至 少两种疾病并发出现的词语; 所述发病部位术语词典包括若干发病部位术语,所述发病部位术语是用于描述疾 病发病部位的词语; 输入模块,用于输入中文疾病诊断信息字符串; 预处理模块,用于对所述中文疾病诊断信息字符串进行预处理,得到预处理后的 中文疾病诊断信息字符串; 切分模块,用于基于所述本体词典、疾病程度术语词典、疾病并发术语词典、发病 部位术语词典,将所述预处理后的中文疾病诊断信息字符串切分成第一类型子字符串和第 二类型子字符串;其中, 所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子 字符串不能够与所述本体词典中的本体直接匹配; 匹配模块,用于对所述第二类型子字符串和所述本体词典中的每个本体进行预设 维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解 析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结 果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串 达到预设匹配条件的一个或多个本体; 输出模块,用于输出所述第一类型子字符串相匹配的本体,以及输出所述第二类 型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本 体。 本专利技术实施方式提供的中文疾病诊断信息的自然语言处理方法及系统,充分考虑 了医疗从业人员输入的中文疾病诊断信息字符串属于自然语言、格式复杂多样、没有统一 标准等特点,利用预先建立的多种词典对中文疾病诊断信息字符串进行切分和匹配,以此 将中文疾病诊断信息字符串识别成为符合医疗领域通用标准的术语。本专利技术在对中文疾病 诊断信息字符串切分之后,将能够与本体直接匹配的第一类型子字符串直接作为最终的识 别结果,而对于不能够与本体直接匹配的第二类型子字符串,则通过解析查找与其相匹配 或达到预设匹配条件的一个或多个本体作为最终输出的结果,即,本专利技术对中文疾病诊断 信息字符串进行自然语言处理之后所输出的结果均为符合医疗领域通用标准的术语。本发 明克服了现有技术无法顺利实现对中文疾病诊断信息进行自然与演化处理的问题,提升了 中文疾病诊断信息的识别成功率,为有效利用中文疾病诊断信息提供了便利。【附图说明】 通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目 的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若 干实施方式,其中: 图1示意性地示出了本专利技术实施方式的应用场景; 图2示意性地示出了本专利技术示例性的中文疾病诊断信息的自然语言处理方法流 程图; 图3示意性地示出了本专利技术示例性方法中切分中文疾病诊断信息的流程图; 图4示意性地示出了本专利技术示例性方法中查找第二类型子字符串相匹配的本体 的流程图; 图5示意性地示出了本专利技术示例性的中文疾病诊断信息的自然语言处理系统模 块框图。 在附图中,相同或对应的标号表不相同或对应的部分。【具体实施方式】 下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这 些实施方式本文档来自技高网...
一种中文疾病诊断信息的自然语言处理方法及系统

【技术保护点】
一种中文疾病诊断信息的自然语言处理方法,包括:步骤1,输入中文疾病诊断信息字符串;步骤2,对所述中文疾病诊断信息字符串进行预处理,得到预处理后的中文疾病诊断信息字符串;步骤3,基于预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典,将所述预处理后的中文疾病诊断信息字符串切分成若干第一类型子字符串和第二类型子字符串;其中,所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;所述本体词典包括若干本体,所述本体为标准术语或扩充术语;所述标准术语为国际疾病分类ICD版本中规定的疾病名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;所述疾病程度术语词典包括若干疾病程度术语,所述疾病程度术语是用于描述疾病急慢性程度或疾病严重程度或病理类型或临床分期的词语;所述疾病并发术语词典包括若干疾病并发术语,所述疾病并发术语是用于描述至少两种疾病并发出现的词语;所述发病部位术语词典包括若干发病部位术语,所述发病部位术语是用于描述疾病发病部位的词语;步骤4,对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体;步骤5,输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈志永朱华玲黄玉丽
申请(专利权)人:易保互联医疗信息科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1