一种中文诊疗信息的自然语言处理方法及系统技术方案

技术编号:12482318 阅读:95 留言:0更新日期:2015-12-10 19:22
本发明专利技术的实施方式提供了一种中文诊疗信息的自然语言处理方法及系统。该方法包括:输入中文诊疗信息字符串并进行预处理;基于预先建立的本体词典、诊疗方位词典、诊疗等级词典,将中文诊疗信息字符串切分成能够与本体词典中的本体直接匹配的第一类型子字符串和不能够与本体直接匹配第二类型子字符串;对第二类型子字符串进行预设维度的解析,根据解析结果查找第二类型子字符串相匹配的本体,或查找与第二类型子字符串达到预设匹配条件的本体;输出第一类型子字符串和第二类型子字符串相匹配的本体。本发明专利技术提升了中文诊疗信息的识别成功率,为有效利用中文诊疗信息、结算诊疗项目费用提供了便利。

【技术实现步骤摘要】

本专利技术的实施方式涉及医疗信息化领域,更具体地,本专利技术的实施方式涉及一种 中文诊疗信息的自然语言处理方法及系统
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的 描述不因为包括在本部分中就承认是现有技术。 随着信息技术的快速发展,我国越来越多的医院正加速建设医疗信息化平台,以 提高医院的服务水平与核心竞争力。医疗信息化平台的使用有助于提升医生的工作效率, 给患者提供很好的体验,为提高医疗服务质量提供很大帮助。 依托医疗信息化平台,医疗从业人员可在计算机中直接输入为治疗疾病所需的诊 疗项目等诊疗信息,为共享诊疗信息和查阅诊疗信息提供了极大方便。
技术实现思路
实际临床作业中每天会进行大量的诊疗项目,医疗从业人员会将这些诊疗项目以 中文诊疗信息的形式输入医疗信息化平台中,研究和利用中文诊疗信息对于医疗信息化发 展具有非常重要的意义。由于每天都会有海量的中文诊疗信息输入,仅靠人工力量识别这 些信息然后再进行研究和利用几乎是不可能的,必须借助计算机对其识别和利用。 但是由于输入的中文诊疗信息属于自然语言,格式复杂多样,没有统一的标准,例 如,采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准 术语、文字中夹杂符号等杂乱信息等等,就使得计算机识别中文诊疗信息具有相当大的难 度。 为了提高计算机对中文诊疗信息的识别成功率,非常需要一种中文诊疗信息的自 然语言处理方法,以便识别和利用输入至医疗信息化平台中的中文诊疗信息。 在本上下文中,本专利技术的实施方式期望提供一种中文诊疗信息的自然语言处理方 法及系统。 在本专利技术实施方式的第一方面中,提供了一种中文诊疗信息的自然语言处理方 法,包括: 步骤1,输入中文诊疗信息字符串; 步骤2,对所述中文诊疗信息字符串进行预处理,得到预处理后的中文诊疗信息字 符串; 步骤3,基于预先建立的本体词典、诊疗方位词典、诊疗等级词典,将所述预处理后 的中文诊疗信息字符串切分成若干第一类型子字符串和第二类型子字符串; 其中,所述第一类型子字符串和所述第二类型子字符串所表示的诊疗项目信息不 受其在所述中文诊疗信息字符串中所在位置之前或之后的字符影响,且所述第一类型子字 符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词 典中的本体直接匹配; 所述本体词典包括若干本体,所述本体为标准诊疗术语或扩充诊疗术语;所述标 准术语为全国医疗服务价格项目规范中规定的项目名称或国际疾病分类ICD中规定的手 术操作名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词 语; 所述诊疗方位词典包括若干诊疗方位术语,所述诊疗方位术语是用于描述诊疗项 目所针对的方位的词语; 所述诊疗等级词典包括若干诊疗等级术语,所述诊疗等级术语是用于描述诊疗项 目的级别、类型的词语; 步骤4,对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的 解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果; 并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行 匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预 设匹配条件的一个或多个本体; 步骤5,输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符 串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。 在本专利技术实施方式的第二方面中,提供了一种中文诊疗信息的自然语言处理系 统,包括: 词典数据库,用于提供本体词典、诊疗方位词典和诊疗等级词典;其中, 所述本体词典包括若干本体,所述本体为标准诊疗术语或扩充诊疗术语;所述标 准术语为全国医疗服务价格项目规范中规定的项目名称或国际疾病分类ICD中规定的手 术操作名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词 语; 所述诊疗方位词典包括若干诊疗方位术语,所述诊疗方位术语是用于描述诊疗项 目所针对的方位的词语; 所述诊疗等级词典包括若干诊疗等级术语,所述诊疗等级术语是用于描述诊疗项 目的级别、类型的词语; 输入模块,用于输入中文诊疗信息字符串; 预处理模块,用于对所述中文诊疗信息字符串进行预处理,得到预处理后的中文 诊疗信息字符串; 切分模块,用于基于预先建立的本体词典、诊疗方位词典、诊疗等级词典,将所述 预处理后的中文诊疗信息字符串切分成若干第一类型子字符串和第二类型子字符串;其 中, 所述第一类型子字符串和所述第二类型子字符串所表示的诊疗项目信息不受其 在所述中文诊疗信息字符串中所在位置之前或之后的字符影响,且所述第一类型子字符串 能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中 的本体直接匹配; 匹配模块,用于对所述第二类型子字符串和所述本体词典中的每个本体进行预设 维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解 析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结 果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串 达到预设匹配条件的一个或多个本体; 输出模块,用于输出所述第一类型子字符串相匹配的本体,以及输出所述第二类 型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本 体。 借助于上述技术方案,本专利技术充分考虑了医疗从业人员输入的中文诊疗信息字符 串属于自然语言、格式复杂多样、没有统一标准等特点,利用预先建立的多种词典对中文诊 疗信息字符串进行切分和匹配,以此将中文诊疗信息字符串识别成为符合医疗领域通用标 准的术语。本专利技术在对中文诊疗信息字符串切分之后,将能够与本体直接匹配的第一类型 子字符串直接作为最终的识别结果,而对于不能够与本体直接匹配的第二类型子字符串, 则通过解析查找与其相匹配或达到预设匹配条件的一个或多个本体作为最终输出的结果, 即,本专利技术对中文诊疗信息字符串进行自然语言处理之后所输出的结果均为符合医疗领域 通用标准的术语。本专利技术克服了现有技术无法顺利实现对中文诊疗信息进行自然与演化处 理的问题,提升了中文诊疗信息的识别成功率,为有效利用中文诊疗信息、结算诊疗项目费 用提供了便利。【附图说明】 通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目 的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若 干实施方式,其中: 图1示意性地示出了根据本专利技术实施方式的应用场景; 图2示意性地示出了本专利技术示例性的中文诊疗信息的自然语言处理方法流程图; 图3示意性地示出了本专利技术示例性方法中切分中文诊疗信息的流程图; 图4示意性地示出了本专利技术示例性方法中查找第二类型子字符串相匹配的本体 的流程图; 图5示意性地示出了本专利技术示例性的中文诊疗信息的自然语言处理系统模块框 图。 在附图中,相同或对应的标号表不相同或对应的部分。【具体实施方式】 下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这 些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何 方式限本文档来自技高网...
一种中文诊疗信息的自然语言处理方法及系统

【技术保护点】
一种中文诊疗信息的自然语言处理方法,包括:步骤1,输入中文诊疗信息字符串;步骤2,对所述中文诊疗信息字符串进行预处理,得到预处理后的中文诊疗信息字符串;步骤3,基于预先建立的本体词典、诊疗方位词典、诊疗等级词典,将所述预处理后的中文诊疗信息字符串切分成若干第一类型子字符串和第二类型子字符串;其中,所述第一类型子字符串和所述第二类型子字符串所表示的诊疗项目信息不受其在所述中文诊疗信息字符串中所在位置之前或之后的字符影响,且所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;所述本体词典包括若干本体,所述本体为标准诊疗术语或扩充诊疗术语;所述标准术语为全国医疗服务价格项目规范中规定的项目名称或国际疾病分类ICD中规定的手术操作名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;所述诊疗方位词典包括若干诊疗方位术语,所述诊疗方位术语是用于描述诊疗项目所针对的方位的词语;所述诊疗等级词典包括若干诊疗等级术语,所述诊疗等级术语是用于描述诊疗项目的级别、类型的词语;步骤4,对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体;步骤5,输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈志永朱华玲黄玉丽
申请(专利权)人:易保互联医疗信息科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1