基于电子病历文本的中文临床术语处理方法、系统和介质技术方案

技术编号:37070259 阅读:16 留言:0更新日期:2023-03-29 19:47
本发明专利技术公开了一种基于电子病历文本的中文临床术语处理方法、系统和介质。本发明专利技术完成构建中西医临床文本描述的规范化术语初始架构,并在对构建的中西医临床文本数据库内的文本数据进行预处理时,通过规范化术语初始架构对预处理后的文本数据进行分类与定义,从而得到医学词典;接着整合中西医临床文本公共元数据和私有元数据,以此构建中西医描述规范化临床术语集的词表类体系;之后通过分类聚类体系对临床术语文本数据进行降维处理后得到新的中西医描述规范化临床术语集;最终在根据新的临床文本病例数据对新的中西医描述规范化临床术语集进行更新补充,得到新的中西医描述规范化临床术语集,从而可以提高临床数据的交互性、利用率和共享性。利用率和共享性。利用率和共享性。

【技术实现步骤摘要】
基于电子病历文本的中文临床术语处理方法、系统和介质


[0001]本专利技术涉及临床数据处理
,尤其是一种基于电子病历文本的中文临床术语处理方法、系统和介质。

技术介绍

[0002]在医学领域的临床实践过程中,存在数量庞大、结构复杂、种类繁多的医疗记录、诊疗操作、药物、医疗等术语数据。但是,不同地区的医疗体系和机构对于同一个医学词汇可能存在不同的分类方法,因此会存在一词多义、一义多词、词义不明等不规范的情况,导致临床工作中的医学数据存在交互差、利用率低、共享性弱等问题。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种基于电子病历文本的中文临床术语处理方法、系统和介质,能够提高临床数据的交互性、利用率和共享性。
[0004]一方面,本专利技术实施例提供了一种基于电子病历文本的中文临床术语处理方法,包括以下步骤:
[0005]构建中西医临床文本数据库;
[0006]构建中西医临床文本描述的规范化术语初始架构,所述规范化术语初始架构包括概念表、描述词表和关联关系表;
[0007]对所述中西医临床文本数据库内的文本数据进行预处理,并通过所述规范化术语初始架构对预处理后的所述文本数据进行分类与定义后,生成医学词典;
[0008]整合中西医临床文本公共元数据和私有元数据,构建中西医描述规范化临床术语集的词表类体系;
[0009]通过分类聚类体系对临床术语文本数据进行降维处理,得到新的中西医描述规范化临床术语集;
[0010]根据新的临床文本病例数据对新的中西医描述规范化临床术语集进行更新补充,得到可自动化迭代的新中西医描述规范化临床术语集。
[0011]在一些实施例中,所述构建中西医临床文本数据库,包括:
[0012]获取电子病历数据和中医临床文本数据,所述电子病历数据包括若干份常见病和重大疾病患者高质量EMRs数据;
[0013]对所述电子病历数据和所述中医临床文本数据进行语料标注;
[0014]根据语料标注后的所述电子病历数据和所述中医临床文本数据构建中西医临床文本数据库。
[0015]在一些实施例中,所述对所述电子病历数据和所述中医临床文本数据进行语料标注,包括:
[0016]对所述电子病历数据和所述中医临床文本数据的low

level任务和high

level任
务设置标注规范;所述low

level任务包括句子边界检测、字符串切分、分词、词性标注和浅层句法分析,所述high

level任务包括拼写或语法错误识别和纠正、命名实体识别、词义消歧、实体修饰信息识别、关系分类、时序信息抽取;
[0017]根据所述标注规范对所述电子病历数据和所述中医临床文本数据进行语料标注。
[0018]在一些实施例中,所述构建中西医临床文本描述的规范化术语初始架构,包括:
[0019]对中西医分别构建符合中文临床文本的顶级概念结构,并建设顶级概念结构的下级分类目,采用层级结构关系向下延伸扩展;
[0020]根据历史医学词典中的医学概念设置术语全称,对预设术语进行筛选和融合,通过查重和去重方式收集与临床相关的术语,并根据层级结构对临床相关的术语进行划分,得到中西医临床术语分类标准框架的描述词表;
[0021]对所述医学概念进行逻辑定义,以使两个不同所述医学概念之间存在医学知识支撑的层次关系;所述层次关系包括定义型属性和描述型属性。
[0022]在一些实施例中,所述通过所述规范化术语初始架构对预处理后的所述文本数据进行分类与定义后,生成医学词典,包括:
[0023]根据预设医学语言系统的语义类型,搭建医学词典中的概念、描述、关系的统一范畴;
[0024]基于所述统一范畴,通过语义网络构建预处理后的所述文本数据的语义关系,得到医学词典。
[0025]在一些实施例中,所述通过语义网络构建预处理后的所述文本数据的语义关系,包括:
[0026]对预处理后的所述文本数据分别进行自然语言解析和概念映射;
[0027]在完成概念映射后,通过语义网络构建所述文本数据进行语义关系。
[0028]在一些实施例中,所述根据新的临床文本病例数据对新的中西医描述规范化临床术语集进行更新补充,包括:
[0029]对新的临床文本病例数据进行去噪和语义标注;
[0030]将标注后的新的临床文本病例数据输入CRF模型,得到所述新的临床文本病例数据的BIO标签;
[0031]根据带有所述BIO标签的新的临床文本病例数据对新的中西医描述规范化临床术语集进行更新补充。
[0032]在一些实施例中,所述根据带有所述BIO标签的新的临床文本病例数据对新的中西医描述规范化临床术语集进行更新补充,包括:
[0033]根据相邻的B标签和I标签的组合从新的临床文本病例数据中确定待更新术语集;
[0034]将所述待更新术语集更新到新的中西医描述规范化临床术语集。
[0035]另一方面,本专利技术实施例提供了一种基于电子病历文本的中文临床术语处理系统,包括:
[0036]至少一个存储器,用于存储程序;
[0037]至少一个处理器,用于加载所述程序以执行前述的基于电子病历文本的中文临床术语处理方法。
[0038]另一方面,本专利技术实施例提供了一种存储介质,其中存储有计算机可执行的程序,
所述计算机可执行的程序被处理器执行时用于实现前述的基于电子病历文本的中文临床术语处理方法。
[0039]本专利技术实施例提供的一种基于电子病历文本的中文临床术语处理方法,具有如下有益效果:
[0040]本实施例完成构建中西医临床文本描述的规范化术语初始架构,并在对构建的中西医临床文本数据库内的文本数据进行预处理时,通过规范化术语初始架构对预处理后的文本数据进行分类与定义,从而得到医学词典;接着整合中西医临床文本公共元数据和私有元数据,以此构建中西医描述规范化临床术语集的词表类体系;之后通过分类聚类体系对临床术语文本数据进行降维处理后得到新的中西医描述规范化临床术语集;最终在根据新的临床文本病例数据对新的中西医描述规范化临床术语集进行更新补充,得到新的中西医描述规范化临床术语集,从而可以解决中文临床术语管理不规范的问题,并通过新的临床术语集进行应用时,提高临床数据的交互性、利用率和共享性。
[0041]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0042]下面结合附图和实施例对本专利技术做进一步的说明,其中:
[0043]图1为本专利技术实施例一种基于电子病历文本的中文临床术语处理方法的流程图;
[0044]图2为本专利技术实施例一种概念表、描述词表及关联关系表的关系示意图;
[0045]图3为本专利技术实施例一种中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于电子病历文本的中文临床术语处理方法,其特征在于,包括以下步骤:构建中西医临床文本数据库;构建中西医临床文本描述的规范化术语初始架构,所述规范化术语初始架构包括概念表、描述词表和关联关系表;对所述中西医临床文本数据库内的文本数据进行预处理,并通过所述规范化术语初始架构对预处理后的所述文本数据进行分类与定义后,生成医学词典;整合中西医临床文本公共元数据和私有元数据,构建中西医描述规范化临床术语集的词表类体系;通过分类聚类体系对临床术语文本数据进行降维处理,得到新的中西医描述规范化临床术语集;根据新的临床文本病例数据对新的中西医描述规范化临床术语集进行更新补充,得到可自动化迭代的新中西医描述规范化临床术语集。2.根据权利要求1所述的一种基于电子病历文本的中文临床术语处理方法,其特征在于,所述构建中西医临床文本数据库,包括:获取电子病历数据和中医临床文本数据,所述电子病历数据包括若干份常见病和重大疾病患者高质量EMRs数据;对所述电子病历数据和所述中医临床文本数据进行语料标注;根据语料标注后的所述电子病历数据和所述中医临床文本数据构建中西医临床文本数据库。3.根据权利要求2所述的一种基于电子病历文本的中文临床术语处理方法,其特征在于,所述对所述电子病历数据和所述中医临床文本数据进行语料标注,包括:对所述电子病历数据和所述中医临床文本数据的low

level任务和high

level任务设置标注规范;所述low

level任务包括句子边界检测、字符串切分、分词、词性标注和浅层句法分析,所述high

level任务包括拼写或语法错误识别和纠正、命名实体识别、词义消歧、实体修饰信息识别、关系分类、时序信息抽取;根据所述标注规范对所述电子病历数据和所述中医临床文本数据进行语料标注。4.根据权利要求1所述的一种基于电子病历文本的中文临床术语处理方法,其特征在于,所述构建中西医临床文本描述的规范化术语初始架构,包括:对中西医分别构建符合中文临床文本的顶级概念结构,并建设顶级概念结构的下级分类目,采用层级结构关系向下延伸扩展;根据历史医学词典中的医学概念设置术语全称,对预设术语进行筛选和融合,通过查重和去重方式收集与临...

【专利技术属性】
技术研发人员:林晓兰梁铭标钱鹏梁会营
申请(专利权)人:广东省人民医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1