医疗文本数据的标准化处理方法及装置制造方法及图纸

技术编号:32180509 阅读:20 留言:0更新日期:2022-02-08 15:42
本发明专利技术公开了一种医疗文本数据的标准化处理方法及装置,其中该方法包括:接收脱敏后的原始医疗文本数据;对收到的原始医疗文本数据进行分词处理,得到原始医疗文本数据对应的原始医疗文本分词集合;基于预先构建的医学知识图谱,采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合;计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度,并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合;根据目标医疗标准词集合,对原始医疗文本数据进行标准化处理。本发明专利技术利用标准化医疗文本数据进行医院间的学术交流及跨院的远程医疗,能够大大提高学术交流、远程医疗的效率。疗的效率。疗的效率。

【技术实现步骤摘要】
医疗文本数据的标准化处理方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种医疗文本数据的标准化处理方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]由于各个医院信息技术的开发程度不同,造成不同医院间的信息化程度千差万别,记录医疗数据所遵从的规范也参差不齐,给医院间的学术交流、远程医疗数据传输造成很大困难。因而,如何提供一种对医疗文本数据进行标准化处理的方法,快速实现医疗文本数据的标准化处理,是亟待解决的技术问题。

技术实现思路

[0004]本专利技术实施例提供一种医疗文本数据的标准化处理方法,用以解决现有医院系统中的原始医疗文本数据存在很多非标准医疗词汇,难以相互沟通交流的技术问题,该方法包括:接收脱敏后的原始医疗文本数据;对收集的原始医疗文本数据进行分词处理,得到原始医疗文本数据对应的原始医疗文本分词集合,其中,原始医疗文本分词集合中包含:一个或多个原始医疗文本分词;基于预先构建的医学知识图谱,采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合,其中,医学知识图谱中包含:多条医疗标准以及每条医疗标准对应的一个或多个候选医疗标准词;计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度,并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合;根据目标医疗标准词集合,对原始医疗文本数据进行标准化处理。
[0005]本专利技术实施例还提供一种医疗文本数据的标准化处理装置,用以解决现有医院系统中的原始医疗文本数据存在很多非标准医疗词汇,难以沟通交流的技术问题,该装置包括:医疗文本数据采集模块,用于接收脱敏后的原始医疗文本数据;文本分词模块,用于对收集的原始医疗文本数据进行分词处理,得到原始医疗文本数据对应的原始医疗文本分词集合,其中,原始医疗文本分词集合中包含:一个或多个原始医疗文本分词;知识图谱查询模块,用于基于预先构建的医学知识图谱,采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合,其中,医学知识图谱中包含:多条医疗标准以及每条医疗标准对应的一个或多个候选医疗标准词;医疗标准词集合确定模块,用于计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度,并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合;医疗标准化处理模块,用于根据目标医疗标准词集合,对原始医疗文本数据进行标准化处理。
[0006]本专利技术实施例还提供一种计算机设备,用以解决现有医院系统中的原始医疗文本数据存在很多非标准医疗词汇,难以沟通交流的技术问题,该计算机设备包括存储器、处理
器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述医疗文本数据的标准化处理方法。
[0007]本专利技术实施例还提供一种计算机可读存储介质,用以解决现有医院系统中的原始医疗文本数据存在很多非标准医疗词汇,难以沟通交流的技术问题,该计算机可读存储介质存储有执行上述医疗文本数据的标准化处理方法的计算机程序。
[0008]本专利技术实施例中提供的医疗文本数据的标准化处理方法、装置、计算机设备及计算机可读存储介质,收集到原始医疗文本数据后,对原始医疗文本数据进行分词处理,得到原始医疗文本数据对应的原始医疗文本分词集合,进而基于预先构建的医学知识图谱,采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合,通过计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度,并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合,最后根据目标医疗标准词集合,对原始医疗文本数据进行标准化处理。
[0009]与现有技术中直接用原始医疗文本数据沟通交流的技术方案相比,本专利技术实施例通过对原始医疗文本数据进行标准化处理,进而利用标准化医疗文本数据进行学术交流、远程医疗,能够大大提高效率。
附图说明
[0010]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0011]图1为本专利技术实施例中提供的一种医疗文本数据的标准化处理方法流程图;
[0012]图2为本专利技术实施例中提供的一种基于医疗文本语义分类模型确定候选医疗标准词集合的流程图;
[0013]图3为本专利技术实施例中提供的一种对医疗文本语义分类模型进行机器学习的流程图;
[0014]图4为本专利技术实施例中提供的一种基于医学知识图谱确定候选医疗标准词集合的流程图;
[0015]图5为本专利技术实施例中提供的一种医学知识图谱的构建方法流程图;
[0016]图6为本专利技术实施例中提供的一种利用标准化医学文本数据进行远程医疗的流程图;
[0017]图7为本专利技术实施例中提供的一种基于区块链存储业务数据的流程图;
[0018]图8为本专利技术实施例中提供的一种医疗文本数据的标准化处理装置示意图;
[0019]图9为本专利技术实施例中提供的一种可选的医疗文本数据的标准化处理装置示意图;
[0020]图10为本专利技术实施例中提供的一种计算机设备示意图。
具体实施方式
[0021]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发
明实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0022]本专利技术实施例中提供了一种医疗文本数据的标准化处理方法,可以应用但不限于学术交流、远程医疗。
[0023]图1为本专利技术实施例中提供的一种医疗文本数据的标准化处理方法流程图,如图1所示,该方法包括如下步骤:
[0024]S101,接收脱敏后的原始医疗文本数据。
[0025]上述S101中的原始医疗文本数据可以是医护人员录入的就诊数据。对于一些非文本就诊数据,可以经过一定处理得到的文本数据,例如,对化验单等纸质文件进行光学字符识别得到的文本数据。这些经脱敏后的原始医疗文本数据是经用户授权可以采集、存储、并用于后续医疗或保险核保、核赔、产品推荐等应用所被使用的数据。
[0026]S102,对采集的原始医疗文本数据进行分词处理,得到原始医疗文本数据对应的原始医疗文本分词集合,其中,原始医疗文本分词集合中包含:一个或多个原始医疗文本分词。
[0027]在收集到原始医疗文本数据后,对原始医疗文本数据进行分词处理,得到对应的一个或多个原始医疗文本分词,构成原始医疗文本数据对应的原始医疗文本分词集合。
[0028]S103,基于预先构建的医学知识图谱,采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合,其中,医学知识图谱中包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗文本数据的标准化处理方法,其特征在于,包括:接收脱敏后的原始医疗文本数据;对收集到的原始医疗文本数据进行分词处理,得到原始医疗文本数据对应的原始医疗文本分词集合,其中,所述原始医疗文本分词集合中包含:一个或多个原始医疗文本分词;基于预先构建的医学知识图谱,采用倒排索引方法确定所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合,其中,所述医学知识图谱中包含:多条医疗标准以及每条医疗标准对应的一个或多个候选医疗标准词;计算所述原始医疗文本分词集合与各个候选医疗标准词集合的相似度,并将相似度最大的候选医疗标准词集合确定为所述原始医疗文本数据的目标医疗标准词集合;根据所述目标医疗标准词集合,对所述的原始医疗文本数据进行标准化处理。2.如权利要求1所述的方法,其特征在于,在对采集的原始医疗文本数据进行分词处理,得到原始医疗文本数据对应的原始医疗文本分词集合之后,所述方法还包括:获取预先训练好的医疗文本语义分类模型,其中,所述医疗文本语义分类模型用于预测所述原始医疗文本分词集合对应的候选医疗标准词集合;将所述原始医疗文本分词集合中包含的各个原始医疗文本分词,输入至预先训练好的医疗文本语义分类模型中,输出所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合。3.如权利要求2所述的方法,其特征在于,获取预先训练好的医疗文本语义分类模型,包括:获取已标注医疗分类和标准词的多个医疗文本分词,作为样本数据;利用所述样本数据,对条件随机场模型进行机器学习,训练得到一个能够预测所述原始医疗文本分词集合对应候选医疗标准词集合的医疗文本语义分类模型。4.如权利要求1所述的方法,其特征在于,基于预先构建的医学知识图谱,采用倒排索引方法确定所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合,包括:将所述原始医疗文本分词集合中包含的每个原始医疗文本分词与所述医学知识图谱中每条医疗标准的文本分词进行匹配,得到包含所述原始医疗文本分词集合中一个或多个原始医疗文本分词的多条医疗标准;确定所述原始医疗文本分词集合与每条医疗标准的分词交集;将分词交集中包含分词数量超过预设阈值的医疗标准确定为原始医疗文本分词...

【专利技术属性】
技术研发人员:黄洋邹彬刘云霞杨海波
申请(专利权)人:泰康保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1