医疗文本数据的标准化处理方法及装置制造方法及图纸

技术编号：32180509 阅读：20 留言：0更新日期：2022-02-08 15:42

本发明专利技术公开了一种医疗文本数据的标准化处理方法及装置，其中该方法包括：接收脱敏后的原始医疗文本数据；对收到的原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合；基于预先构建的医学知识图谱，采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合；计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度，并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合；根据目标医疗标准词集合，对原始医疗文本数据进行标准化处理。本发明专利技术利用标准化医疗文本数据进行医院间的学术交流及跨院的远程医疗，能够大大提高学术交流、远程医疗的效率。疗的效率。疗的效率。

全部详细技术资料下载

【技术实现步骤摘要】
医疗文本数据的标准化处理方法及装置

[0001]本专利技术涉及数据处理
，尤其涉及一种医疗文本数据的标准化处理方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]由于各个医院信息技术的开发程度不同，造成不同医院间的信息化程度千差万别，记录医疗数据所遵从的规范也参差不齐，给医院间的学术交流、远程医疗数据传输造成很大困难。因而，如何提供一种对医疗文本数据进行标准化处理的方法，快速实现医疗文本数据的标准化处理，是亟待解决的技术问题。

技术实现思路

[0004]本专利技术实施例提供一种医疗文本数据的标准化处理方法，用以解决现有医院系统中的原始医疗文本数据存在很多非标准医疗词汇，难以相互沟通交流的技术问题，该方法包括：接收脱敏后的原始医疗文本数据；对收集的原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合，其中，原始医疗文本分词集合中包含：一个或多个原始医疗文本分词；基于预先构建的医学知识图谱，采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合，其中，医学知识图谱中包含：多条医疗标准以及每条医疗标准对应的一个或多个候选医疗标准词；计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度，并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合；根据目标医疗标准词集合，对原始医疗文本数据进行标准化处理。
[0005...

【技术保护点】

【技术特征摘要】
1.一种医疗文本数据的标准化处理方法，其特征在于，包括：接收脱敏后的原始医疗文本数据；对收集到的原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合，其中，所述原始医疗文本分词集合中包含：一个或多个原始医疗文本分词；基于预先构建的医学知识图谱，采用倒排索引方法确定所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合，其中，所述医学知识图谱中包含：多条医疗标准以及每条医疗标准对应的一个或多个候选医疗标准词；计算所述原始医疗文本分词集合与各个候选医疗标准词集合的相似度，并将相似度最大的候选医疗标准词集合确定为所述原始医疗文本数据的目标医疗标准词集合；根据所述目标医疗标准词集合，对所述的原始医疗文本数据进行标准化处理。2.如权利要求1所述的方法，其特征在于，在对采集的原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合之后，所述方法还包括：获取预先训练好的医疗文本语义分类模型，其中，所述医疗文本语义分类模型用于预测所述原始医疗文本分词集合对应的候选医疗标准词集合；将所述原始医疗文本分词集合中包含的各个原始医疗文本分词，输入至预先训练好的医疗文本语义分类模型中，输出所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合。3.如权利要求2所述的方法，其特征在于，获取预先训练好的医疗文本语义分类模型，包括：获取已标注医疗分类和标准词的多个医疗文本分词，作为样本数据；利用所述样本数据，对条件随机场模型进行机器学习，训练得到一个能够预测所述原始医疗文本分词集合对应候选医疗标准词集合的医疗文本语义分类模型。4.如权利要求1所述的方法，其特征在于，基于预先构建的医学知识图谱，采用倒排索引方法确定所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合，包括：将所述原始医疗文本分词集合中包含的每个原始医疗文本分词与所述医学知识图谱中每条医疗标准的文本分词进行匹配，得到包含所述原始医疗文本分词集合中一个或多个原始医疗文本分词的多条医疗标准；确定所述原始医疗文本分词集合与每条医疗标准的分词交集；将分词交集中包含分词数量超过预设阈值的医疗标准确定为原始医疗文本分词...

【专利技术属性】
技术研发人员：黄洋，邹彬，刘云霞，杨海波，
申请(专利权)人：泰康保险集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人