医疗数据预处理方法及系统技术方案

技术编号：38768064 阅读：31 留言：0更新日期：2023-09-10 10:41

本发明专利技术属于数据处理技术领域，公开了一种医疗数据预处理方法及系统，医疗数据预处理方法包括步骤：去除医疗数据中的无关符号，对医疗数据中的文本数据进行纠错更正；将文本数据通过多个医疗分词器切分成不同的字段得到分词结果，将分词结果输入次级分词器得到最终分词结果；构建医疗知识图谱，基于医疗知识图谱对最终分词结果中的医学字段打上标签，得到部分标签化的医疗数据；基于群体智能对部分标签化的医疗数据中未被打标签的字段进行标注，得到完全标签化的医疗数据。本发明专利技术自动将医疗数据进行数据清洗、关键信息提取和打标签，使得这些医疗数据被处理成医疗AI模型训练所需的格式和内容，并利用群体智能技术对数据标签工作流程进行优化。作流程进行优化。作流程进行优化。

全部详细技术资料下载

【技术实现步骤摘要】
医疗数据预处理方法及系统

[0001]本专利技术属于数据处理
，具体涉及一种医疗数据预处理方法及系统。

技术介绍

[0002]随着人工智能技术的发展，尤其是通用人工智能的技术突破，人们开始使用医疗人工智能模型来分析、处理医疗数据，并为病人提供进行智能问诊服务，为药厂提供药物作用机理的自动分析，为保险公司提供针对不同病人的理赔机器人等等。然而，现在的医疗人工智能模型的训练需要消耗大量的时间和资源，因为：1.医疗数据中包含很多录入错误，包括医疗文本数据中的文字输入错误（比如：“患者有糖尿病的病史，曾经治疗过高血液”中，“高血压”被错误地录入成了“高血液”），数据格式的不统一（比如：手术日期被记载为了“2000年1月1号”，“2000.01.01”，“01/01/2020”等多种格式）等等。传统的计算机算法对于此种类型的处理效果很差，因此需要统计分析师针对可能出现的错误进行分析、修正，并对每次医疗数据中出现的新错误类型手动设计规则进行修改。这需要大量的人力资源以及时间资源，拖慢了项目开展以及推进的效率。
[0003]...

【技术保护点】

【技术特征摘要】
1.一种医疗数据预处理方法，其特征在于，包括步骤：S1、去除医疗数据中的无关符号，对医疗数据中的文本数据进行纠错更正；S2、将文本数据通过多个医疗分词器切分成不同的字段得到分词结果，将分词结果输入次级分词器得到最终分词结果；S3、构建医疗知识图谱，基于医疗知识图谱对最终分词结果中的医学字段打上标签，得到部分标签化的医疗数据；S4、基于群体智能对部分标签化的医疗数据中未被打标签的字段进行标注，得到完全标签化的医疗数据。2.根据权利要求1所述的医疗数据预处理方法，其特征在于：所述步骤S4包括：S41、将部分标签化的医疗数据中未被打标签的字段打乱，打包分发进行人工标注；S42、获取人工标注后的标签结果，对标签结果进行校正。3.根据权利要求2所述的医疗数据预处理方法，其特征在于：对标签结果进行校正通过以下方式实现：进行组内竞争，对处理同一条数据的组内员工进行投票，多者获胜，败者视为错误，随着时间的积累，统计每个员工的工作准确度，并根据每个员工的可靠性，对其标签结果进行加权投票；或，使用标签校正模型与原有的标签进行对比，将错误率过高的标签去除；或，设置多个次级分词器，使用次级分词器得到标签结果，将每个多个次级分词器所占的权重作为高级深度学习模型的可训练参数，利用已有的结果对高级深度学习模型进行训练，并与有的标签进行对比，将错误率过高的标签去除；或，使用无监督训练模型令在同一类的数据在进行标签处理时保持一致，将错误率过高的标签去除。4.根据权利要求3所述的医疗数据预处理方法，其特征在于：所述步骤S4包括步骤S43：使用校正后的标签结果重新训练标签校正模型、高级深度学习模型和无监督训练模型。5.根据权利要求1所述的医疗数据预处理方法，其特征在于：所述次级分词器由医疗分词模型进行分词得到的分词结果训练得到。6.根据权...

【专利技术属性】
技术研发人员：李睿，胡其桐，邢沛瑶，刘瑞华，徐浩，郑名扬，邢天奇，
申请(专利权)人：成都安哲斯生物医药科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人