医疗数据预处理方法及系统技术方案

技术编号:38768064 阅读:9 留言:0更新日期:2023-09-10 10:41
本发明专利技术属于数据处理技术领域,公开了一种医疗数据预处理方法及系统,医疗数据预处理方法包括步骤:去除医疗数据中的无关符号,对医疗数据中的文本数据进行纠错更正;将文本数据通过多个医疗分词器切分成不同的字段得到分词结果,将分词结果输入次级分词器得到最终分词结果;构建医疗知识图谱,基于医疗知识图谱对最终分词结果中的医学字段打上标签,得到部分标签化的医疗数据;基于群体智能对部分标签化的医疗数据中未被打标签的字段进行标注,得到完全标签化的医疗数据。本发明专利技术自动将医疗数据进行数据清洗、关键信息提取和打标签,使得这些医疗数据被处理成医疗AI模型训练所需的格式和内容,并利用群体智能技术对数据标签工作流程进行优化。作流程进行优化。作流程进行优化。

【技术实现步骤摘要】
医疗数据预处理方法及系统


[0001]本专利技术属于数据处理
,具体涉及一种医疗数据预处理方法及系统。

技术介绍

[0002]随着人工智能技术的发展,尤其是通用人工智能的技术突破,人们开始使用医疗人工智能模型来分析、处理医疗数据,并为病人提供进行智能问诊服务,为药厂提供药物作用机理的自动分析,为保险公司提供针对不同病人的理赔机器人等等。然而,现在的医疗人工智能模型的训练需要消耗大量的时间和资源,因为:1.医疗数据中包含很多录入错误,包括医疗文本数据中的文字输入错误(比如:“患者有糖尿病的病史,曾经治疗过高血液”中,“高血压”被错误地录入成了“高血液”),数据格式的不统一(比如:手术日期被记载为了“2000年1月1号”,“2000.01.01”,“01/01/2020”等多种格式)等等。传统的计算机算法对于此种类型的处理效果很差,因此需要统计分析师针对可能出现的错误进行分析、修正,并对每次医疗数据中出现的新错误类型手动设计规则进行修改。这需要大量的人力资源以及时间资源,拖慢了项目开展以及推进的效率。
[0003]2.医疗数据包含大量的专业数据,并且不同医疗应用项目所需的训练数据在格式上差别很大(比如针对医疗关键词提取的模型需要“医学名词+类型”的标签,病情判断则需要“病情描述+阴性/阳性”的标签),因此这些数据不能直接被大语言模型(large language model)用于训练,而是需要进行手工分隔和医学标签标注,并且针对医疗项目的标签工作往往还需要一定的医学知识才可以进行,因而相较于一般的AI项目更难招募到合格的数据预处理人员。
[0004]3.在整个项目周期,数据标签所需的人力前后差别很大,因而很难合理进行人员分配。在AI模型训练前期,需要对大量的医学数据打标签,因此需要分配大量人力。但在项目后期,则以微调数据标签为主,只需要少量人力。
[0005]4.由于医疗数据的数据量过大,且需要医学专业知识,因而在进行人工数据预处理时,考虑到专业知识掌握程度不同以及人力工作的状态,人工进行数据标签很难避免处理错误或者处理质量偏低的情况,而这些都会影响到最终医疗AI模型的质量。

技术实现思路

[0006]本专利技术旨在至少在一定程度上解决上述技术问题。为此,本专利技术目的在于提供一种医疗数据预处理方法及系统。
[0007]本专利技术所采用的技术方案为:一种医疗数据预处理方法,包括步骤:S1、去除医疗数据中的无关符号,对医疗数据中的文本数据进行纠错更正;S2、将文本数据通过多个医疗分词器切分成不同的字段得到分词结果,将分词结果输入次级分词器得到最终分词结果;
S3、构建医疗知识图谱,基于医疗知识图谱对最终分词结果中的医学字段打上标签,得到部分标签化的医疗数据;S4、基于群体智能对部分标签化的医疗数据中未被打标签的字段进行标注,得到完全标签化的医疗数据。
[0008]优选地,所述步骤S4包括:S41、将部分标签化的医疗数据中未被打标签的字段打乱,打包分发进行人工标注;S42、获取人工标注后的标签结果,对标签结果进行校正,去除标签结果中低质量的标签。
[0009]优选地,对标签结果进行校正通过以下方式实现:进行组内竞争,对处理同一条数据的组内员工进行投票,多者获胜,败者视为错误,随着时间的积累,统计每个员工的工作准确度,并根据每个员工的可靠性,对其标签结果进行加权投票;或,使用标签校正模型与原有的标签进行对比,将错误率过高的标签去除;或,设置多个次级分词器,使用次级分词器得到标签结果,将每个多个次级分词器所占的权重作为高级深度学习模型的可训练参数,利用已有的结果对高级深度学习模型进行训练,并与有的标签进行对比,将错误率过高的标签去除;或,使用无监督训练模型令在同一类的数据在进行标签处理时保持一致,将错误率过高的标签去除。
[0010]优选地,所述步骤S4包括步骤S43:使用校正后的标签结果重新训练标签校正模型、高级深度学习模型和无监督训练模型。
[0011]优选地,所述次级分词器由医疗分词模型进行分词得到的分词结果训练得到。
[0012]优选地,所述步骤S3还包括:对医疗数据中的标点符号打上分隔符标签。
[0013]优选地,所述步骤S1之前还包括步骤S0:将外文的医疗数据的翻译为中文的医疗数据。
[0014]一种医疗数据预处理系统,包括:数据清理模块,用于去除医疗数据中的无关符号,并对医疗数据中的文本数据进行纠错更正;分词模块,用于将文本数据通过多个医疗分词器切分成不同的字段得到分词结果,并将分词结果输入次级分词器得到最终分词结果;标签生成模块,用于构建医疗知识图谱,基于医疗知识图谱对最终分词结果中的医学字段打上标签,得到部分标签化的医疗数据;群体智能模块,用于对标签生成模块得到的医疗数据中未被打标签的字段进行标注,得到完全标签化的医疗数据。
[0015]优选地,所述群体智能模块用于将部分标签化的医疗数据中未被打标签的字段打乱,打包分发进行人工标注;获取人工标注后的标签结果,对标签结果进行校正,去除标签结果中低质量的标签。
[0016]优选地,对标签结果进行校正通过以下方式实现:进行组内竞争,对处理同一条数据的组内员工进行投票,多者获胜,败者视为错
误,随着时间的积累,统计每个员工的工作准确度,并根据每个员工的可靠性,对其标签结果进行加权投票;或,使用标签校正模型与原有的标签进行对比,将错误率过高的标签去除;或,设置多个次级分词器,使用次级分词器得到标签结果,将每个多个次级分词器所占的权重作为高级深度学习模型的可训练参数,利用已有的结果对高级深度学习模型进行训练,并与有的标签进行对比,将错误率过高的标签去除;或,使用无监督训练模型令在同一类的数据在进行标签处理时保持一致,将错误率过高的标签去除。
[0017]本专利技术的有益效果为:本专利技术所提供的医疗数据预处理方法,可以自动完成数据翻译、数据清理、自动拼写检查等简单任务,同时利用医疗知识图谱对进行半自动化打标签任务,可以自动化完成近50%的数据打标签工作;可以降低了劣质样本占比,解决跨国家、跨语言进行标签工作的难题,处理医疗数据记录中的错误录入,将医疗数据的预处理时间缩减超过70%;使用集成学习完成医疗数据的分词任务,可以充分利用现有的开源医疗分词模型,同时又通过训练次级分词器来保证最终的分词准确度;使用医疗知识图谱对医疗数据进行半自动化打标签工作,可以自动对近50%的数据完成打标签工作,降低人工打标签的工作量;使用群体智能模型进行医学数据的最终打标签工作,充分考虑了人与人之间的差异以及数据本身的结构性质,使得在没有新的人力资源投入下可以提升标签工作的最终结果,这对于最终的深度学习模型训练至关重要(数量中等但质量高的标签比数量大但质量差的标签训练出来的结果更好)。
附图说明
[0018]图1是本专利技术医疗数据预处理方法的流程图。
[0019]图2是本专利技术步骤S2的流程图。
[0020]图3是本专利技术基于投票的群体智能的示意图。
[0021]图4是本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗数据预处理方法,其特征在于,包括步骤:S1、去除医疗数据中的无关符号,对医疗数据中的文本数据进行纠错更正;S2、将文本数据通过多个医疗分词器切分成不同的字段得到分词结果,将分词结果输入次级分词器得到最终分词结果;S3、构建医疗知识图谱,基于医疗知识图谱对最终分词结果中的医学字段打上标签,得到部分标签化的医疗数据;S4、基于群体智能对部分标签化的医疗数据中未被打标签的字段进行标注,得到完全标签化的医疗数据。2.根据权利要求1所述的医疗数据预处理方法,其特征在于:所述步骤S4包括:S41、将部分标签化的医疗数据中未被打标签的字段打乱,打包分发进行人工标注;S42、获取人工标注后的标签结果,对标签结果进行校正。3.根据权利要求2所述的医疗数据预处理方法,其特征在于:对标签结果进行校正通过以下方式实现:进行组内竞争,对处理同一条数据的组内员工进行投票,多者获胜,败者视为错误,随着时间的积累,统计每个员工的工作准确度,并根据每个员工的可靠性,对其标签结果进行加权投票;或,使用标签校正模型与原有的标签进行对比,将错误率过高的标签去除;或,设置多个次级分词器,使用次级分词器得到标签结果,将每个多个次级分词器所占的权重作为高级深度学习模型的可训练参数,利用已有的结果对高级深度学习模型进行训练,并与有的标签进行对比,将错误率过高的标签去除;或,使用无监督训练模型令在同一类的数据在进行标签处理时保持一致,将错误率过高的标签去除。4.根据权利要求3所述的医疗数据预处理方法,其特征在于:所述步骤S4包括步骤S43:使用校正后的标签结果重新训练标签校正模型、高级深度学习模型和无监督训练模型。5.根据权利要求1所述的医疗数据预处理方法,其特征在于:所述次级分词器由医疗分词模型进行分词得到的分词结果训练得到。6.根据权...

【专利技术属性】
技术研发人员:李睿胡其桐邢沛瑶刘瑞华徐浩郑名扬邢天奇
申请(专利权)人:成都安哲斯生物医药科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1