用于对待校正数据校正的方法、设备和介质技术

技术编号:32504573 阅读:31 留言:0更新日期:2022-03-02 10:14
本公开的实施例涉及用于对待校正数据校正的方法、设备和介质,方法包括:对所述待校正数据执行预处理,以便转换为统一格式的待校正文本;基于预定义的符号,将所述待校正文本分割为一个或多个文本块,从而获取待校正的测试集合;根据基于医学专业数据的索引模型对所述测试集合执行索引测试,以便确定一个或多个文本块是否存在错误;响应于所述一个或多个文本块集合存在错误,确定一个或多个文本块的一个或多个候选修改项;以及根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项,从而对所述待校正数据校正。由此,能够基于数据所述的医学专业领域更为准确地对数据校正。数据校正。数据校正。

【技术实现步骤摘要】
用于对待校正数据校正的方法、设备和介质


[0001]本公开的实施例总体涉及医疗信息处理领域,并且更具体地涉及一种用于对医学专业上的待校正数据校正的方法、计算设备和计算机可读存储介质。

技术介绍

[0002]在现有的医疗领域中,医疗数据越来越受到重视,医疗数据可以涵盖人的全生命周期,既包括个人健康,又包括医药服务、疾病防控、健康保障和食品安全、养生保健等多方面数据。通过充分利用医疗数据,可以推进互联网健康咨询、网上预约分诊、移动支付等应用,优化形成规范、共享、互信的诊疗流程。但医疗数据是具有数量巨大、来源分散、格式多样等特征的数据集合,如何对采集到的医疗大数据进行存储和关联分析是关键。
[0003]对于诸如骨科领域的医疗领域而言,医疗数据中的错误也越来越多。存在错误的场景例如包括:病历查房记录的书写记录、医学专业文档、音频ASR(语音识别)记录、医学图像OCR(文字识别)记录,但针对于医疗领域的校正,目前还不存在一个成熟的校正技术方案。
[0004]综上所述传统的用于对医学专业的待校正数据校正的方案所存在的不足之处在于:对来源混杂本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于对待校正数据校正的方法,其特征在于,包括:对所述待校正数据执行预处理,以便转换为统一格式的待校正文本;基于预定义的符号,将所述待校正文本分割为一个或多个文本块,从而获取待校正的测试集合;根据基于医学专业数据的索引模型对所述测试集合执行索引测试,以便确定所述一个或多个文本块是否存在错误;响应于所述一个或多个文本块集合存在错误,确定所述一个或多个文本块的一个或多个候选修改项;以及根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项,从而对所述待校正数据校正。2.根据权利要求1所述的方法,其中根据基于医学专业数据的索引模型对所述测试集合执行索引测试还包括:对医学专业数据执行预处理,以便转换为统一格式的预处理文本;基于预定义的符号,将所述预处理文本分割为一个或多个医学专业数据文本块,从而获取用于校正训练的训练集合;基于所述训练集合,构建倒序索引模型;以及应用所构建的倒序索引模型对所述测试集合执行索引测试。3.根据权利要求2所述的方法,其中构建倒序索引模型还包括:构建由一个或多个字节指向所述一个或多个医学专业数据文本块的索引集合;以及基于所述索引集合构建倒序索引模型,从而应用所构建的倒序索引模型对所述测试集合执行索引测试。4.根据权利要求2或3所述的方法,其中根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项还包括:将所述预处理文本提取为实体数据类以及实体关系类;以及通过将所提取的实体数据类设置为节点以及所提取的实体关系类设置为联结所述节点的边,为所述医学专业数据构建知识图谱。5.根据权利要求4所述的方法,其中根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项还包括:基于所构...

【专利技术属性】
技术研发人员:张国强邹金勇张天维
申请(专利权)人:北京欧应信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1