医疗OCR数据优化模型训练方法、优化方法及设备技术

技术编号:33210414 阅读:33 留言:0更新日期:2022-04-24 01:04
本发明专利技术公开一种医疗OCR数据优化模型训练方法、优化方法及设备,训练方法包括:获取大规模无标注医疗文本数据,对文本数据中的医疗术语和字符进行识别以形成训练集;对训练集进行预训练处理以得到用于训练医疗OCR优化模型的预训练数据集,并利用预训练数据集对医疗OCR优化模型进行训练;所述预训练处理包括:对训练集中的低频术语和低频字符进行数据增广处理;将训练集中的第一目标字符随机替换为错误字符;对训练集中的第二目标字符进行遮挡;以及训练集切分为多个文本段落,得到用于训练医疗OCR优化模型的预训练数据集。本发明专利技术利用医疗领域预训练语言模型对医疗OCR结果进行结构化提取、错误识别及优化,提升了医疗OCR的准确率。率。率。

【技术实现步骤摘要】
医疗OCR数据优化模型训练方法、优化方法及设备


[0001]本专利技术涉及智能医疗数据处理
,尤其涉及一种医疗OCR数据优化模型训练方法、优化方法及相关的电子设备和计算机可读存储介质。

技术介绍

[0002]随着机器学习的快速发展,光学文字识别(OCR)目前在文字识别取得了长足的进步,已经出现多种商业应用如百度OCR等。在医疗领域中,临床医学研究、病案结构化、核保理赔等都要对纸质数据进行结构化。如何将纸质医疗数据转换为计算机可处理的结构数据已成为智能医疗发展的关键。医疗图片数据结构化也需要进行光学识别,识别的结果决定了后续过程。然而,医疗领域的光学文本识别的准确性还存在较多的问题。与通用领域的图像文字识别不同,医疗图像文字识别包含大量医疗专业术语,如病历中疾病的名称和字段名称,而且术语库的规模较大,常用的医疗专用术语已超过100万。而且,医学领域包含大量的生僻的、非常用的字符,这些字符在通用文本中出现的频率极低,同时罕见病等非生僻字的医疗术语在语料库中的出现频率也很低,如“川崎病”,这些低频术语的识别准确率较低(如“睑”经常会识别为“脸”本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种医疗OCR优化模型训练方法,其特征在于,包括:获取大规模无标注医疗文本数据,并对所述大规模无标注医疗文本数据中的医疗术语和字符进行识别以形成训练集;对所述训练集进行预训练处理以得到用于训练所述医疗OCR优化模型的预训练数据集,并利用所述预训练数据集对所述医疗OCR优化模型进行训练;其中,所述预训练处理包括:对所述训练集中的低频术语和低频字符进行数据增广处理;将所述训练集中的第一目标字符随机替换为错误字符;对所述训练集中的第二目标字符进行遮挡;以及将所述训练集切分为多个文本段落,得到用于训练所述医疗OCR优化模型的预训练数据集。2.根据权利要求1所述的方法,其特征在于,在所述对所述训练集中的低频术语和低频字符进行数据增广处理之前,进一步包括:统计识别出的所述训练集中的每个医疗术语和字符的频次,根据相应的低频阈值来确定所述训练集中的低频术语和低频字符。3.根据权利要求1所述的方法,其特征在于,在所述形成训练集之后,进一步包括:利用医疗知识图谱对所述训练集进行医疗术语的表示学习,并在表示空间进行映射。4.根据权利要求1所述的方法,其特征在于,所述将所述训练集中的第一目标字符随机替换为错误字符,进一步包括:从所述训练集中的医疗术语和字符中筛选第一目标字符,其中所述第一目标字符包括字形相似字典中所包含的字符和/或医疗常用字符。5.根据权利要求1或4所述的方法,其特征在于,所述利用所述预训练数据集对所述医疗OCR优化模型进行训练,进一步包括:在已将所述第一目标字符随机替换为错误字符之后,将当前训练集作为第一数据集,迭代地根据当前上下文提取所述第一数据集中的所述错误字符,并预...

【专利技术属性】
技术研发人员:安波
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1