基于深度学习的基因检测报告信息识别方法、系统及设备技术方案

技术编号:38011968 阅读:15 留言:0更新日期:2023-06-30 10:33
本发明专利技术提供一种基于深度学习的基因检测报告信息识别方法、系统及设备,包括:获取基因检测报告并处理为目标图片格式文件;通过OCR文字识别技术提取目标图片格式文件中每个页面的文本信息数据,对其进行基因测序信息识别以得到包含基因测序信息的基因测序信息页;对其进行表格提取,并对提取到的所有表格进行分类识别以得到包含基因测序信息的基因测序信息表格;对其进行表头识别,根据预设标准表头信息在基因测序信息表格中提取相关基因测序信息并进行结构化处理,以得到基因测序信息的结构化内容。本申请使用人工智能技术以获取遗传性肿瘤的基因检测报告的信息结构化和规范化格式输出,减少临床医生负担以及知识背景差异导致的信息理解偏差。异导致的信息理解偏差。异导致的信息理解偏差。

【技术实现步骤摘要】
基于深度学习的基因检测报告信息识别方法、系统及设备


[0001]本申请涉及医疗数据处理
,特别是涉及一种基于深度学习的基因检测报告信息识别方法、系统及设备。

技术介绍

[0002]随着二代测序(next

generation sequencing)技术的发展,遗传因素在肿瘤中的重要作用逐渐被发现。因为遗传性肿瘤具有相对独特的遗传背景和生物学特征,其临床治疗方式和预防措施都有别于散发性肿瘤,基因检测在此过程中发挥着至关重要的作用。
[0003]而在实际的临床诊疗过程中,基因检测报告的信息解读对缺乏遗传学专业背景知识的临床医生提出了严峻的挑战。临床医生拿到报告后往往需要对纷繁的信息进行甄别与筛选,甚至重走部分解读流程,使整个过程变得费时费力。生物医学领域的基因检测报告,来源于多家检测公司,由于各报告的内容版式、检测目的不尽相同,所以对基因检测报告信息的识别属于复杂场景的结构化。
[0004]由于检测报告遗传信息提取是一种复杂版面信息的提取,而现有基于单一的光学字符识别(OCR)方法只能解决部分文字识别问题,不能精确的结构化检测报告中基因相关信息。
[0005]因此亟需一种方法能将隐藏在检测报告内对临床决策具有重要指导意义的遗传信息提炼出来,并识别出胚系基因变异的类型,辅助缺乏遗传背景的临床医生做出临床决策。

技术实现思路

[0006]鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于深度学习的基因检测报告信息识别方法、系统及设备,用于解决现有技术中无法精确结构化基因检测报告中的基因测序信息等技术问题。
[0007]为实现上述目的及其他相关目的,本申请的第一方面提供一种基于深度学习的基因检测报告信息识别方法,所述方法包括:获取基因检测报告并处理为目标图片格式文件;通过OCR文字识别技术提取所述目标图片格式文件中每个页面的文本信息数据;对所述文本信息数据进行基因测序信息识别以得到包含基因测序信息的基因测序信息页;对所述基因测序信息页进行表格提取,并对提取到的所有表格进行分类识别以得到包含基因测序信息的基因测序信息表格;对所述基因测序信息表格进行表头识别,根据预设标准表头信息在所述基因测序信息表格中提取相关基因测序信息并进行结构化处理,以得到基因测序信息的结构化内容。
[0008]于本申请的第一方面的一些实施例中,所述基因检测报告的文件格式包括:PDF格式或图片格式;所述获取基因检测报告并处理为目标图片格式,具体包括:当基因检测报告为PDF格式文件,则将其通过格式转换为目标图片格式文件,以将PDF格式文件逐页输出为页面图片集合;其中,所述将PDF格式文件逐页输出为页面图片集合具体为:通过java语言
编程中的ApachePDFBox开源工具或通过python语言编程中的PyMuPDF库实现;当基因检测报告为原始图片格式文件,则将其通过预处理为目标图片格式文件;其中,所述预处理包括旋转校正、弯曲校正;将原始图片格式文件通过预处理转换为目标图片格式文件具体为:通过文档校正算法DocTR实现。
[0009]于本申请的第一方面的一些实施例中,所述通过OCR文字识别技术提取所述目标图片格式文件中每个页面的文本信息数据,包括:利用文本检测模型识别所述目标图片格式文件中每个页面的文本行区域以得到文本行图像;利用文字识别模型对所述文本行图像进行识别以得到对应的文本信息数据。
[0010]于本申请的第一方面的一些实施例中,对所述文本信息数据进行基因测序信息识别以得到包含基因测序信息的基因测序信息页,包括:对提取到的历史页面中的文本信息数据进行基因测序信息有无的标签标注以得到标注页面,并将其输入至第一二分类模型进行训练,以供识别待判断页面是否为包含基因测序信息的基因测序信息页。
[0011]于本申请的第一方面的一些实施例中,所述对所述基因测序信息页进行表格提取,并对提取到的所有表格进行分类识别以得到包含基因测序信息的基因测序信息表格,包括:利用深度学习图像分割模型,通过像素分类提取出历史基因测序信息页中的表格区域,以得到所有的原始表格图像;对提取到的所有的原始表格图像中的文本信息数据进行基因测序信息有无的标签标注,以得到第一标注表格图像,并将其输入至第二二分类模型进行训练,以供识别待判断表格图像是否为包含基因测序信息的基因测序信息表格图像。
[0012]于本申请的第一方面的一些实施例中,所述对所述基因测序信息表格进行表头识别,根据预设标准表头信息在所述基因测序信息表格中提取相关基因测序信息并进行结构化处理,以得到基因测序信息的结构化内容,包括:对提取到的历史基因测序信息表格图像中每一行对应的文本信息数据进行是否为基因测序信息的表头信息的标签标注,以得到第二标注表格图像,并将其输入至第三二分类模型进行训练,以供识别待判断基因测序信息表格的每一行是否为表头信息;根据预设标准表头信息,使用语义匹配模型在待判断基因测序信息表格图像中提取相关目标基因测序信息;结合对应所述目标基因测序信息的文本信息数据对所述待判断基因测序信息表格图像进行信息结构化识别,以得到基因测序信息的结构化内容。
[0013]于本申请的第一方面的一些实施例中,所述结合对应所述目标基因测序信息的文本信息数据对所述待判断基因测序信息表格图像进行信息结构化识别,包括:对所述待判断基因测序信息表格图像进行单元格提取,以得到对应表格区域中各单元格的单元格信息;基于单元格信息进行文本检测,以得到所述待判断基因测序信息表格图像的表格区域中各单元格内的文本信息;根据所述单元格信息生成与所述待判断基因测序信息表格图像的表格区域相对应的表格结构;按照所述表格结构,将所述单元格内的文本信息与对应单元格进行匹配,以得到结构化的目标基因测序信息表格。
[0014]于本申请的第一方面的一些实施例中,对所述待判断基因测序信息表格图像进行信息结构化识别之后还包括:利用命名实体识别模型对各单元格中的命名实体进行高精度识别,据以对所述命名实体进行标准化。
[0015]为实现上述目的及其他相关目的,本申请的第二方面提供一种基于深度学习的基因检测报告信息识别系统,包括:文件格式转换模块,用于获取基因检测报告并处理为目标
图片格式文件;文字识别模块,用于通过OCR文字识别技术提取所述目标图片格式文件中每个页面的文本信息数据;基因测序信息页识别模块,用于对所述文本信息数据进行基因测序信息识别以得到包含基因测序信息的基因测序信息页;基因测序信息表格识别模块,用于对所述基因测序信息页进行表格提取,并对提取到的所有表格进行分类识别以得到包含基因测序信息的基因测序信息表格;信息结构化模块,用于对所述基因测序信息表格进行表头识别,根据预设标准表头信息在所述基因测序信息表格中提取相关基因测序信息并进行结构化处理,以得到基因测序信息的结构化内容。
[0016]为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机设备,包括:存储器和处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的基因检测报告信息识别方法,其特征在于,所述方法包括:获取基因检测报告并处理为目标图片格式文件;通过OCR文字识别技术提取所述目标图片格式文件中每个页面的文本信息数据;对所述文本信息数据进行基因测序信息识别以得到包含基因测序信息的基因测序信息页;对所述基因测序信息页进行表格提取,并对提取到的所有表格进行分类识别以得到包含基因测序信息的基因测序信息表格;对所述基因测序信息表格进行表头识别,根据预设标准表头信息在所述基因测序信息表格中提取相关基因测序信息并进行结构化处理,以得到基因测序信息的结构化内容。2.根据权利要求1所述的基于深度学习的基因检测报告信息识别方法,其特征在于,所述基因检测报告的文件格式包括:PDF格式或原始图片格式;所述获取基因检测报告并处理为目标图片格式,具体包括:当基因检测报告为PDF格式文件,则将其通过格式转换为目标图片格式文件,以将PDF格式文件逐页输出为页面图片集合;其中,所述将PDF格式文件逐页输出为页面图片集合具体为:通过java语言编程中的ApachePDFBox开源工具或通过python语言编程中的PyMuPDF库实现;当基因检测报告为原始图片格式文件,则将其通过预处理为目标图片格式文件;其中,所述预处理包括旋转校正、弯曲校正;将原始图片格式文件通过预处理转换为目标图片格式文件具体为:通过文档校正算法DocTR实现。3.根据权利要求1所述的基于深度学习的基因检测报告信息识别方法,其特征在于,所述通过OCR文字识别技术提取所述目标图片格式文件中每个页面的文本信息数据,包括:利用文本检测模型识别所述目标图片格式文件中每个页面的文本行区域以得到文本行图像;利用文字识别模型对所述文本行图像进行识别以得到对应的文本信息数据。4.根据权利要求3所述的基于深度学习的基因检测报告信息识别方法,其特征在于,对所述文本信息数据进行基因测序信息识别以得到包含基因测序信息的基因测序信息页,包括:对提取到的历史页面中的文本信息数据进行基因测序信息有无的标签标注以得到标注页面,并将其输入至第一二分类模型进行训练,以供识别待判断页面是否为包含基因测序信息的基因测序信息页。5.根据权利要求4所述的基于深度学习的基因检测报告信息识别方法,其特征在于,所述对所述基因测序信息页进行表格提取,并对提取到的所有表格进行分类识别以得到包含基因测序信息的基因测序信息表格,包括:利用深度学习图像分割模型,通过像素分类提取出历史基因测序信息页中的表格区域,以得到所有的原始表格图像;对提取到的所有的原始表格图像中的文本信息数据进行基因测序信息有无的标签标注,以得到第一标注表格图像,并将其输入至第二二分类模型进行训练,以供识别待判断表格图像是否为包含基因测序信息的基因测序...

【专利技术属性】
技术研发人员:康玉徐丛剑陈敏欣吴志勇郜意胥婧王辉郁培基
申请(专利权)人:复旦大学附属妇产科医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1