【技术实现步骤摘要】
医疗文档的分析方法、装置、设备及介质
[0001]本申请涉及到数字医疗
,特别是涉及到一种医疗文档的分析方法、装置、设备及介质。
技术介绍
[0002]文档智能主要是指对于扫描文档所包含的文本、排版信息,通过人工智能的文档智能技术进行理解、分类、提取以及信息归纳。根据文档智能技术所得到的结构化数据可以进行更上层的智能化应用,比如:信息挖掘、智能决策等。现有技术的文档智能化方法,要么根据给定的某些字段自动从文档中抽取相应的值,要么为影像中的每个字赋予一个综合“布局信息”和“语义信息”的向量表示以实现为下游任务提供帮助。然而,医疗文档存在多样化,比如:挂号单、化验单、处方单、门诊手册、住院病历、收费账单等,导致现有技术的文档智能化方法难以满足对医疗文档的信息进行多样化的使用需求,从而需要针对不同的应用需求场景进行针对性开发获取不同的信息提取方案,极大增加了成本同时难以维护优化。
技术实现思路
[0003]本申请的主要目的为提供一种医疗文档的分析方法、装置、设备及介质,旨在解决因为医疗文档存在多样化,导致现有 ...
【技术保护点】
【技术特征摘要】
1.一种医疗文档的分析方法,其特征在于,所述方法包括:获取目标医疗文档图像数据;采用OCR技术,对所述目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合;根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合;对所述表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;根据所述区域连通文本块位置数据集合和所述非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据;根据所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行组合,得到所述目标医疗文档图像数据对应的目标结构化数据。2.根据权利要求1所述的医疗文档的分析方法,其特征在于,所述采用OCR技术,对所述目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合的步骤,包括:采用OCR技术,对所述目标医疗文档图像数据中的文本数据进行识别,将识别得到的每个区域连通的文本数据作为一个区域连通文本块;将待识别位置的区域连通文本块的左上角第一个字符在所述目标医疗文档图像数据中的位置数据作为所述待识别位置的区域连通文本块对应的区域连通文本块位置数据,其中,所述待识别位置的区域连通文本块是任一个所述区域连通文本块;将所有所述区域连通文本块作为所述区域连通文本块集合;将所有所述区域连通文本块位置数据作为所述区域连通文本块位置数据集合。3.根据权利要求1所述的医疗文档的分析方法,其特征在于,所述根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合的步骤,包括:采用图像标注工具,根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行图像生成、区域连通文本块边框线生成及待判断的内容连通文本块边框线生成,得到可编辑文本的图像数据;根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述可编辑文本的图像数据进行布局分析,得到所述表格内容连通文本块集合和所述非表格内容连通文本块集合。4.根据权利要求3所述的医疗文档的分析方法,其特征在于,所述根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述可编辑文本的图像数据进行布局分析,得到所述表格内容连通文本块集合和所述非表格内容连通文本块集合的步骤,包括:根据所述可编辑文本的图像数据和所述区域连通文本块位置数据集合,对所述区域连通文本块集合进行划分,得到表格文本数据块集合和非表格文本数据块集合;采用预设的序列标注模型,根据所述区域连通文本块位置数据集合,分别对所述表格文本数据块集合中的每个区域连通文本块进行标签标注,得到所述表格文本数据块集合对
应的表格数据块标签序列;根据所述表格数据块标签序列,对所述表格文本数据块集合进行内容连通文本块划分,得到所述表格内容连通文本块集合;采用所述预设的序列标注模型,根据所述区域连通文本块位置数据集合,分别对所述非表格文本数据块集合中的每个所述区域连通文本块进行标签标注,得到所述非表格文本数据块集合对应的非表格数据块标签序列;根据所述非表格数据块标签序列,对所述非表格文本数据块集合进行内容连通文本块划分,得到所述非表格内容连通文本块集合。5.根据权利要求1所述的医疗文档的分析方法,其特征在于,所述对所述表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据的步骤,包括:采用预设的表格分类模型,分别对所述表格内容连通文本块集合中的每个内容连通文本块进行表格分类,得到所述表格内容连通文本块集合中各个所述内容连通文本块各自对应的待处理的表格类别;根据所有所述待处理的表格...
【专利技术属性】
技术研发人员:刘东煜,陈乐清,曾增烽,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。