一种多模态数据中特定人名及单位名属性的提取方法技术

技术编号:35780903 阅读:26 留言:0更新日期:2022-12-01 14:26
本发明专利技术提供的一种多模态数据中特定人名及单位名属性的提取方法包括:获取原始数据文件;采用图像文字识别方法识别所述原始数据文件中的图像中的文本;将图像文字识别文本框转为文本序列,获得图片识别的纯文本结果;从所述纯文本结果中筛选目标信息的数据,获得目标文本;从所述目标文本中识别文本里的人名结果和单位名实体;对所述人名结果增强处理,获得增强人名结果;根据所述增强人名结果对人物单位进行匹配。通过分析数据内部关键信息间的逻辑关联,逐步把满足所有逻辑关系约束的目标结果状态识别出来,通过识别人物及单位的例子具体说明这一算法范式的操作细节。体说明这一算法范式的操作细节。体说明这一算法范式的操作细节。

【技术实现步骤摘要】
一种多模态数据中特定人名及单位名属性的提取方法


[0001]本专利技术涉及数据识别领域,尤其涉及一种多模态数据中特定人名及单位名属性的提取方法。

技术介绍

[0002]从数据中识别特定类别的有价值信息的过程称为信息抽取,信息抽取的过程面临两个关键问题,第一是数据格式,不同格式数据需按特性采取不同手段的加工处理方法,多种格式间数据融合存在更复杂的对齐和交互问题;第二是抽取算法,大体上可分为基于规则的方法和基于机器学习的方法,基于规则的方法启动方便,可灵活注入知识,但结果呆板,需大量人工逻辑调试,基于机器学习的方法在某些抽象问题上可取得规则无法实现的良好结果,但需要大量领域内数据标注。本工作解决的问题是从包括文本数据和图像数据的多模态数据中识别人物及其对应的单位,用于辅助下游工作。

技术实现思路

[0003]鉴于上述问题,提出了本专利技术以便提供克服上述问题或者至少部分地解决上述问题的一种多模态数据中特定人名及单位名属性的提取方法。
[0004]根据本专利技术的一个方面,提供了一种多模态数据中特定人名及单位名属性的提取方法包本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多模态数据中特定人名及单位名属性的提取方法,其特征在于,所述提取方法包括:获取原始数据文件;采用图像文字识别方法识别所述原始数据文件中的图像中的文本;将图像文字识别文本框转为文本序列,获得图片识别的纯文本结果;从所述纯文本结果中筛选目标信息的数据,获得目标文本;从所述目标文本中识别文本里的人名结果和单位名实体;对所述人名结果增强处理,获得增强人名结果;根据所述增强人名结果对人物单位进行匹配。2.根据权利要求1所述的一种多模态数据中特定人名及单位名属性的提取方法,其特征在于,所述获取原始数据文件具体包括:原始数据文件格式包括纯文本、图片、同时包含文本和图片的文档;对所述纯文本,编号后存档;对所述图片,编号后存档;对同时包含文本和图片的文档,采用现成工具提取文本内容和所有图片,分类编号存档,并保存存档文件和原始文件的对应关系。3.根据权利要求1所述的一种多模态数据中特定人名及单位名属性的提取方法,其特征在于,所述采用图像文字识别方法识别所述原始数据文件中的图像中的文本具体包括:输入为图片,输出为文本框序列,每个文本框包括位置坐标和文本内容;很多图片为适应移动端查看会做成长宽尺寸比例很大的长图,直接通过图像文字识别模型识别时会重调图片尺寸,当图片长度超过某一阈值且长宽比例超过某一阈值时,进入切图流程;先按固定长度截取子图,识别文本,当没有识别到文本框或最后一个文本框位置距离子图下边界超过某一阈值时,将切割下界作为下一次切割上界,否则认为有把文本框从中间切开的风险,将最后一个文本框下边缘作为下一次切割上界,再继续按固定长度截取子图,直到整个长图处理完成,根据切割位置偏置修改识别结果里文本框的真实坐标位置;对每张图片的识别结果存档,并保存识别结果文件和原始图片文件的对应关系。4.根据权利要求1所述的一种多模态数据中特定人名及单位名属性的提取方法,其特征在于,所述将图像文字识别文本框转为文本序列,获得图片识别的纯文本结果具体包括:将图像文字识别文本框转为文本序列;微调对齐文本框位置,对所有文本框,计算左上左下角横坐标均值并替换原始值,计算右上右下角横坐标均值并替换原始值,计算左上右上纵坐标均值并替换原始值,计算左下右下纵坐标均值并替换原始值;对所有文本框按左上角横坐标排序,对相邻文本框,如果左边界距离不超过某一阈值,则归为一组,否则归为不同组,最后同组文本框左边界取均值并替换原始值;对右边界、上边界、下边界进行同样的操作;保证所有文本框均为相对平行的长方形,且相近文本框的边界位置对齐;将文本框顺序恢复为原本从左到...

【专利技术属性】
技术研发人员:文栋谢燮张新燕
申请(专利权)人:惠每数科北京医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1