基于视觉和文本特征的通用表格信息检索的方法与系统技术方案

技术编号:26762839 阅读:22 留言:0更新日期:2020-12-18 23:17
本发明专利技术所提供的基于视觉和文本特征的通用表格信息检索的方法与系统,该方法包括输入格式标准化、表格内容索引、基本内容单元的向量化表示、查询的向量化表示、融合视觉特征的表格信息检索、内容单元合并、答案筛选并返回。基于本发明专利技术所述通用表格信息检索方法与系统可以用于以电子文档、网页、PDF和图片等多种格式出现的表格,本发明专利技术在现有基于文本特征的表格问答系统的基础上,联合表格的视觉特征,如表格的框线、基本内容单元的坐标、文本的字体、颜色和缩进等,自动根据所提问题对存在丰富视觉信息的非规范化表格进行信息检索,极大提升了对文档的检索能力,且提高了检索结果的精确度。

【技术实现步骤摘要】
基于视觉和文本特征的通用表格信息检索的方法与系统
本专利技术涉及信息检索
,尤其涉及的是基于视觉和文本特征的通用表格信息检索的方法与系统。
技术介绍
随着大数据时代的到来,如何有效检索和利用海量文档以发掘其中巨大潜在应用价值成为亟待解决的问题。例如,通过对政府或金融机构发布的官方文档进行批量分析处理,可以为政府或金融机构的决策提供有效依据。文档常见的类型包括表格,其中,表格作为一种信息载体,以其对数据的组织方式简洁明了、易于分析比较的优势,在人们的日常生活中被广泛使用。而表格分析中重要的组成部分为表格信息检索,即根据表格回答用户以自然语言的形式提出的问题。而表格信息检索根据其处理的数据可以分为两类,一类是文档中的表格,其数据往往经过了精心整理和排布以便阅读,且会通过基本内容单元合并和分类汇总处理,以减少重复项。另一类是根据数据库表格回答问题,相较于文档表格,其表格结构需要遵守一定范式。近年来,基于深度学习的表格的问答模型不断被提出,并在各表格问答数据集上占据明显优势。其中,问答模型在实现上也可以分为两类,一类根据表格文本和本文档来自技高网...

【技术保护点】
1.一种基于视觉和文本特征的通用表格信息检索的方法,其特征在于,包括:/n获取原始表格,将原始表格转换成图片;/n识别图片中的基本内容单元,为每个基本内容单元构建索引,所述索引由像素位置坐标和基本文本内容构成;/n为每个基本内容单元编码对应的基本特征向量,所述基本特征向量包括视觉特征向量、坐标特征向量和文本特征向量;/n当接收到查询请求时,根据接收到的待查询文本内容,编码对应的待查询特征向量;/n根据待查询特征向量和基本特征向量确定与待查询文本内容对应的索引号,并根据索引号返回检索结果。/n

【技术特征摘要】
1.一种基于视觉和文本特征的通用表格信息检索的方法,其特征在于,包括:
获取原始表格,将原始表格转换成图片;
识别图片中的基本内容单元,为每个基本内容单元构建索引,所述索引由像素位置坐标和基本文本内容构成;
为每个基本内容单元编码对应的基本特征向量,所述基本特征向量包括视觉特征向量、坐标特征向量和文本特征向量;
当接收到查询请求时,根据接收到的待查询文本内容,编码对应的待查询特征向量;
根据待查询特征向量和基本特征向量确定与待查询文本内容对应的索引号,并根据索引号返回检索结果。


2.根据权利要求1所述的基于视觉和文本特征的通用表格信息检索的方法,其特征在于,所述识别图片中的基本内容单元,为每个基本内容单元构建索引包括以下步骤:
定位图片中的原始表格,得到标准表格;
标准表格进行切分,得到各基本内容单元及对应的像素位置坐标;
通过字符检测模型对各基本内容单元进行字符检测,得到各基本内容单元对应的基本文本内容;
根据各基本文本内容和像素位置坐标构建各基本内容单元的索引。


3.根据权利要求1所述的基于视觉和文本特征的通用表格信息检索的方法,其特征在于,所述为每个基本内容单元编码对应的基本特征向量包括以下步骤:
对标准表格进行视觉特征抽取,得到对应的视觉特征图;
根据视觉特征图和像素位置坐标编码各基本内容单元对应的视觉特征向量;
对像素位置坐标进行规范化,并编码各基本内容单元对应的坐标特征向量;
对基本文本内容进行编码,得到各基本内容单元对应的文本特征向量。


4.根据权利要求1所述的基于视觉和文本特征的通用表格信息检索的方法,其特征在于,所述根据待查询特征向量和基本特征向量确定与待查询文本内容对应的索引号,并根据索引号返回检索结果具体包括:
将各基本特征向量中的视觉特征向量、坐标特征向量和文本特征向量进行特征融合,得到融合特征;
结合待查询文本和融合特征之间的语义逻辑关系,以及标准表格行列对应关系,得到各基本内容单元之间的高层特征信息;
将高层特征信息映射到固定长度,作为各基本内容单元对应的高层语义特征;
根据各高层语义特征,分别计算各基本内容单元与待查询文本内容的匹配度,并将匹配度大于匹配阈值的基本内容单元输出。


5.根据权利要求1所述的基于视觉和文本特征的通用表格信息检索的方法,其特征在于,所述根据待查询特征向量和基本特征向量确定与待查询文本内容对应的索引号,并根据索引号返回检索结果之后包括:
判断大于匹配阈值的基本内容单元中,是否存在多个基本内容单元属于同一个单元格的情况;
若存在,将大于匹配阈值的基本内容单元中、...

【专利技术属性】
技术研发人员:陈清财吴黄子桑李东方吴湘平蒋硕然
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1