一种搜索方法技术

技术编号:37392964 阅读:33 留言:0更新日期:2023-04-27 07:30
本发明专利技术公开了一种搜索方法,包括:确定待搜索的表格文件,所述表格文件包括至少一个工作表,所述工作表中包含至少一个表格;获取所述表格文件的结构化信息,所述结构化信息包括所述表格文件所包含表格的表格信息;根据所述结构化信息和搜索语句在所述表格文件中进行搜索,并展示搜索得到的搜索结果。该方法通过获取表格文件的结构化信息,并根据结构化信息和搜索语句在表格文件中进行搜索,能够在提高表格识别速度的同时,实现从海量电子表格进行条件查找的功能,提高搜索的范围。提高搜索的范围。提高搜索的范围。

【技术实现步骤摘要】
一种搜索方法


[0001]本专利技术涉及数据处理
,尤其涉及一种搜索方法。

技术介绍

[0002]由于强大的分析能力与展示能力,Excel等电子表格被广泛应用于数据的组织、整理、归纳、分析与展示等场景。因此如何从表格文件中识别结构化的信息,并进行条件搜索成为亟待解决的问题。
[0003]现有的表格识别方法主要是基于卷积神经网络与OCR技术来实现的,如TableSense,但是,由于其复杂的网络结构,在一些对于速度要求较高的场景中并不适用,且实际效果经过测试也未达到使用要求。
[0004]此外,现有的搜索方法大多是基于单一表格内容来实现按条件查找的功能,故搜索范围较为单一。

技术实现思路

[0005]本专利技术提供了一种搜索方法,以在提高表格识别速度的同时,实现从海量电子表格进行条件查找的功能,提高搜索的范围。
[0006]根据本专利技术的一方面,提供了一种搜索方法,包括:
[0007]确定待搜索的表格文件,所述表格文件包括至少一个工作表,所述工作表中包含至少一个表格;r/>[0008]获本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种搜索方法,其特征在于,包括:确定待搜索的表格文件,所述表格文件包括至少一个工作表,所述工作表中包含至少一个表格;获取所述表格文件的结构化信息,所述结构化信息包括所述表格文件所包含表格的表格信息;根据所述结构化信息和搜索语句在所述表格文件中进行搜索,并展示搜索得到的搜索结果。2.根据权利要求1所述的方法,其特征在于,所述获取所述表格文件的结构化信息,包括:确定所述表格文件中各单元格对应的单元格类别,所述单元格类别包括列头单元格、数据单元格和其他单元格中的至少一项,所述其他单元格为所述表格文件中除所述列头单元格和所述数据单元格之外的单元格;基于各单元格对应的单元格类别确定所述表格文件所包含有效表格的表头区域和数据区域;根据所述有效表格的表头区域和数据区域,确定所述表格文件的结构化信息。3.根据权利要求2所述的方法,其特征在于,所述确定所述表格文件中各单元格对应的单元格类别,包括:确定所述表格文件中各单元格对应的特征向量,所述特征向量用于表征所述单元格的基本属性,所述基本属性包括文本属性、样式属性、字体属性和空间属性中的至少一项;将各单元格对应的特征向量输入至分类器模型中,得到各单元格对应的单元格类别。4.根据权利要求3所述的方法,其特征在于,所述确定所述表格文件中各单元格对应的特征向量,包括:对所述表格文件进行解析,得到所述表格文件中各单元格的基本属性;将所述基本属性转换为特征向量。5.根据权利要求3所述的方法,其特征在于,在所述将各单元格对应的特征向量输入至分类器模型中,得到各单元格对应的单元格类别之前,还包括:基于训练样本对待训练模型进行训练,得到所述分类器模型,所述待训练模型为LightGBM模型。6.根据权利要求2所述的方法,其特征在于,所述基于各单元格对应的单元格类别确定所述表格文件所包含有效表格的表头区域和数据区域,包括:基于区域生长算法确定所述表格文件所包含的有效表格;根据所述有效表格内所包含单元格的单元格类别,确定所述有效表格的列头区域和数据区域。7.根据权利要求6所述的方法,其特征在于,所述基于区域生长算法确定所述表格文件所包含的有效表格,包括:基于区域生长算法确定所述表格文件中的生长区域以及所述生长区域的第一坐标和第二坐标,所述第...

【专利技术属性】
技术研发人员:张博航
申请(专利权)人:上海爱数信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1