本发明专利技术公开了一种搜索方法,包括:确定待搜索的表格文件,所述表格文件包括至少一个工作表,所述工作表中包含至少一个表格;获取所述表格文件的结构化信息,所述结构化信息包括所述表格文件所包含表格的表格信息;根据所述结构化信息和搜索语句在所述表格文件中进行搜索,并展示搜索得到的搜索结果。该方法通过获取表格文件的结构化信息,并根据结构化信息和搜索语句在表格文件中进行搜索,能够在提高表格识别速度的同时,实现从海量电子表格进行条件查找的功能,提高搜索的范围。提高搜索的范围。提高搜索的范围。
【技术实现步骤摘要】
一种搜索方法
[0001]本专利技术涉及数据处理
,尤其涉及一种搜索方法。
技术介绍
[0002]由于强大的分析能力与展示能力,Excel等电子表格被广泛应用于数据的组织、整理、归纳、分析与展示等场景。因此如何从表格文件中识别结构化的信息,并进行条件搜索成为亟待解决的问题。
[0003]现有的表格识别方法主要是基于卷积神经网络与OCR技术来实现的,如TableSense,但是,由于其复杂的网络结构,在一些对于速度要求较高的场景中并不适用,且实际效果经过测试也未达到使用要求。
[0004]此外,现有的搜索方法大多是基于单一表格内容来实现按条件查找的功能,故搜索范围较为单一。
技术实现思路
[0005]本专利技术提供了一种搜索方法,以在提高表格识别速度的同时,实现从海量电子表格进行条件查找的功能,提高搜索的范围。
[0006]根据本专利技术的一方面,提供了一种搜索方法,包括:
[0007]确定待搜索的表格文件,所述表格文件包括至少一个工作表,所述工作表中包含至少一个表格;
[0008]获取所述表格文件的结构化信息,所述结构化信息包括所述表格文件所包含表格的表格信息;
[0009]根据所述结构化信息和搜索语句在所述表格文件中进行搜索,并展示搜索得到的搜索结果。
[0010]可选的,所述获取所述表格文件的结构化信息,包括:
[0011]确定所述表格文件中各单元格对应的单元格类别,所述单元格类别包括列头单元格、数据单元格和其他单元格中的至少一项,所述其他单元格为所述表格文件中除所述列头单元格和所述数据单元格之外的单元格;
[0012]基于各单元格对应的单元格类别确定所述表格文件所包含有效表格的表头区域和数据区域;
[0013]根据所述有效表格的表头区域和数据区域,确定所述表格文件的结构化信息。
[0014]可选的,所述确定所述表格文件中各单元格对应的单元格类别,包括:
[0015]确定所述表格文件中各单元格对应的特征向量,所述特征向量用于表征所述单元格的基本属性,所述基本属性包括文本属性、样式属性、字体属性和空间属性中的至少一项;
[0016]将各单元格对应的特征向量输入至分类器模型中,得到各单元格对应的单元格类别。
[0017]可选的,所述确定所述表格文件中各单元格对应的特征向量,包括:
[0018]对所述表格文件进行解析,得到所述表格文件中各单元格的基本属性;
[0019]将所述基本属性转换为特征向量。
[0020]可选的,在所述将各单元格对应的特征向量输入至分类器模型中,得到各单元格对应的单元格类别之前,还包括:
[0021]基于训练样本对待训练模型进行训练,得到所述分类器模型,所述待训练模型为LightGBM模型。
[0022]可选的,所述基于各单元格对应的单元格类别确定所述表格文件所包含有效表格的表头区域和数据区域,包括:
[0023]基于区域生长算法确定所述表格文件所包含的有效表格;
[0024]根据所述有效表格内所包含单元格的单元格类别,确定所述有效表格的列头区域和数据区域。
[0025]可选的,所述基于区域生长算法确定所述表格文件所包含的有效表格,包括:
[0026]基于区域生长算法确定所述表格文件中的生长区域以及所述生长区域的第一坐标和第二坐标,所述第一坐标包括所述生长区域中第一边缘单元格对应的第一横坐标和第一纵坐标,所述第二坐标包括所述生长区域中第二边缘单元格对应的第二横坐标和第二纵坐标;
[0027]针对每一个生长区域,根据所述生长区域的第一坐标和第二坐标确定所述生长区域所包含的单元格是否满足预设条件;若是,则将所述生长区域构成的表格确定为有效表格。
[0028]可选的,所述根据所述有效表格内所包含单元格的单元格类别,确定所述有效表格的列头区域和数据区域,包括:
[0029]确定所述有效表格中每行的标签,并按照每行的行号和每行的标签确定所述有效表格的表头行号数组、数据行号数组以及其他行号数组,所述其他行号数组中包含所述有效表格中未位于所述表头行号数组和所述数据行号数组内的行号;
[0030]基于所述有效表格的表头行号数组和数据行号数组确定所述有效表格的标题;
[0031]根据启发式方法对所述有效表格的表头行号数组、数据行号数组以及其他行号数组进行验证,得到所述有效表格的列头区域和数据区域。
[0032]可选的,所述根据启发式方法对所述有效表格的表头行号数组、数据行号数组以及其他行号数组进行验证,得到所述有效表格的列头区域和数据区域,包括:
[0033]基于所述表头行号数组、所述数据行号数组以及所述其他行号数组,确定所述有效表格中列头的初始区域以及所述有效表格的数据区域;
[0034]根据启发式方法对所述初始区域进行有效性验证;
[0035]若验证成功,则将所述初始区域确定为所述有效表格的列头区域。
[0036]可选的,所述根据启发式方法对所述初始区域进行有效性验证,包括:
[0037]拆分所述初始区域中的合并单元格,并将所述合并单元格中第三边缘单元格的基本属性复制给所述合并单元格中除所述第三边缘单元格之外的其他单元格;
[0038]判断所述初始区域中各单元格所存储内容的类型是否均为预设类型;
[0039]若是,则确定所述初始区域验证成功。
[0040]可选的,所述展示搜索得到的搜索结果,包括:
[0041]若所述搜索语句为关键词搜索语句或条件搜索语句,则根据所述结构化信息展示包含搜索得到的搜索结果的有效表格,并将所述搜索结果高亮显示;
[0042]若所述搜索语句为统计计算语句,则以图表的形式展示搜索得到的搜索结果。
[0043]本专利技术实施例提供了一种搜索方法,确定待搜索的表格文件,所述表格文件包括至少一个工作表,所述工作表中包含至少一个表格;获取所述表格文件的结构化信息,所述结构化信息包括所述表格文件所包含表格的表格信息;根据所述结构化信息和搜索语句在所述表格文件中进行搜索,并展示搜索得到的搜索结果。利用上述技术方案,通过获取表格文件的结构化信息,并根据结构化信息和搜索语句在表格文件中进行搜索,能够在提高表格识别速度的同时,实现从海量电子表格进行条件查找的功能,提高搜索的范围。
[0044]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0045]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046]图1是根据本专利技术实施例一提供的一种搜索方法的流程图;
[0047]图2本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种搜索方法,其特征在于,包括:确定待搜索的表格文件,所述表格文件包括至少一个工作表,所述工作表中包含至少一个表格;获取所述表格文件的结构化信息,所述结构化信息包括所述表格文件所包含表格的表格信息;根据所述结构化信息和搜索语句在所述表格文件中进行搜索,并展示搜索得到的搜索结果。2.根据权利要求1所述的方法,其特征在于,所述获取所述表格文件的结构化信息,包括:确定所述表格文件中各单元格对应的单元格类别,所述单元格类别包括列头单元格、数据单元格和其他单元格中的至少一项,所述其他单元格为所述表格文件中除所述列头单元格和所述数据单元格之外的单元格;基于各单元格对应的单元格类别确定所述表格文件所包含有效表格的表头区域和数据区域;根据所述有效表格的表头区域和数据区域,确定所述表格文件的结构化信息。3.根据权利要求2所述的方法,其特征在于,所述确定所述表格文件中各单元格对应的单元格类别,包括:确定所述表格文件中各单元格对应的特征向量,所述特征向量用于表征所述单元格的基本属性,所述基本属性包括文本属性、样式属性、字体属性和空间属性中的至少一项;将各单元格对应的特征向量输入至分类器模型中,得到各单元格对应的单元格类别。4.根据权利要求3所述的方法,其特征在于,所述确定所述表格文件中各单元格对应的特征向量,包括:对所述表格文件进行解析,得到所述表格文件中各单元格的基本属性;将所述基本属性转换为特征向量。5.根据权利要求3所述的方法,其特征在于,在所述将各单元格对应的特征向量输入至分类器模型中,得到各单元格对应的单元格类别之前,还包括:基于训练样本对待训练模型进行训练,得到所述分类器模型,所述待训练模型为LightGBM模型。6.根据权利要求2所述的方法,其特征在于,所述基于各单元格对应的单元格类别确定所述表格文件所包含有效表格的表头区域和数据区域,包括:基于区域生长算法确定所述表格文件所包含的有效表格;根据所述有效表格内所包含单元格的单元格类别,确定所述有效表格的列头区域和数据区域。7.根据权利要求6所述的方法,其特征在于,所述基于区域生长算法确定所述表格文件所包含的有效表格,包括:基于区域生长算法确定所述表格文件中的生长区域以及所述生长区域的第一坐标和第二坐标,所述第...
【专利技术属性】
技术研发人员:张博航,
申请(专利权)人:上海爱数信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。