EXCEL数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:39066339 阅读:10 留言:0更新日期:2023-10-12 19:59
本申请提供一种EXCEL数据处理方法、装置、设备及存储介质。该方法包括:通过图像识别的方法,从初始EXCEL模板中提取所有KEY以及每个KEY对应的VALUE,以生成EXCEL模板。获取待提取EXECL,根据待提取EXECL中的N个第一KEY,从多个EXCEL模板中获取待提取EXECL对应的目标EXCEL模板。根据该目标EXCEL模板中的目标第二KEY、与该目标第二KEY相邻的第二KEY,确定待提取EXECL中该目标第一KEY对应的目标第一VALUE的区域。根据该目标第一VALUE的区域,提取该目标第一VALUE的内容,并根据该目标第一VALUE的内容的多种文本属性,使用与每种文本属性对应的分类方法对该目标第一VALUE的内容进行分类,并根据该分类结果数据结构化存储该目标第一VALUE的内容。本申请的方法,提高了EXCEL数据表中的字段内容的数据提取效率。据表中的字段内容的数据提取效率。据表中的字段内容的数据提取效率。

【技术实现步骤摘要】
EXCEL数据处理方法、装置、设备及存储介质


[0001]本申请涉及数据处理技术,尤其涉及一种EXCEL数据处理方法、装置、设备及存储介质。

技术介绍

[0002]目前,EXCEL数据广泛应用于各行各业。在用户手动填写EXCEL数据时,通常会遇到EXCEL模板中填写KEY对应的VALUE的区域不足的情况。通常,用户往往会通过插入行、或者插入列的方式,增加该VALUE的区域,以应对VALUE的区域不足的情况。
[0003]然而,通过上述手动插入行、或者插入列的方式,会使得该EXCEL模板的版式发生变化(该EXCEL数据表变为与EXCEL模板版式不同的非标EXCEL数据表),即KEY对应的VALUE的区域发生了变化。在用户完成填写后,若要对填写后的EXCEL数据表中的字段内容进行提取和存储,则会由于该KEY对应的VALUE的区域的变化,使得字段内容的提取工作变得复杂。
[0004]因此,如何提取非标EXCEL数据表中的字段内容是亟需解决的问题。

技术实现思路

[0005]本申请提供一种EXCEL数据处理方法、装置、设备及存储介质,用以解决如何提取非标EXCEL数据表中的字段内容的问题。
[0006]第一方面,本申请提供一种EXCEL数据处理方法,包括:
[0007]获取待提取EXECL,所述待提取EXECL中包括N个第一KEY、N个与所述第一KEY的第一VALUE;
[0008]根据所述待提取EXECL中的N个所述第一KEY,获取所述待提取EXECL对应的目标EXCEL模板,所述目标EXCEL模板中存在N个与所述第一KEY匹配的第二KEY、N个与所述第二KEY对应的第二VALUE;
[0009]根据所述目标EXCEL模板中的目标第二KEY、与所述目标第二KEY相邻的第二KEY,确定所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置;所述目标第一KEY与所述目标第二KEY的内容相同,所述与所述目标第二KEY相邻的第二KEY包括所述目标第二KEY右侧相邻的第二KEY1、所述目标第二KEY下侧相邻的第二KEY2,所述与所述目标第一KEY相邻的第一KEY包括所述目标第一KEY右侧相邻的第一KEY1、所述目标第一KEY下侧相邻的第一KEY2,所述第一KEY1与所述第二KEY1的内容相同,所述第一KEY2与所述第二KEY2的内容相同;
[0010]根据所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置,确定所述待提取EXECL中所述目标第一KEY对应的目标第一VALUE的区域;
[0011]根据所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理。
[0012]可选的,所述根据所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置,确定所述待提取EXECL中所述目标第一KEY对应的目标第一VALUE的区域,包括:
[0013]根据所述目标第一KEY的位置,确定所述目标第一VALUE区域的左上顶点的位置;
[0014]根据所述第一KEY1的位置,确定所述目标第一VALUE区域的右上顶点的位置;
[0015]根据所述第一KEY2的位置,确定所述目标第一VALUE区域的左下顶点的位置;
[0016]根据所述目标第一VALUE区域的左上顶点的位置、所述右上顶点的位置、以及所述左下顶点的位置,确定第一VALUE的区域。
[0017]可选的,所述根据所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:
[0018]获取所述目标第一KEY的属性,所述目标第一KEY的属性包括长文本属性、短文本属性、图像属性中的至少一项;
[0019]根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理。
[0020]可选的,所述目标第一KEY为长文本属性,所述根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:
[0021]从所述目标第一VALUE的区域中获取所述目标第一VALUE的长文本内容,并对所述长文本内容进行分词处理;
[0022]将所述分词处理的结果生成词向量;
[0023]根据所述词向量,以及,文本分类神经网络模型,获得分词分类结果;
[0024]根据所述分词分类结果对所述目标第一VALUE进行量化存储。
[0025]可选的,所述目标第一KEY为短文本属性,所述根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:
[0026]从所述目标第一VALUE的区域中获取所述目标第一VALUE的短文本内容;
[0027]根据所述短文本内容,以及,预设的匹配算法,确定所述短文本内容的分类结果;
[0028]根据所述短文本内容的分类结果对所述目标第一VALUE进行量化存储。
[0029]可选的,所述目标第一KEY为图像属性,所述目标第一VALUE包括已选择区域与未选择区域,所述根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:
[0030]获取所述目标第一KEY的位置,以及,所述目标第一VALUE的位置;
[0031]根据所述目标第一KEY的位置,以及,所述目标第一VALUE的位置,生成包括所述目标第一KEY和所述目标第一VALUE的第一图像;
[0032]根据所述第一图像,以及,预设图像分类模型,确定所述目标第一VALUE的已选择区域;
[0033]对所述目标第一VALUE的已选择区域进行量化存储。
[0034]可选的,在获取待提取EXECL之前,还包括:
[0035]获取初始EXCEL模板,所述初始EXCEL模板中存在N个所述第二KEY、N个所述第二VALUE;
[0036]将所述初始EXCEL模板转化为目标图像,并获取所述目标图像中的每个单元格的位置;
[0037]根据每个单元格的位置,获取N个所述第二KEY、N个所述第二KEY的位置、N个所述第二VALUE、以及、N个所述第二VALUE的位置;
[0038]根据所述N个所述第二KEY、N个所述第二KEY的位置、N个所述第二VALUE、以及、N个所述第二VALUE的位置,生成所述目标EXCEL模板。
[0039]第二方面,本申请提供一种EXCEL数据处理装置,包括:
[0040]获取模块,用于获取待提取EXECL,所述待提取EXECL中包括N个第一KEY、N个与所述第一KEY的第一VALUE;
[0041]处理模块,用于根据所述待提取EXECL中的N个所述第一KEY,获取所述待提取EXECL对应的目标EXCEL模板;根据所述目标EXC本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种EXCEL数据处理方法,其特征在于,包括:获取待提取EXECL,所述待提取EXECL中包括N个第一KEY、N个与所述第一KEY的第一VALUE;根据所述待提取EXECL中的N个所述第一KEY,获取所述待提取EXECL对应的目标EXCEL模板,所述目标EXCEL模板中存在N个与所述第一KEY匹配的第二KEY、N个与所述第二KEY对应的第二VALUE;根据所述目标EXCEL模板中的目标第二KEY、与所述目标第二KEY相邻的第二KEY,确定所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置;所述目标第一KEY与所述目标第二KEY的内容相同,所述与所述目标第二KEY相邻的第二KEY包括所述目标第二KEY右侧相邻的第二KEY1、所述目标第二KEY下侧相邻的第二KEY2,所述与所述目标第一KEY相邻的第一KEY包括所述目标第一KEY右侧相邻的第一KEY1、所述目标第一KEY下侧相邻的第一KEY2,所述第一KEY1与所述第二KEY1的内容相同,所述第一KEY2与所述第二KEY2的内容相同;根据所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置,确定所述待提取EXECL中所述目标第一KEY对应的目标第一VALUE的区域;根据所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理。2.根据权利要求1所述的方法,其特征在于,所述根据所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置,确定所述待提取EXECL中所述目标第一KEY对应的目标第一VALUE的区域,包括:根据所述目标第一KEY的位置,确定所述目标第一VALUE区域的左上顶点的位置;根据所述第一KEY1的位置,确定所述目标第一VALUE区域的右上顶点的位置;根据所述第一KEY2的位置,确定所述目标第一VALUE区域的左下顶点的位置;根据所述目标第一VALUE区域的左上顶点的位置、所述右上顶点的位置、以及所述左下顶点的位置,确定第一VALUE的区域。3.根据权利要求1或2任一项所述的方法,其特征在于,所述根据所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:获取所述目标第一KEY的属性,所述目标第一KEY的属性包括长文本属性、短文本属性、图像属性中的至少一项;根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理。4.根据权利要求3所述的方法,其特征在于,所述目标第一KEY为长文本属性,所述根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:从所述目标第一VALUE的区域中获取所述目标第一VALUE的长文本内容,并对所述长文本内容进行分词处理;将所述分词处理的结果生成词向量;根据所述词向量,以及,文本分类神经网络模型,获得分词分类结果;根据所述分词分类结果对所述目标第一VALUE进行量化存储。5.根据权利要求3所述的方法,其特征在于,所述目标第一KEY为短文本属性,所述根据
所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:从所述目标第一VALUE的区域中获取所述目标第一VALUE的短文本内容;根据所述短文本内容,以及,预设的匹配算法,确定所述短文本内容的分类结果;根据所述短...

【专利技术属性】
技术研发人员:吴建伟庄广强薛文干晴刘煜姚殚居胜峰陈卓
申请(专利权)人:江苏常熟农村商业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1