System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种基于excel数据的特征提取方法、装置、电子设备及计算机可读存储介质。
技术介绍
1、保险领域中客户信息的准确性在整个投保流程中占重要地位,客户数据来源主要有两个方面,其一是通过数据迁移,其二是通过api接口调用。其中,利用excel导入导出的数据迁移方式同步客户信息屡见不鲜,如何准确快速地提取表格内容,显得尤为关键。
2、现有excel数据导出方法最大问题是不能将参数校验、表格数据提取、数据格式化等技术融合在一起,不能形成通用模板供多种业务场景使用,灵活性较差,最终导致代码结构复杂、冗余度高、不利于维护和扩展等问题。
技术实现思路
1、本专利技术提供一种基于excel数据的特征提取方法、装置及计算机可读存储介质,其主要目的在于提供适用于多种场景,且利于维护、复杂度较低的excel数据导出方法。
2、为实现上述目的,本专利技术提供的一种基于excel数据的特征提取方法,包括:
3、获取文件集合,在所述文件集合中筛选multipartfile类型的文件;
4、从所述multipartfile类型文件中提取xls或xlsx类型文件;
5、根据预设方法获取所述xls或xlsx类型文件的文件流,根据所述文件流得到对应xls或xlsx类型文件工作簿;
6、利用所述工作簿得到excel数据,获取所述excel数据在所述工作簿中的定位,将所述excel数据的定位转换成坐标,计算所述坐标与所
7、利用pandas库将提取的所述excel数据转换为对应的类型,并对所述类型格式化;
8、将格式化后的excel数据归纳并封装。
9、可选地,所述在所述文件集合中筛选multipartfile类型的文件,包括:
10、利用isempty()方法在所述文件集合中筛选multipartfile类型的文件;
11、如果isempty()方法返回true,则输出"文件不存在";
12、如果isempty()方法返回false,则输出"multipartfile类型"。
13、可选地,所述预设方法为java的apache poi库的方法。
14、可选地,所述将所述excel数据的定位转换成坐标,包括:
15、获取所述excel数据的定位方式,确定所述转换的excel数据的定位范围;
16、根据所述定位方式及定位范围,计算出所述excel数据的坐标。
17、可选地,所述计算所述坐标与所述excel数据之间的相关性,包括:
18、将所述excel数据的坐标和所述excel数据分别进行向量化,得到excel的坐标向量与excel数据向量;
19、计算excel的坐标向量与excel数据向量之间的距离,根据所述距离得到excel的坐标向量与excel数据向量的相关性。
20、可选地,所述计算excel的坐标向量与excel数据向量之间的距离,包括:
21、利用下述公式计算excel的坐标向量与excel数据向量之间的距离:
22、
23、其中,similarity表示excel的坐标向量与excel数据向量之间的余弦相似度,a表示所述excel的坐标向量,b表示所述excel数据向量。
24、可选地,所述从所述multipartfile类型文件中提取xls或xlsx类型文件,包括:
25、通过getoriginalfilename()方法获取文件名;
26、使用endswith()方法判断所述文件名是否以".xls"或".xlsx"结尾;
27、如果是以".xls"或".xlsx"结尾,则提取该文件名对应的文件;
28、如果不是以".xls"或".xlsx"结尾,则返回false。
29、为了解决上述问题,本专利技术还提供一种基于excel数据的特征提取装置,所述装置包括:
30、数据获取模块:用于获取文件集合,在所述文件集合中筛选multipartfile类型的文件,从所述multipartfile类型文件中提取xls或xlsx类型文件
31、数据提取模块:用于根据预设方法获取所述xls或xlsx类型文件的文件流,根据所述文件流得到对应xls或xlsx类型文件工作簿,利用所述工作簿得到excel数据,获取所述excel数据在所述工作簿中的定位,将所述excel数据的定位转换成坐标,计算所述坐标与所述excel数据之间的相关性,根据所述相关性提取excel数据;
32、数据封装模块:用于利用pandas库将提取的所述excel数据转换为对应的类型,并对所述类型格式化,将格式化后的excel数据归纳并封装。
33、为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
34、至少一个处理器;
35、以及,与所述至少一个处理器通信连接的存储器;
36、其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于excel数据的特征提取方法。
37、为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于excel数据的特征提取方法。
38、本专利技术实施例在文件集合中筛选multipartfile类型的文件,并从multipartfile类型文件中提取xls或xlsx类型文件,获取xls或xlsx类型文件的文件流,从而得到对应xls或xlsx类型文件工作簿,再利用所述工作簿得到excel数据,获取所述excel数据在所述工作簿中的定位,将所述excel数据的定位转换成坐标,根据所述坐标与所述excel数据之间的相关性提取excel数据,并利用pandas库将提取的所述excel数据转换为对应的类型,并对所述类型格式化,将格式化后的excel数据归纳并封装。本专利技术实施例适用于多种场景,且利于维护、复杂度较低,既满足了开发人员基本的数据读取需求,又为其功能多样化预留了出口,以便进行excel数据的改造和重构。
本文档来自技高网...【技术保护点】
1.一种基于excel数据的特征提取方法,其特征在于,所述方法包括:
2.如权利要求1所述的基于excel数据的特征提取方法,其特征在于,所述在所述文件集合中筛选MultipartFile类型的文件,包括:
3.如权利要求1所述的基于excel数据的特征提取方法,其特征在于,所述预设方法为Java的Apache POI库的方法。
4.如权利要求1所述的基于excel数据的特征提取方法,其特征在于,所述将所述excel数据的定位转换成坐标,包括:
5.如权利要求1所述的基于excel数据的特征提取方法,其特征在于,所述计算所述坐标与所述excel数据之间的相关性,包括:
6.如权利要求5所述的基于excel数据的特征提取方法,其特征在于,所述计算excel的坐标向量与excel数据向量之间的距离,包括:
7.如权利要求1所述的基于excel数据的特征提取方法,其特征在于,所述从所述MultipartFile类型文件中提取XLS或XLSX类型文件,包括:
8.一种基于excel数据的特征提取装置,其特
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于excel数据的特征提取方法。
...【技术特征摘要】
1.一种基于excel数据的特征提取方法,其特征在于,所述方法包括:
2.如权利要求1所述的基于excel数据的特征提取方法,其特征在于,所述在所述文件集合中筛选multipartfile类型的文件,包括:
3.如权利要求1所述的基于excel数据的特征提取方法,其特征在于,所述预设方法为java的apache poi库的方法。
4.如权利要求1所述的基于excel数据的特征提取方法,其特征在于,所述将所述excel数据的定位转换成坐标,包括:
5.如权利要求1所述的基于excel数据的特征提取方法,其特征在于,所述计算所述坐标与所述excel数据之间的相关性,包括:
【专利技术属性】
技术研发人员:金梦,范孝锋,
申请(专利权)人:招商局金融科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。