【技术实现步骤摘要】
excel表格解析方法、系统、设备及存储介质
[0001]本申请涉及互联网
,尤其涉及一种excel表格解析方法、系统、设备及存储介质。
技术介绍
[0002]在企业数字化过程中,如何将存量的excel表格进行解析是中小企业面临的一个问题。目前,excel表格进行解析方法主要包括定制化解析以及基于正则匹配的解析方式,其中,定制化解析方式需要对不同客户的表格做定制化解析,当表格结构发生变化时,相应的解析代码就需要进行改造,工作量太大以及维护成本较高,而基于正则匹配进行解析的方式,是通过对已有表格的拟合推导出正则表达式,再由正则表达式去匹配其他未知表格进行解析。然而不同的表格对应的正则表达式可能不同,进而导致excel表格解析效率较低,以及开发维护成本较高。
技术实现思路
[0003]本申请的主要目的在于提供一种excel表格解析方法、系统、设备及存储介质,旨在解决现有技术中的excel表格解析效率较低,以及开发维护成本较高的技术问题。
[0004]为实现上述目的,本申请提供一种excel表格解析方法,所述excel表格解析方法包括:
[0005]获取excel表格;
[0006]基于预设扫描状态机的变迁状态,通过预先构建的表头相似度模型对所述excel表格中的每一数据行进行表头相似度判定,得到表头信息以及表格正文信息;
[0007]若所述表头信息存在多层嵌套表头,则对所述多层嵌套表头进行合并处理,得到所述excel表格的表头层次结构。
[0008]本申请还提 ...
【技术保护点】
【技术特征摘要】
1.一种excel表格解析方法,其特征在于,所述excel表格解析方法包括:获取excel表格;基于预设扫描状态机的变迁状态,通过预先构建的表头相似度模型对所述excel表格中的每一数据行进行表头相似度判定,得到表头信息以及表格正文信息;若所述表头信息存在多层嵌套表头,则对所述多层嵌套表头进行合并处理,得到所述excel表格的表头层次结构。2.如权利要求1所述的excel表格解析方法,其特征在于,所述预设扫描状态机的变迁状态包括初始过滤状态、表头扫描状态以及正文扫描状态。3.如权利要求2所述的excel表格解析方法,其特征在于,所述基于预设扫描状态机的变迁状态,通过预先构建的表头相似度模型对所述excel表格中的每一数据行进行表头相似度判定,得到表头信息以及表格正文信息的步骤包括:当所述预设扫描状态机处于所述初始过滤状态时,若所述excel表格的初始数据行不为空,则将所述初始数据行中的单元格信息输入所述表头相似度模型,输出表头相似度;若所述表头相似度不小于预设相似度阈值,则将所述预设扫描状态机的状态更改为所述表头扫描状态;将所述excel表格的下一数据行中的单元格信息输入所述表头相似度模型,输出表头相似度,并记录表头相似度不小于预设相似度阈值对应的数据行的单元格信息,直至所述excel表格的下一数据行的表头相似度小于预设相似度阈值,或扫描结束所述excel表格的全部数据行;基于所述表头相似度不小于预设相似度阈值对应的数据行的单元格信息,确定所述表头信息;若所述表头相似度小于预设相似度阈值时,则将所述预设扫描状态机的状态更改为所述正文扫描状态;将所述excel表格的下一数据行中的单元格信息输入所述表头相似度模型,输出表头相似度,并记录表头相似度小于预设相似度阈值对应的数据行的单元格信息,直至扫描结束所述excel表格的全部数据行;基于所述表头相似度小于预设相似度阈值对应的数据行的单元格信息,确定所述表格正文信息。4.如权利要求1所述的excel表格解析方法,其特征在于,所述对所述多层嵌套表头进行合并,得到所述excel表格的表头层次结构的步骤包括:按照预设单元格读取规则,在所述多层嵌套表头中读取每一行的单元格信息,得到每一行的表头读取结果;构建归并结果列表、判定列表和扫描表头列表,其中,所述判定列表初始存放第一行的表头读取结果,所述扫描表头列表依次扫描所述每一行的表头读取结果;若当前扫描的判定列表和扫描表头列表中的表头读取结果存在相同位置单元格的数据为空,则对当前扫描表头列表中空的单元格进行填充,得到更新后的扫描表头列表;将所述归并结果列表和所述扫描表头列表中的单元格信息进行元素拼接,并将拼接表头结果存放至所述归并结果列表中,并进行下一行表头读取结果的扫描,得到下一行扫描的扫描表头列表;
将所述下一行扫描的扫描表头列表中的表头读取结...
【专利技术属性】
技术研发人员:彭麒菱,
申请(专利权)人:招商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。