解析估值表的方法、设备和计算机可读存储介质技术

技术编号:39319737 阅读:9 留言:0更新日期:2023-11-12 16:01
本公开的实施例涉及用于解析估值表的方法、设备和计算机可读存储介质。方法包括:获取估值表文件所包括的电子表格格式的估值表;获取估值表中的每个单元格的单元格信息;基于单元格信息和估值表的布局,分别确定估值表的标题部分、明细部分和统计部分;以及基于单元格信息和估值表的布局,分别解析估值表的标题部分、明细部分和统计部分,以便生成关于估值表的结构化数据。由此,能够全自动化地、高准确率地解析估值表。地解析估值表。地解析估值表。

【技术实现步骤摘要】
解析估值表的方法、设备和计算机可读存储介质


[0001]本公开总体上涉及信息处理领域,并且更具体地,涉及用于解析估值表的方法、设备和计算机可读存储介质。

技术介绍

[0002]基金类产品(包括公募基金、私募基金等),按照相关政策法规,会定期出具估值表。估值表涵盖基金的各项财务、投资品类明细信息等,是基金的核心机密文档之一,对于机构投资者或合格投资者而言,具备很高的价值。估值表的出具周期包括日频、周频、不定期等。由于存在大量不同的基金,对于同一基金在不同的日期又会出具不同的估值表,从而会存在大量的估值表。如何解析估值表以便于生成关于估值表的结构化数据,对投资者系统化、全市场化的分析评估各种基金而言,是一种刚性需求。
[0003]传统的解析估值表的技术方案,通常需要人工参与,自动化程度低。例如,在对估值表进行自动解析之前,需要人工对估值表进行预处理;在对估值表进行自动解析时,需要人工确认自动解析的部分过程;在对估值表进行自动解析之后,需要人工对解析出的数据进行校验。另外,在传统的解析估值表的技术方案中,自动解析估值表时未能充分考虑估值表的布局,从而准确率低,综上,传统的解析估值表的技术方案的不足之处在于:自动化程度低,准确率低。

技术实现思路

[0004]针对上述问题,本公开提供了一种用于解析估值表的方法、设备和计算机可读存储介质,能够全自动化地、高准确率地解析估值表。
[0005]根据本公开的第一方面,提供了一种用于解析估值表的方法,包括:获取估值表文件所包括的电子表格格式的估值表;获取估值表中的每个单元格的单元格信息;基于单元格信息和估值表的布局,分别确定估值表的标题部分、明细部分和统计部分;以及基于单元格信息和估值表的布局,分别解析估值表的标题部分、明细部分和统计部分,以便生成关于估值表的结构化数据。
[0006]在一些实施例中,单元格信息包括单元格行坐标、单元格列坐标、单元格内容和单元格合并关系;以及估值表的布局包括:估值表的标题部分包括跨列合并的单元格,跨列合并的单元格呈现估值表的标题部分中的至少部分;估值表的明细部分包括表头和明细主体,估值表的明细部分中的至少部分行所包括的单元格的数量等于估值表的宽度;以及估值表的统计部分包括第一统计部分和第二统计部分,第一统计部分共用估值表的明细部分所包括的表头,第二统计部分不共用估值表的明细部分所包括的表头。
[0007]在一些实施例中,分别确定估值表的标题部分、明细部分和统计部分包括:搜索估值表中的第一个非全空行,并将搜索到的第一个非全空行确定为标题部分的起始行;以及搜索估值表中在标题部分的起始行之后的第一个满足标题部分终止行确定条件的行,并将第一个满足标题部分终止行确定条件的行确定为标题部分的终止行,其中标题部分终止行
确定条件为:下一行所包括的完整单元格的数量与估值表的宽度的比值大于或者等于阈值。
[0008]在一些实施例中,分别解析估值表的标题部分、明细部分和统计部分包括:将估值表的标题部分所包括的所有完整单元格所对应的内容拼接为字符串;以及基于自然语义神经网络模型,从字符串解析出标题信息。
[0009]在一些实施例中,方法还包括:判断解析出的标题信息是否包括基金名称和估值表日期;如果解析出的标题信息不包括基金名称和估值表日期中的至少一项,则确定估值表解析失败;如果解析出的标题信息包括基金名称和估值表日期,则判断解析出的标题信息所包括的任一信息是否被多次提取到数据;以及如果解析出的标题信息所包括的任一信息被多次提取到数据,则对多次提取到的数据进行校验。
[0010]在一些实施例中,分别确定估值表的标题部分、明细部分和统计部分包括:将标题部分的终止行的下一行确定为明细部分的起始行;以及搜索估值表中在明细部分的起始行之后的第一个满足明细部分终止行确定条件的行,并将第一个满足明细部分终止行确定条件的行确定为明细部分的终止行,其中明细部分终止行确定条件为:所包括的第一列单元格的单元格内容所对应的字符串长度小于一级科目编码信息长度。
[0011]在一些实施例中,分别确定估值表的标题部分、明细部分和统计部分还包括:将明细部分的起始行确定为明细部分所包括的表头的起始行;判断明细部分所包括的表头是否以跨行合并的单元格呈现;如果明细部分所包括的表头不以跨行合并的单元格呈现,则将明细部分的起始行确定为表头的终止行;如果明细部分所包括的表头以跨行合并的单元格呈现,则将跨行合并的单元格的终止行确定为表头的终止行;将表头的终止行的下一行确定为明细部分所包括的明细主体的起始行;以及将明细部分的终止行确定为明细主体的终止行。
[0012]在一些实施例中,分别解析估值表的标题部分、明细部分和统计部分包括进行以下步骤以解析明细部分所包括的表头:确定表头的每一列单元格所对应的明细名称;以及基于明细名称映射表,将所确定的明细名称映射为标准明细名称。
[0013]在一些实施例中,确定表头的每一列单元格所对应的明细名称包括:如果表头中不存在合并的单元格,则将表头中每列单元格的单元格内容确定为相应列的明细名称;如果表头中存在跨行不跨列合并的单元格,则将跨行不跨列合并的单元格所对应的内容确定为跨行不跨列合并的单元格的相应列的明细名称;以及如果表头中存在跨列合并的单元格,则将跨列合并的单元格所对应的内容与跨列合并的单元格所对应的、下方的未跨列合并的单元格的单元格内容的组合,确定为跨列合并的单元格所对应的、下方的未跨列合并的单元格的相应列的明细名称。
[0014]在一些实施例中,分别解析估值表的标题部分、明细部分和统计部分包括进行以下步骤以解析明细部分所包括的明细主体:将明细部分所包括的明细主体的起始行的科目层级确定为一级;基于明细部分所包括的表头所对应的标准明细名称,解析明细主体的起始行的其余列的单元格内容;以及按照从上到下的顺序,将明细主体中的其余行分别作为当前解析行,并进行以下步骤以解析当前解析行:基于当前解析行的第一列单元格的单元格内容,确定当前解析行的科目层级;以及基于明细部分所包括的表头所对应的标准明细名称,解析当前解析行的其余列的单元格内容。
[0015]在一些实施例中,确定当前解析行的科目层级包括:如果LV
self
= Lb,则将当前解析行的科目层级确定为一级;如果LV
self
>Lb且LV
self
>LV
up
,则将当前解析行的科目层级确定为当前解析行的上一行的科目层级加1;如果LV
self
>Lb且LV
self
= LV
up
,则将当前解析行的科目层级确定为当前解析行的上一行的科目层级;以及如果LV
self
>Lb且LV
self
<LV
up
,则将当前解析行的科目层级确定为当前解析行的上一行的科目层级减1;其中,LV
self
为当前解析行的第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于解析估值表的方法,包括:获取估值表文件所包括的电子表格格式的估值表;获取估值表中的每个单元格的单元格信息;基于单元格信息和估值表的布局,分别确定估值表的标题部分、明细部分和统计部分;以及基于单元格信息和估值表的布局,分别解析估值表的标题部分、明细部分和统计部分,以便生成关于估值表的结构化数据。2. 根据权利要求1所述的方法,其特征在于,所述单元格信息包括单元格行坐标、单元格列坐标、单元格内容和单元格合并关系;以及所述估值表的布局包括:估值表的标题部分包括跨列合并的单元格,所述跨列合并的单元格呈现估值表的标题部分中的至少部分;估值表的明细部分包括表头和明细主体,估值表的明细部分中的至少部分行所包括的单元格的数量等于估值表的宽度;以及估值表的统计部分包括第一统计部分和第二统计部分,第一统计部分共用估值表的明细部分所包括的表头,第二统计部分不共用估值表的明细部分所包括的表头。3. 根据权利要求1所述的方法,其特征在于,分别确定估值表的标题部分、明细部分和统计部分包括:搜索估值表中的第一个非全空行,并将搜索到的第一个非全空行确定为标题部分的起始行;以及搜索估值表中在标题部分的起始行之后的第一个满足标题部分终止行确定条件的行,并将第一个满足标题部分终止行确定条件的行确定为标题部分的终止行,其中标题部分终止行确定条件为:下一行所包括的完整单元格的数量与估值表的宽度的比值大于或者等于阈值。4. 根据权利要求1所述的方法,其特征在于,分别解析估值表的标题部分、明细部分和统计部分包括:将估值表的标题部分所包括的所有完整单元格所对应的内容拼接为字符串;以及基于自然语义神经网络模型,从所述字符串解析出标题信息。5.根据权利要求4所述的方法,其特征在于,还包括:判断解析出的标题信息是否包括基金名称和估值表日期;如果解析出的标题信息不包括基金名称和估值表日期中的至少一项,则确定估值表解析失败;如果解析出的标题信息包括基金名称和估值表日期,则判断解析出的标题信息所包括的任一信息是否被多次提取到数据;以及如果解析出的标题信息所包括的任一信息被多次提取到数据,则对多次提取到的数据进行校验。6. 根据权利要求1所述的方法,其特征在于,分别确定估值表的标题部分、明细部分和统计部分包括:
将标题部分的终止行的下一行确定为明细部分的起始行;以及搜索估值表中在明细部分的起始行之后的第一个满足明细部分终止行确定条件的行,并将第一个满足明细部分终止行确定条件的行确定为明细部分的终止行,其中明细部分终止行确定条件为:所包括的第一列单元格的单元格内容所对应的字符串长度小于一级科目编码信息长度。7.根据权利要求6所述的方法,其特征在于,分别确定估值表的标题部分、明细部分和统计部分还包括:将明细部分的起始行确定为明细部分所包括的表头的起始行;判断明细部分所包括的表头是否以跨行合并的单元格呈现;如果明细部分所包括的表头不以跨行合并的单元格呈现,则将明细部分的起始行确定为表头的终止行;如果明细部分所包括的表头以跨行合并的单元格呈现,则将跨行合并的单元格的终止行确定为表头的终止行;将表头的终止行的下一行确定为明细部分所包括的明细主体的起始行;以及将明细部分的终止行确定为明细主体的终止行。8. 根据权利要求1所述的方法,其特征在于,分别解析估值表的标题部分、明细部分和统计部分包括进行以下步骤以解析明细部分所包括的表头:确定表头的每一列单元格所对应的明细名称;以及基于明细名称映射表,将所确定的明细名称映射为标准明细名称。9.根据权利要求8所述的方法,其特征在于,确定表头的每一列单元格所对应的明细名称包括:如果表头中不存在合并的单元格,则将表头中每列单元格的单元格内容确定为相应列的明细名称;如果表头中存在跨行不跨列合并的单元格,则将所述跨行不跨列合并的单元格所对应的内容确定为跨行不跨列合并的单元格的相应列的明细名称;以及如果表头中存在跨列合并的单元格,则将所述跨列合并的单元格所对应的内容与所述跨列合并的单元格所对应的、下方的未跨列合并的单元格的单元格内容的组合,确定为所述跨列合并的单元格所对应的、下方的未跨列合并的单元格的相应列的明细名称。10.根据权利要求1所述的方法,其特征在于,分别解析估值表的标题部分、明细部分和统计部分包括进行以下步骤以解析明细部分所包括的明细主体:将明细部分所包括的明细主体的起始行的科目层级确定为一级;基于明细部分所包括的表头所对应的标准明细名称,解析明细主体的起始行的其余列的单元格内容;以及按照从上到下的顺序,将明细主体中的其余行分别作为当前解析行,并进行以下步骤以...

【专利技术属性】
技术研发人员:尤元俊雷盼
申请(专利权)人:上海朝阳永续信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1