【技术实现步骤摘要】
财政数据的获取方法、终端设备及介质
本专利技术属于数据处理
,尤其涉及一种财政数据的获取方法、终端设备及计算机可读存储介质。
技术介绍
季报、年报以及招股书等文件均为企业的公开文件。公开文件中包含了很多有价值的财政数据。例如,企业应收账款、应付账款、收支状况、损益金额以及整体债务状况等。这些财政数据经过再次加工以及分析处理后,可体现出极大的参考价值。例如,在各种应用场合中,这些财政数据可用于独立分析企业的经营状况、确定企业所关联的行业产业链状况等。然而,由于季报、年报以及招股书等公开文件的样式均较为复杂,故业界也暂时未公开要对这些公开文件进行财政数据的自动提取及分析处理,因此,无法实现财政数据的多维度获取。
技术实现思路
有鉴于此,本专利技术实施例提供了一种财政数据的获取方法、终端设备及计算机可读存储介质,以解决现有技术中无法实现财政数据的多维度获取的问题。本专利技术实施例的第一方面提供了一种财政数据的获取方法,包括:获取预先发布的待分析文本,所述待分析文本的初始格式为可移植文档pdf格式;通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为 ...
【技术保护点】
1.一种财政数据的获取方法,其特征在于,包括:获取预先发布的待分析文本,所述待分析文本的初始格式为可移植文档pdf格式;通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式;基于所述doc格式的所述待分析文本,获取所述待分析文本所对应的文本编码;其中,所述文本编码包含多种类型的页面标签;查找所述页面标签中的表格标签,并根据所述表格标签所属的文本位置,定位所述待分析文本中所存在的表格;提取与所述表格关联的各个字段值以及表格描述信息;将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档,以使业务系统对所述文本文档进行识别处理后,获取所述 ...
【技术特征摘要】
1.一种财政数据的获取方法,其特征在于,包括:获取预先发布的待分析文本,所述待分析文本的初始格式为可移植文档pdf格式;通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式;基于所述doc格式的所述待分析文本,获取所述待分析文本所对应的文本编码;其中,所述文本编码包含多种类型的页面标签;查找所述页面标签中的表格标签,并根据所述表格标签所属的文本位置,定位所述待分析文本中所存在的表格;提取与所述表格关联的各个字段值以及表格描述信息;将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档,以使业务系统对所述文本文档进行识别处理后,获取所述待分析文本所关联的财政数据。2.如权利要求1所述的财政数据的获取方法,其特征在于,所述查找所述页面标签中的表格标签,并根据所述表格标签所属的文本位置,定位所述待分析文本中所存在的表格,包括:依次遍历所述文本编码中的各个编码块;对每一所述编码块,判断该编码块所对应的页面标签类型是否为表格类型;若该编码块所对应的页面标签类型为表格类型,则将内置标志位的属性值置为逻辑真值,以将该编码块所对应的文本位置标记为表格的起始位置;返回执行所述依次遍历所述文本编码中的各个编码块的操作,直至取出的编码块所对应的页面标签类型为非表格类型且为非空值时,将该编码块所对应的文本位置标记为所述表格的结束位置。3.如权利要求1所述的财政数据的获取方法,其特征在于,所述提取与所述表格关联的各个字段值以及表格描述信息,包括:创建先进先出FIFO队列;依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型;若所述编码块所对应的页面标签类型为段落类型,则将所述编码块所包含的各个字符依序存入所述FIFO队列,并读取所述FIFO队列的实时队列长度;若所述FIFO队列的实时队列长度大于预设阈值,则移除存在于FIFO队列底部的多个所述字符,并返回执行所述依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型的操作;若所述编码块所对应的页面标签类型为表格类型,则将所述FIFO队列中的各个字符进行拼接,并将拼接结果输出为与所述表格关联的表格描述信息。4.如权利要求3所述的财政数据的获取方法,其特征在于,所述若所述编码块所对应的页面标签类型为表格类型,则将所述FIFO队列中的各个字符进行拼接,并将拼接结果输出为与所述表格关联的表格描述信息,包括:若所述编码块所对应的页面标签类型为表格类型,则获取与预设关键词相关联的正则表达式;基于所述正则表达式,对所述FIFO队列中的各个字符串进行检测处理;若所述FIFO队列中存在与所述正则表达式匹配的所述字符串,则将该字符串输出为与所述表格关联的表格描述信息;若所述FIFO队列中不存在与所述正则表达式匹配的所述字符串,则分别计算所述FIFO队列中每一所述字符串与其所属编码块中所述表格标签的标签距离值;将所述标签距离值最小的一个所述字符串输出为与所述表格关联的表格描述信息。5.如权利要求1所述的财政数据的获取方法,其特征在于,在所述将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档,以使业务系统对所述文本文档进行识别处理后,获取所述待分析文本所关联的财政数据之后,还包括:加载报告模板,并根据所述报告模板中预先设置好的表头,将各项所述财政数据分别...
【专利技术属性】
技术研发人员:苏晓明,汪伟,王晓伟,徐冰,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。