一种基于XBRL的数据解析方法、存储及介质及系统技术方案

技术编号:28418781 阅读:10 留言:0更新日期:2021-05-11 18:25
本发明专利技术提供了一种基于XBRL的数据解析方法、存储介质及系统,其的方法包括:从源端抓取XBRL数据;对抓取的所述XBRL数据进行加工清洗处理得到处理后的XBRL数据;根据所述处理后的XBRL数据建立非关系数据库,实现所述处理后的XBRL数据的分布式存储;对分布式存储的所述处理后的XBRL数据执行可视化操作并进行抓取数据的可视化展示。本发明专利技术提供的以上方案,能够将从源端获取的XBRL数据进行数据加工清洗、通过非关系数据库进行分布式存储,并且通过可视化处理将其展示出来,能够适用于现有各行业或领域对于XBRL数据的抓取和可视化需求,便于各个行业对XBRL数据的后续处理。

【技术实现步骤摘要】
一种基于XBRL的数据解析方法、存储及介质及系统
本专利技术涉及信息数据处理
,具体地,涉及一种基于XBRL的数据解析方法、存储介质及系统。
技术介绍
XBRL(可扩展商业报告语言)是XML(可扩展的标记语言)在财务报告信息交换方面的一种应用,是目前应用于非结构化信息处理尤其是财务信息处理的最新标准和技术。它的出现将大大改进传统财务报告信息传递的速度和效率,给财务信息的供给和需求方带来便利。在使用XBRL进行财务报告的过程中存在着亟需解决的问题,主要是数据抓取存在很大困难。
技术实现思路
本专利技术的目的是提供一种基于XBRL的数据解析方法、存储介质及系统,以解决现有技术中XBRL数据抓取过程中所存在的问题。为实现上述目的,本专利技术采用以下技术方案:本专利技术一些实施例提供一种基于XBRL的数据解析方法,包括如下步骤:从源端抓取XBRL数据;对抓取的所述XBRL数据进行加工清洗处理得到处理后的XBRL数据;根据所述处理后的XBRL数据建立非关系数据库,实现所述处理后的XBRL数据的分布式存储;对分布式存储的所述处理后的XBRL数据执行可视化操作并进行抓取数据的可视化展示。可选地,上述的基于XBRL的数据解析方法中,从源端抓取XBRL数据的步骤中:所述源端包括XBRL站点、XBRL文件、符合XBRL数据结构的数据文件以及存放在数据库中的XBRL格式数据。可选地,上述的基于XBRL的数据解析方法中,对抓取的所述XBRL数据进行加工清洗处理得到处理后的XBRL数据的步骤中:通过数据仓库技术工具kettle执行所述加工清洗处理过程。可选地,上述的基于XBRL的数据解析方法中,对分布式存储的所述处理后的XBRL数据执行可视化操作并进行抓取数据的可视化展示的步骤中包括:根据大数据分析工具Spark开发数据分析统计方法对所述处理后的XBRL数据进行统计分析;根据展现层工具tableau全面图形化分析对统计分析后的数据进行图形化分析;根据xbrlcore-master对图形化分析户的数据进行分析并展示分析结果。可选地,上述的基于XBRL的数据解析方法中,还包括如下步骤:对XBRL数据的数据描述对象进行数据画像设计;根据完成数据画像设计后的XBRL数据建立数据专业知识图谱。可选地,上述的基于XBRL的数据解析方法中,从源端抓取XBRL数据的步骤中包括:获取票据的扫描图像,解析所述扫描图像,得到所述扫描图像中的XBRL数据。可选地,上述的基于XBRL的数据解析方法中,获取票据的扫描图像,解析所述扫描图像,得到所述扫描图像中的XBRL数据的步骤中包括:采用样本数据对机器学习模型进行训练,以训练后的机器学习模型作为数据抓取模型,所述样本数据包括样本票据的扫描图像,扫描图像上的标识,XBRL数据识别结果;将获取的所述扫描图像输入至所述数据抓取模型,得到所述扫描图像中的XBRL数据。可选地,上述的基于XBRL的数据解析方法中,采用样本数据对机器学习模型进行训练,以训练后的机器学习模型作为数据抓取模型,所述样本数据包括样本票据的扫描图像,扫描图像上的标识,XBRL数据识别结果的步骤中:所述标识包括标题关键字、内容关键字、财务数据关键字和日期关键字,其中,每一类关键字中均包括至少一个,不同类关键字设置相同或不同优先级别。本专利技术一些实施例中还提供一种存储介质,在所述存储介质中存储有程序信息,计算机读取所述程序信息后执行以上任一项所述的基于XBRL的数据解析方法。本专利技术一些实施例中还提供一种基于XBRL的数据抓取系统,包括至少一个处理器和至少一个存储器,至少一个所述存储器中存储有程序信息,至少一个所述处理器读取所述程序信息后执行以上任一项所述的基于XBRL的数据解析方法。本专利技术的上述技术方案与现有技术相比,至少具有以下有益效果:本专利技术提供的基于XBRL的数据解析方法、存储介质及系统,其中提供了一种XBRL数据的抓取方法,能够将从源端获取的XBRL数据进行数据加工清洗、通过非关系数据库进行分布式存储,并且通过可视化处理将其展示出来,能够适用于现有各行业或领域对于XBRL数据的抓取和可视化需求,便于各个行业对XBRL数据的后续处理。附图说明图1为本申请一个实施例所述基于XBRL的数据解析方法的流程图;图2为本申请另一个实施例所述基于XBRL的数据解析方法的流程图;图3为本申请另一个实施例所述基于XBRL的数据解析系统的硬件结构连接关系的结构框图。具体实施方式下面将结合附图进一步说明本专利技术实施例。在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术的简化描述,而不是指示或暗示所指的装置或组件必需具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。其中,术语“第一位置”和“第二位置”为两个不同的位置。本实施例提供一种基于XBRL的数据解析方法,可应用于计算机系统中,如图1所示,所述方法可以包括如下步骤:S101:从源端抓取XBRL数据。其中,所述源端包括XBRL站点、XBRL文件、符合XBRL数据结构的数据文件以及存放在数据库中的XBRL格式数据。S102:对抓取的所述XBRL数据进行加工清洗处理得到处理后的XBRL数据。在实际应用时,需要对初步抓取的所述XBRL数据进行观察并整理,因为抓取到的数据中可能含有很多无用的数据,这些数据不但消耗分析的时间,而且还会影响数据分析结果,所以需要对数据进行清洗。本步骤中的加工清洗处理主要是集中发现不准确、不完整或不合理数据,并对这些数据进行修补或移除以提高数据质量的过程。具体地,数据清洗可以包括格式检查、完整性检查、合理性检查和极限检查等。S103:根据所述处理后的XBRL数据建立非关系数据库,实现所述处理后的XBRL数据的分布式存储。非关系数据库如键值(Key-Value)存储数据库、列存储数据库、文档型数据库、图形数据库等。分布式存储是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。本步骤中通过非关系数据库和分布式存储技术能够实现大规模数据的存储应用需要以及可扩展需求。S104:对分布式存储的所述处理后的XBRL数据执行可视化操作并进行抓取数据的可视化展示。本实施例提供的以上方案,能够将从源端获取的XBRL数据进行数据加工清洗、通过非关系数据库进行分布式存储,并且通过可视化处理将其展示出来,能够适用于现有各行业或领域对于XBRL数据的抓取和可视化需求,便于各个行业对XBRL本文档来自技高网...

【技术保护点】
1.一种基于XBRL的数据解析方法,其特征在于,包括如下步骤:/n从源端抓取XBRL数据;/n对抓取的所述XBRL数据进行加工清洗处理得到处理后的XBRL数据;/n根据所述处理后的XBRL数据建立非关系数据库,实现所述处理后的XBRL数据的分布式存储;/n对分布式存储的所述处理后的XBRL数据执行可视化操作并进行抓取数据的可视化展示。/n

【技术特征摘要】
1.一种基于XBRL的数据解析方法,其特征在于,包括如下步骤:
从源端抓取XBRL数据;
对抓取的所述XBRL数据进行加工清洗处理得到处理后的XBRL数据;
根据所述处理后的XBRL数据建立非关系数据库,实现所述处理后的XBRL数据的分布式存储;
对分布式存储的所述处理后的XBRL数据执行可视化操作并进行抓取数据的可视化展示。


2.根据权利要求1所述的基于XBRL的数据解析方法,其特征在于,从源端抓取XBRL数据的步骤中:
所述源端包括XBRL站点、XBRL文件、符合XBRL数据结构的数据文件以及存放在数据库中的XBRL格式数据。


3.根据权利要求1所述的基于XBRL的数据解析方法,其特征在于,对抓取的所述XBRL数据进行加工清洗处理得到处理后的XBRL数据的步骤中:
通过数据仓库技术工具kettle执行所述加工清洗处理过程。


4.根据权利要求1所述的基于XBRL的数据解析方法,其特征在于,对分布式存储的所述处理后的XBRL数据执行可视化操作并进行抓取数据的可视化展示的步骤中包括:
根据大数据分析工具Spark开发数据分析统计方法对所述处理后的XBRL数据进行统计分析;
根据展现层工具tableau全面图形化分析对统计分析后的数据进行图形化分析;
根据xbrlcore-master对图形化分析户的数据进行分析并展示分析结果。


5.根据权利要求1所述的基于XBRL的数据解析方法,其特征在于,还包括如下步骤:
对XBRL数据的数据描述对象进行数据画像设计;
根据完成数据画像设计后的XBR...

【专利技术属性】
技术研发人员:张洪波
申请(专利权)人:山东立信特信息技术有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1