数据检测方法及相关装置制造方法及图纸

技术编号:35230039 阅读:23 留言:0更新日期:2022-10-15 10:50
本申请实施例公开了一种数据检测方法及相关装置,所述方法包括:获取所述数据采集服务器中的至少一个待检测数据;对每一待检测数据进行解析,得到所述每一待检测数据的解析结果;根据预设的检测规则对所述解析结果进行检测,得到第一检测结果;使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果;在所述第一检测结果和/或所述第二检测结果指示所述待检测数据存在错误的情况下,生成对应的告警信息;向第二用户发送所述对应的告警信息。采用本申请实施例有助于确保待检测数据的规范和统一。于确保待检测数据的规范和统一。于确保待检测数据的规范和统一。

【技术实现步骤摘要】
数据检测方法及相关装置


[0001]本申请涉及信息处理
,具体涉及一种数据检测方法及相关装置。

技术介绍

[0002]金融数据涉及金融领域的股票数据、期权数据、期货数据和客户信息等多个方面,随着经济发展,金融数据的数据量日益增加。对于证券公司而言,对如此庞大体量的数据进行管理和维护,必然不是单个人能够承接的,需要系统与流程支持数据治理工作的开展。而在多个人或多个团队对大量数据进行操作的场景中,由于每个人或每个团队对金融数据进行管理所使用的工具和标准不同,缺乏统一的数据标准,难以保证制定的数据标准可以切实落地在金融系统中,在对大量金融数据进行统一处理时容易出现错误,影响数据处理效率。

技术实现思路

[0003]本申请实施例提供了一种数据检测方法及相关装置,有助于确保待检测数据的规范和统一,并有助于提高后续处理过程中对金融数据的处理效率。
[0004]第一方面,本申请实施例提供一种数据检测方法,应用于证券公司综合服务系统中的数据整合服务器,所述证券公司综合服务系统包括数据采集服务器和所述数据整合服务器,所述数据采集服务器和所述数据整合服务器通信连接;所述方法包括:获取所述数据采集服务器中的至少一个待检测数据,待检测数据用于指示第一用户提交和/或指定的金融数据脚本,所述待检测数据包括目标字段,所述目标字段用于表征所述第一用户对所述待检测数据在所述金融数据脚本中的定义信息;对每一待检测数据进行解析,得到所述每一待检测数据的解析结果;根据预设的检测规则对所述解析结果进行检测,得到第一检测结果;使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果;在所述第一检测结果和/或所述第二检测结果指示所述待检测数据存在错误的情况下,生成对应的告警信息;向第二用户发送所述对应的告警信息。
[0005]第二方面,本申请实施例提供一种数据检测装置,应用于证券公司综合服务系统中的数据整合服务器,所述证券公司综合服务系统包括数据采集服务器和所述数据整合服务器,所述数据采集服务器和所述数据整合服务器通信连接;所述装置包括:获取单元、解析单元、检测单元、告警单元和发送单元,其中,所述获取单元,用于获取所述数据采集服务器中的至少一个待检测数据,待检测数据用于指示第一用户提交和/或指定的金融数据脚本,所述待检测数据包括目标字段,所述目标字段用于表征所述第一用户对所述待检测数据在所述金融数据脚本中的定义信息;所述解析单元,用于对每一待检测数据进行解析,得到所述每一待检测数据的解
析结果;所述检测单元,用于根据预设的检测规则对所述解析结果进行检测,得到第一检测结果;所述检测单元,还用于使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果;所述告警单元,用于在所述第一检测结果和/或所述第二检测结果指示所述待检测数据存在错误的情况下,生成对应的告警信息;所述发送单元,用于向第二用户发送所述对应的告警信息。
[0006]第三方面,本申请实施例提供了一种服务器,包括处理器、存储器及存储在所述存储器上的计算机程序或指令,所述处理器执行所述计算机程序或指令以实现本申请实施例第一方面中的步骤。
[0007]第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤的指令。
[0008]第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括计算机程序,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
[0009]实施本申请实施例,具备如下有益效果:可以看出,本申请实施例中所描述的数据检测方法及相关装置,可对至少一个待检测数据进行解析,得到每一待检测数据的解析结果,并根据预设的检测规则对解析结果进行检测,得到第一检测结果,使用预设的数据标准库对解析结果中的目标字段进行检测,得到第二检测结果,在第一检测结果和/或第二检测结果指示待检测数据存在错误的情况下,生成对应的告警信息并向第二用户发送,如此,通过对解析结果的二次检测,有助于确保待检测数据的规范和统一,并有助于提高后续处理过程中对金融数据的处理效率。
附图说明
[0010]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1A是本申请实施例提供的一种证券公司综合服务系统的架构示意图;图1B是本申请实施例提供的一种服务器的结构示意图;图1C是本申请实施例提供的一种数据检测方法的流程示意图;图1D是本申请实施例提供的一种抽象语法树的结构示意图;图1E是本申请实施例提供的一种DAG分词示意图;图2是本申请实施例提供的另一种服务器的结构示意图;图3A是本申请实施例提供的一种数据检测装置的功能单元组成框图;图3B是本申请实施例提供的另一种数据检测装置的功能单元组成框图。
具体实施方式
[0012]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。术语“多个”可指两个或两个以上,后续不再赘述。
[0013]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0014]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0015]本申请涉及到的关键概念和术语包括但不限于以下:(1)证券公司综合服务系统,包括数据采集服务器和数据整合服务器,其中,数据采集服务器可以用于采集用户(或称研发人员)提交和/或指定的金融数据脚本,数据整合服务器用于从金融数据脚本中确定待检测数据,并对待检测数据进行整合,在待检测数据中存在错误的情况下向用户发送告警信息,以提示用户对错误数据进行修改。
[0016](2)金融数据脚本,可以是指实现金融领域的数据整合功能的程序,可用SQL、shell、pyt本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据检测方法,其特征在于,应用于证券公司综合服务系统中的数据整合服务器,所述证券公司综合服务系统包括数据采集服务器和所述数据整合服务器,所述数据采集服务器和所述数据整合服务器通信连接;所述方法包括:获取所述数据采集服务器中的至少一个待检测数据,待检测数据用于指示第一用户提交和/或指定的金融数据脚本,所述待检测数据包括目标字段,所述目标字段用于表征所述第一用户对所述待检测数据在所述金融数据脚本中的定义信息;对每一待检测数据进行解析,得到所述每一待检测数据的解析结果;根据预设的检测规则对所述解析结果进行检测,得到第一检测结果;使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果;在所述第一检测结果和/或所述第二检测结果指示所述待检测数据存在错误的情况下,生成对应的告警信息;向第二用户发送所述对应的告警信息。2.根据权利要求1所述的方法,其特征在于,所述使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果,包括:对所述目标字段进行分词,得到所述目标字段对应的至少一种分词结果,每一种分词结果中包括至少一个字词;对所述每一种分词结果执行如下步骤A

B,得到至少一个分词准确率,每一种分词结果对应一个分词准确率:步骤A:确定当前处理的分词结果中的每一个字词在预设的文本库中出现的频率,所述当前处理的分词结果中的每一个字词在预设的文本库中出现的频率为第一词频,所述第一词频为至少一个;步骤B:对至少一个第一词频进行计算,得到所述当前处理的分词结果的分词准确率;确定所述至少一个分词准确率中的最高值,以及所述至少一个分词准确率中的最高值对应的分词结果,所述至少一个分词准确率中的最高值对应的分词结果为目标分词结果;使用预设的数据标准库对所述目标分词结果进行检测,得到第二检测结果。3.根据权利要求2所述的方法,其特征在于,若所述预设的文本库中不存在所述当前处理的分词结果中的字词,所述确定当前处理的分词结果中的每一个字词在预设的文本库中出现的频率,包括:将第一字词对应的词频确定为第二词频,所述第一字词为所述预设的文本库中不存在的字词。4.根据权利要求3所述的方法,其特征在于,在将第一字词对应的词频确定为第二词频之后,所述方法还包括:通过隐马尔科夫模型对所述第一字词进行处理,得到再分词结果,所述再分词结果中包括至少一个字词;将所述再分词结果中的至少一个字词收录于所述预设的文本库中;更新所述再分词结果中的至少一个字词的词频。5.根据权利要求2所述的方法,其特征在于,所述预设的数据标准库中包括至少一个标准字词,每一标准字词对应一个定义字段,所述使用预设的数据标准库对所述目标分词结
果进行检测,得到第二检测结果,包括:在所述目标分词结果对应的字词中选取至少一个目标字词,所述至少一个目标字词用于表征所述定义信息中的关键信息;对每一目标字词执行如下步骤C

D:步骤C:确定当前处理的目标字词在所述目标字段中的TF

IDF值,所述当前处理的目标字词在所述目标字段中的TF

IDF值为第一TF

IDF值,所述第一TF

IDF值构成第一向量;步骤D:确定所述当前处理的目标字词在所述每一标准字词的定义字段中的TF

IDF值,所述当前处理的目标字词在所述每一标准字词的定义字...

【专利技术属性】
技术研发人员:李家耀司东华宋鹏程胡冬伟刘奥黄康乔
申请(专利权)人:中国中金财富证券有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1