一种征信数据采集方法与系统技术方案

技术编号:15840896 阅读:64 留言:0更新日期:2017-07-18 16:53
本发明专利技术实施例公开了一种征信数据采集方法与系统,用于节省征信数据的存储空间,提高征信数据的采集效率。本发明专利技术实施例方法包括:获取目标对象的目标数据文件的文件名称;根据所述目标数据文件的文件名称通过预设算法生成预设位数的目标特征值字符串;将所述目标特征值字符串分割成为所述预设位数个特征值字符;判断特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符,所述目标特征值字符包含于所述预设位数个特征值字符中,所述预设位数的数量与特征值存储模块中的存储层的层数相对应;若否,则采集所述目标数据文件。

Credit information data collecting method and system

The embodiment of the invention discloses a credit data collection method and system, which is used for saving the storage space of credit information data, and improving the collection efficiency of the credit information data. The method comprises the following steps: the target data file for the target file name; according to the target data file name string value preset by the target feature generation algorithm of preset digit; the target characteristic value divided into the pre arranged string digit eigenvalue characters; eigenvalues of any storage judgment layer in the storage module is the value of the value contained in the target character characteristic corresponding digit character, the characteristic values of target characters contained in the default number eigenvalue character, the quantity and characteristics of digit values are stored in the storage module layer corresponding to the number; if not, then the acquisition target data file.

【技术实现步骤摘要】
一种征信数据采集方法与系统
本专利技术涉及数据处理领域,具体涉及一种征信数据采集方法与系统。
技术介绍
征信系统是指征信机构为企业或个人提供征信信息服务的系统,按一定规则合法采集企业、个人的信用信息,加工整理形成企业、个人的信用报告等征信产品,有偿提供给经济活动中的贷款方、赊销方、招标方、出租方、保险方等有合法需求的信息使用者,为其了解交易对方的信用状况提供便利。征信机构从税务局、工商局、互联网等采集企业、个人的征信数据时,需要对已采集的数据文件进行排重处理,目的是为了避免重复采集。传统的采集排重方法是将已采集的文件名或网页URL(UniformResourceLocator,统一资源定位符)地址存储到数据库,当采集新文件时,查询数据库是否已存在相同的文件名或相同的网页URL地址,从而进行采集排重。但这种方式每采集一个文件就会新增一条记录,且文件名和URL地址的字符都较长,当采集的文件达到海量级别后,记录集会变得非常庞大,并占用很大的存储空间,严重影响排重处理效率,进而降低采集效率。
技术实现思路
本专利技术实施例提供了一种征信数据采集方法与系统,用于节省征信数据的存储空间,提高征信数据的采集效率。本专利技术实施例第一方面提供了一种征信数据采集方法,包括:获取目标对象待采集的目标数据文件的文件名称,所述目标数据文件包括征信数据文件和/或网页数据文件,其中所述网页数据文件的文件名为网页URL地址;根据所述目标数据文件的文件名称通过预设算法生成预设位数的目标特征值字符串;将所述目标特征值字符串分割成为所述预设位数个特征值字符;判断特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符,所述目标特征值字符包含于所述预设位数个特征值字符中,所述预设位数的数量与所述特征值储存储模块中的存储层的层数相对应;若否,则采集所述目标数据文件。本专利技术实施例第二方面提供了一种征信数据采集系统,包括:获取模块,用于获取目标对象待采集的目标数据文件的文件名称,所述目标数据文件包括征信数据文件和/或网页数据文件,其中网页数据文件的文件名为网页URL地址;生成模块,根据所述目标数据文件的文件名称通过预设算法生成预设位数的目标特征值字符串;分割模块,用于将所述目标特征值字符串分割成为所述预设位数个特征值字符;第一判断模块,用于判断特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符,所述目标特征值字符包含于所述预设位数个特征值字符中,所述预设位数的数量与所述特征值储存储模块中的存储层的层数相对应;采集模块,用于在所述特征值存储模块中的每一存储层的特征值字符中不包含对应位数的目标特征值字符,则采集所述目标数据文件。从以上技术方案可以看出,本专利技术实施例具有以下优点:根据目标数据文件的文件名称通过预设算法生成预设位数的目标特征值字符串,保证了特征字符串的唯一性,将待采集的文件特征值字符串与已采集的特征值字符串进行对比,可达到采集排重的效果,其次,由于生成的特征值字符串为固定的位数,对较长的数据文件名或者网页URL地址进行压缩处理,同时使用分存储层存储特征值字符串的方法,相同存储层的特征值字符可以共享空间,达到压缩存储的效果,所以可以节省征信数据的存储空间,提高排重处理效率,从而提高采集效率。附图说明图1为本专利技术实施例中征信数据采集方法的系统部署结构示意图;图2为本专利技术实施例中征信数据采集方法的实施例示意图;图3为本专利技术实施例中征信数据采集方法中数据文件中的特征值字符的对比示意图;图4为本专利技术实施例中征信数据采集方法中网页URL地址中的特征值字符的对比示意图;图5为本专利技术实施例中征信数据采集系统的一个实施例示意图;图6为本专利技术实施例中征信数据采集系统的另一实施例示意图。具体实施方式本专利技术实施例提供了一种征信数据采集方法与系统,用于节省征信数据的存储空间,提高征信数据的采集效率。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。请参阅图1,本专利技术实施例中征信数据采集方法的系统部署的结构示意图,主要由数据源、征信数据采集系统以及征信系统组成,其中:1、数据源,指征信数据的来源,例如税务数据和/或互联网数据,该税务数据包括纳税信用等级数据、营业执照数据、税务等级数据、纳税信用等级数据、经营许可证数据、质量体系认证数据和/或代理证书数据;该互联网数据包括互联网中与目标对象相关的媒体报道和/或与目标对象相关的信用评价数据等;2、征信数据采集系统:指从数据源获取待采集文件列表,从文件名或者网页URL地址进行特征值计算,再比较已采集文件的特征值,进行采集文件排重处理;3、征信系统:指根据已采集的征信数据文件和与征信相关的网页数据等,进行处理,形成征信报告的系统。请参阅图2,本专利技术实施例中征信数据采集方法的一个实施例包括:201、获取目标对象待采集的目标数据文件的文件名称。本实施例中,征信数据采集系统可以获取到目标对象待采集的目标数据文件的文件名称,该目标数据文件包括征信数据文件和/或网页数据文件,其中,网页数据文件的文件名称为网页URL地址,该目标对象可以是企业,也可以为个人,也可以为其他机构,具体不做限定。例如目标数据文件名称为sync_data_20170101210922.txt的征信数据文件或者网页URL地址为http://wenku.baidu.com/view/e180f72a7fd5360cba1adb78.html?from=search的网页数据文件。202、根据目标数据文件的名称通过预设算法生成预设位数的目标特征值字符串。本实施例中,当目标数据文件为征信数据文件时,例如报告数据文件和/或表单数据文件等,征信数据采集系统可以根据目标数据文件的名称通过预设的算法生成预设位数的目标特征值字符串。例如可以根据目标数据文件的文件名,使用MD5算法进行计算,生成唯一的特征值字符串,例如可以根据上述所说的待采集的目标对象的征信数据文件的文件名生成16位的特征值字符串为af3c2f1395777df1。当所述目标数据文件为网页数据文件时,征信数据采集系统可以根据目标数据文件的URL地址通过预设算法生成所述预设位数的目标特征值字符串。例如根据上述所说的待采集的目标对象的网页数据文件的网页URL地址,使用预设的算法(MD5算法)进行计算生成唯一的特征字符串,例如生成16位的特征值字符串ffc9964b325a6190。需要说明的是,征信数据采集系统可以通过16位MD5算法对目标数据文件的文件名称进行加密计算生成16位数的所述目标特征值字符串,此时特征存储模块中的存储层的层数为16层,也可以通过32位MD5算法对目标数据文件的文件名称进行加密计算生成32位数的目本文档来自技高网...
一种征信数据采集方法与系统

【技术保护点】
一种征信数据采集方法,其特征在于,包括:获取目标对象待采集的目标数据文件的文件名称,所述目标数据文件包括征信数据文件和/或网页数据文件,其中所述网页数据文件的文件名称为网页URL地址;根据所述目标数据文件的文件名称通过预设算法生成预设位数的目标特征值字符串;将所述目标特征值字符串分割成为所述预设位数个特征值字符;判断特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符,所述目标特征值字符包含于所述预设位数个特征值字符中,所述预设位数的数量与所述特征值储存储模块中的存储层的层数相对应;若否,则采集所述目标数据文件。

【技术特征摘要】
1.一种征信数据采集方法,其特征在于,包括:获取目标对象待采集的目标数据文件的文件名称,所述目标数据文件包括征信数据文件和/或网页数据文件,其中所述网页数据文件的文件名称为网页URL地址;根据所述目标数据文件的文件名称通过预设算法生成预设位数的目标特征值字符串;将所述目标特征值字符串分割成为所述预设位数个特征值字符;判断特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符,所述目标特征值字符包含于所述预设位数个特征值字符中,所述预设位数的数量与所述特征值储存储模块中的存储层的层数相对应;若否,则采集所述目标数据文件。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据文件的名称通过预设算法生成预设位数的目标特征值字符串包括:通过16位MD5算法对所述目标数据文件的文件名称进行加密计算生成16位数的所述目标特征值字符串,且所述特征存储模块中的存储层的层数为16层;或,通过32位MD5算法对所述目标数据文件的文件名称进行加密计算生成32位数的所述目标特征值字符串,且所述特征存储模块中的存储层的层数为32层。3.根据权利要求1所述的方法,其特征在于,当所述特征值存储模块中的每一存储层的特征值字符中包含对应位数的目标特征值字符时,所述方法还包括:确定所述目标数据文件为重复文件,且不采集所述目标数据文件。4.根据权利要求1所述的方法,其特征在于,在所述判断所述特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符之后,所述方法还包括:当所述特征值存储模块中的任一存储层的特征值字符中不包含对应位数的目标特征值字符时,则将所述目标特征值字符在所述目标特征值字符对应的存储层中新建;将所述目标特征值字符标记为初次新建特征值字符。5.根据权利要求4所述的方法,其特征在于,在所述采集所述目标数据文件之后,所述方法还包括:判断所述目标数据文件是否采集成功;若否,则将所述初次新建特征值字符删除;若是,则将所述目标数据文件发送至征信系统,以使得所述征信系统根据所述目标数据文件生成所述目标对象的征信报告。6.一种征信数据采集系统,其特征在于,包括:...

【专利技术属性】
技术研发人员:胡文彬高翔刘祥涛赵彦晖孙淏添
申请(专利权)人:深圳微众税银信息服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1