The embodiment of the invention discloses a credit data collection method and system, which is used for saving the storage space of credit information data, and improving the collection efficiency of the credit information data. The method comprises the following steps: the target data file for the target file name; according to the target data file name string value preset by the target feature generation algorithm of preset digit; the target characteristic value divided into the pre arranged string digit eigenvalue characters; eigenvalues of any storage judgment layer in the storage module is the value of the value contained in the target character characteristic corresponding digit character, the characteristic values of target characters contained in the default number eigenvalue character, the quantity and characteristics of digit values are stored in the storage module layer corresponding to the number; if not, then the acquisition target data file.
【技术实现步骤摘要】
一种征信数据采集方法与系统
本专利技术涉及数据处理领域,具体涉及一种征信数据采集方法与系统。
技术介绍
征信系统是指征信机构为企业或个人提供征信信息服务的系统,按一定规则合法采集企业、个人的信用信息,加工整理形成企业、个人的信用报告等征信产品,有偿提供给经济活动中的贷款方、赊销方、招标方、出租方、保险方等有合法需求的信息使用者,为其了解交易对方的信用状况提供便利。征信机构从税务局、工商局、互联网等采集企业、个人的征信数据时,需要对已采集的数据文件进行排重处理,目的是为了避免重复采集。传统的采集排重方法是将已采集的文件名或网页URL(UniformResourceLocator,统一资源定位符)地址存储到数据库,当采集新文件时,查询数据库是否已存在相同的文件名或相同的网页URL地址,从而进行采集排重。但这种方式每采集一个文件就会新增一条记录,且文件名和URL地址的字符都较长,当采集的文件达到海量级别后,记录集会变得非常庞大,并占用很大的存储空间,严重影响排重处理效率,进而降低采集效率。
技术实现思路
本专利技术实施例提供了一种征信数据采集方法与系统,用于节省征信数据的存储空间,提高征信数据的采集效率。本专利技术实施例第一方面提供了一种征信数据采集方法,包括:获取目标对象待采集的目标数据文件的文件名称,所述目标数据文件包括征信数据文件和/或网页数据文件,其中所述网页数据文件的文件名为网页URL地址;根据所述目标数据文件的文件名称通过预设算法生成预设位数的目标特征值字符串;将所述目标特征值字符串分割成为所述预设位数个特征值字符;判断特征值存储模块中的任一存储层的特征 ...
【技术保护点】
一种征信数据采集方法,其特征在于,包括:获取目标对象待采集的目标数据文件的文件名称,所述目标数据文件包括征信数据文件和/或网页数据文件,其中所述网页数据文件的文件名称为网页URL地址;根据所述目标数据文件的文件名称通过预设算法生成预设位数的目标特征值字符串;将所述目标特征值字符串分割成为所述预设位数个特征值字符;判断特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符,所述目标特征值字符包含于所述预设位数个特征值字符中,所述预设位数的数量与所述特征值储存储模块中的存储层的层数相对应;若否,则采集所述目标数据文件。
【技术特征摘要】
1.一种征信数据采集方法,其特征在于,包括:获取目标对象待采集的目标数据文件的文件名称,所述目标数据文件包括征信数据文件和/或网页数据文件,其中所述网页数据文件的文件名称为网页URL地址;根据所述目标数据文件的文件名称通过预设算法生成预设位数的目标特征值字符串;将所述目标特征值字符串分割成为所述预设位数个特征值字符;判断特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符,所述目标特征值字符包含于所述预设位数个特征值字符中,所述预设位数的数量与所述特征值储存储模块中的存储层的层数相对应;若否,则采集所述目标数据文件。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据文件的名称通过预设算法生成预设位数的目标特征值字符串包括:通过16位MD5算法对所述目标数据文件的文件名称进行加密计算生成16位数的所述目标特征值字符串,且所述特征存储模块中的存储层的层数为16层;或,通过32位MD5算法对所述目标数据文件的文件名称进行加密计算生成32位数的所述目标特征值字符串,且所述特征存储模块中的存储层的层数为32层。3.根据权利要求1所述的方法,其特征在于,当所述特征值存储模块中的每一存储层的特征值字符中包含对应位数的目标特征值字符时,所述方法还包括:确定所述目标数据文件为重复文件,且不采集所述目标数据文件。4.根据权利要求1所述的方法,其特征在于,在所述判断所述特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符之后,所述方法还包括:当所述特征值存储模块中的任一存储层的特征值字符中不包含对应位数的目标特征值字符时,则将所述目标特征值字符在所述目标特征值字符对应的存储层中新建;将所述目标特征值字符标记为初次新建特征值字符。5.根据权利要求4所述的方法,其特征在于,在所述采集所述目标数据文件之后,所述方法还包括:判断所述目标数据文件是否采集成功;若否,则将所述初次新建特征值字符删除;若是,则将所述目标数据文件发送至征信系统,以使得所述征信系统根据所述目标数据文件生成所述目标对象的征信报告。6.一种征信数据采集系统,其特征在于,包括:...
【专利技术属性】
技术研发人员:胡文彬,高翔,刘祥涛,赵彦晖,孙淏添,
申请(专利权)人:深圳微众税银信息服务有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。