文件对比方法、装置、存储介质和设备制造方法及图纸

技术编号:35751361 阅读:22 留言:0更新日期:2022-11-26 18:57
本申请公开了一种文件对比方法、装置、存储介质和设备,应用于大数据领域,该方法为:基于第一文件中的待检记录,获得待检记录序列;基于第二文件中的样本记录,获得样本记录序列;将待检记录序列中第n位待检记录的每个可比对信息项,均标识为第一信息项,并将样本记录序列中第n位样本记录的每个模板信息项,均标识为第二信息项;对于每个第一信息项,将第一信息项与符合预设条件的第二信息项进行比对,得到各个第一信息项的比对结果;基于各个第一信息项的比对结果,生成第n位待检记录的核对日志;基于待检记录序列中每个待检记录的核对日志,构建第一文件的核对报告。该方法无需人工参与第一文件和第二文件的比对过程,文件比对效率较高。件比对效率较高。件比对效率较高。

【技术实现步骤摘要】
文件对比方法、装置、存储介质和设备


[0001]本申请涉及大数据领域,尤其涉及一种文件对比方法、装置、存储介质和设备。

技术介绍

[0002]在核心银行系统中反洗钱的采集是一项重要的功能,主要是为了满足监管的要求。在采集过程中会存在交易数量多、采集信息项业务复杂等情况,导致最终采集的数据全面性和正确性难以得到保证。
[0003]常规的方法需要熟知旧系统的人员逐交易逐信息项的去分析新系统生成的文本,此工作效率和准确性得不到保证;抑或是在新旧系统分别做相同的交易,再去比对两个系统生成的文件是否相同,此方法需耗费大量测试资源,效率极低。
[0004]为此,如何有效提高文件比对的效率,成为本领域亟需解决的问题。

技术实现思路

[0005]本申请提供了一种文件对比方法、装置、存储介质和设备,目的在于提高文件比对的效率。
[0006]为了实现上述目的,本申请提供了以下技术方案:
[0007]一种文件对比方法,包括:
[0008]基于预先获取的第一文件中所包含的待检记录,获得待检记录序列;所述待检记录包括多个可比对信息项;
[0009]基于预先获取的第二文件中所包含的样本记录,获得样本记录序列;所述样本记录包括多个模板信息项;每个所述模板信息项的名称与每个所述可比对信息项的名称一一对应;
[0010]将所述待检记录序列中第n位待检记录的每个可比对信息项,均标识为第一信息项,并将所述样本记录序列中第n位样本记录的每个模板信息项,均标识为第二信息项;n为正整数;<br/>[0011]对于每个所述第一信息项,将所述第一信息项与符合预设条件的第二信息项进行比对,得到各个所述第一信息项的比对结果;所述预设条件为:第二信息项的名称与所述第一信息项的名称对应;
[0012]基于各个所述第一信息项的比对结果,生成所述第n位待检记录的核对日志;
[0013]基于所述待检记录序列中每个待检记录的核对日志,构建所述第一文件的核对报告。
[0014]可选的,所述基于预先获取的第一文件中所包含的待检记录,获得待检记录序列,包括:
[0015]将预先获取的第一文件中任意一个待检记录所包含的各个信息项进行分类,得到可比对信息项分组;所述可比对信息项分组包括多个可比对信息项;各个所述可比对信息项包括银行号、生成日期、流水、冲正标识、客户账号;
[0016]按照第一排序规则,对所述第一文件中的各个待检记录进行排序,得到待检记录序列;所述第一排序规则为:按照银行号从小到大的顺序,对各个待检记录进行排序,且按照生成日期从早到晚的顺序,对银行号相同的多个待检记录进行排序,且按照流水从高到的低的顺序,对银行号相同、且生成日期相同的多个待检记录进行排序,且按照冲正标识为冲正成功排在冲正失败的顺序,对银行号相同、且生成日期相同、且流水相同的多个待检记录进行排序,且按照客户账号从小到大的顺序,对银行号相同、且生成日期相同、且流水相同、且冲正标识相同的多个待检记录进行排序。
[0017]可选的,所述基于预先获取的第二文件中所包含的样本记录,获得样本记录序列,包括:
[0018]将预先获取的第二文件中任意一个样本记录所包含的各个信息项进行分类,得到模板信息项分组;所述模板信息项分组包括多个模板信息项;各个所述模板信息项包括银行号、生成日期、流水、冲正标识、客户账号;
[0019]按照第二排序规则,对所述第二文件中的各个样本记录进行排序,得到样本记录序列;所述第二排序规则为:按照银行号从小到大的顺序,对各个样本记录进行排序,且按照生成日期从早到晚的顺序,对银行号相同的多个样本记录进行排序,且按照流水从高到的低的顺序,对银行号相同、且生成日期相同的多个样本记录进行排序,且按照冲正标识为冲正成功排在冲正失败的顺序,对银行号相同、且生成日期相同、且流水相同的多个样本记录进行排序,且按照客户账号从小到大的顺序,对银行号相同、且生成日期相同、且流水相同、且冲正标识相同的多个样本记录进行排序。
[0020]可选的,所述基于各个所述第一信息项的比对结果,生成所述第n位待检记录的核对日志,包括:
[0021]基于各个所述第一信息项的组合,作为所述第n位待检记录的唯一标识,并基于各个所述第一信息项的比对结果,作为所述第n位待检记录的核对信息,生成所述第n位待检记录的核对日志。
[0022]可选的,所述基于所述待检记录序列中每个待检记录的核对日志,构建所述第一文件的核对报告之后,还包括:
[0023]在确定各个所述第一信息项的比对结果均为提示码的情况下,将所述第n位待检记录,标识为正常记录;所述提示码指示所述第一信息项与符合所述预设条件的第二信息项相同;
[0024]在确定任意一个所述第一信息项的比对结果为错误码的情况下,将待检记录序列中第n位待检记录,标识为非正常记录;所述错误码指示所述第一信息项与符合所述预设条件的第二信息项不相同;
[0025]统计所述待检记录序列中所包含的待检记录的总数,得到第一数值;
[0026]统计所述待检记录序列中所包含的正常记录的总数,得到第二数值;
[0027]统计所述待检记录序列中所包含的非正常记录的总数,得到第三数值;
[0028]将所述第一数值、所述第二数值以及所述第三数值,添加到所述核对报告中,得到目标核对报告,并通过预设前端界面向用户展示所述目标核对报告。
[0029]可选的,所述待检记录还包括多个自检信息项,以及多个非空信息项;
[0030]所述基于所述待检记录序列中每个待检记录的核对日志,构建所述第一文件的核
对报告之后,还包括:
[0031]对于所述待检记录序列中的每个待检记录,在确定所述待检记录的各个自检信息项均通过人工校验,且各个非空信息项均通过非空检测的情况下,将所述待检记录标识已检查记录,并获取每个所述已检查记录的交易码;
[0032]在确定所述待检记录的任意一个自检信息项还未通过人工校验,且任意一个非空信息项还未通过非空检测的情况下,将所述待检记录标识未检查记录,并获取每个所述未检查记录的交易码;
[0033]统计所述待检记录序列中所包含的已检查记录的总数,得到第四数值;
[0034]统计所述待检记录序列中所包含的未检查记录的总数,得到第五数值;
[0035]将所述第四数值、所述第五数值、每个所述已检查记录的交易码、每个所述未检查记录的交易码,添加到所述核对报告中,得到目标核对报告,并通过预设前端界面向用户展示所述目标核对报告。
[0036]一种文件对比装置,包括:
[0037]第一序列获取单元,用于基于预先获取的第一文件中所包含的待检记录,获得待检记录序列;所述待检记录包括多个可比对信息项;
[0038]第二序列获取单元,用于基于预先获取的第二文件中所包含的样本记录,获得样本记录序列;所述样本记录包括多个模板信息项;每个所述模板信息项的名称与每个所述可比对信息项的名称一一对应;...

【技术保护点】

【技术特征摘要】
1.一种文件对比方法,其特征在于,包括:基于预先获取的第一文件中所包含的待检记录,获得待检记录序列;所述待检记录包括多个可比对信息项;基于预先获取的第二文件中所包含的样本记录,获得样本记录序列;所述样本记录包括多个模板信息项;每个所述模板信息项的名称与每个所述可比对信息项的名称一一对应;将所述待检记录序列中第n位待检记录的每个可比对信息项,均标识为第一信息项,并将所述样本记录序列中第n位样本记录的每个模板信息项,均标识为第二信息项;n为正整数;对于每个所述第一信息项,将所述第一信息项与符合预设条件的第二信息项进行比对,得到各个所述第一信息项的比对结果;所述预设条件为:第二信息项的名称与所述第一信息项的名称对应;基于各个所述第一信息项的比对结果,生成所述第n位待检记录的核对日志;基于所述待检记录序列中每个待检记录的核对日志,构建所述第一文件的核对报告。2.根据权利要求1所述的方法,其特征在于,所述基于预先获取的第一文件中所包含的待检记录,获得待检记录序列,包括:将预先获取的第一文件中任意一个待检记录所包含的各个信息项进行分类,得到可比对信息项分组;所述可比对信息项分组包括多个可比对信息项;各个所述可比对信息项包括银行号、生成日期、流水、冲正标识、客户账号;按照第一排序规则,对所述第一文件中的各个待检记录进行排序,得到待检记录序列;所述第一排序规则为:按照银行号从小到大的顺序,对各个待检记录进行排序,且按照生成日期从早到晚的顺序,对银行号相同的多个待检记录进行排序,且按照流水从高到的低的顺序,对银行号相同、且生成日期相同的多个待检记录进行排序,且按照冲正标识为冲正成功排在冲正失败的顺序,对银行号相同、且生成日期相同、且流水相同的多个待检记录进行排序,且按照客户账号从小到大的顺序,对银行号相同、且生成日期相同、且流水相同、且冲正标识相同的多个待检记录进行排序。3.根据权利要求1所述的方法,其特征在于,所述基于预先获取的第二文件中所包含的样本记录,获得样本记录序列,包括:将预先获取的第二文件中任意一个样本记录所包含的各个信息项进行分类,得到模板信息项分组;所述模板信息项分组包括多个模板信息项;各个所述模板信息项包括银行号、生成日期、流水、冲正标识、客户账号;按照第二排序规则,对所述第二文件中的各个样本记录进行排序,得到样本记录序列;所述第二排序规则为:按照银行号从小到大的顺序,对各个样本记录进行排序,且按照生成日期从早到晚的顺序,对银行号相同的多个样本记录进行排序,且按照流水从高到的低的顺序,对银行号相同、且生成日期相同的多个样本记录进行排序,且按照冲正标识为冲正成功排在冲正失败的顺序,对银行号相同、且生成日期相同、且流水相同的多个样本记录进行排序,且按照客户账号从小到大的顺序,对银行号相同、且生成日期相同、且流水相同、且冲正标识相同的多个样本记录进行排序。4.根据权利要求1所述的方法,其特征在于,所述基于各个所述第一信息项的比对结
果,生成所述第n位待检记录的核对日志,包括:基于各个所述第一信息项的组合,作为所述第n位待检记录的唯一标识,并基于各个所述第一信息项的比对结果,作为所述第n位待检记录的核对信息,生成所述第n位待检记录的核对日志。5.根据权利要求1所述的方法,其特征在于,所述基于所述待检记录序列中每个待检记录的核对日志,构建所述第一文件的核对报告之后,还包括:在确定各个所述第一信息项的比对结果均为提示码的情况下,将所述第n位待检记录,标识为正常记录;所述提示码指示所述第一信息项与符合所述预设条件的第二信息项相同;在确定任意一个所述第一信息项的比对结果为错误码的情况下,将待检记录序列中第n位待检记录,标识为非正常记录;所述错误码指示所述第一信息项与符合所述预设条件的第二信息项不相同;统计所述待检记录序列中所包含的待检记录的...

【专利技术属性】
技术研发人员:尹小敏刘帅卢忠民高楷锐
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1