基于人工智能的文件同步方法、装置、设备及存储介质制造方法及图纸

技术编号:35265908 阅读:19 留言:0更新日期:2022-10-19 10:27
本申请提出一种基于人工智能的文件同步方法、装置、电子设备及存储介质,基于人工智能的文件同步方法包括:对历史文件进行编码获得每个历史文件对应的编码数据;依据编码数据训练目标文件分类模型;评估提报文件获得合格文件;依据目标文件分类模型对合格文件进行分类获取分类文件;设置分类文件的时间优先级,依据时间优先级由高到底的顺序执行分类文件获得待同步文件;依据待同步文件的类别将待同步文件分组为实时组和循环组,分别对实时组和循环组中的所有待同步文件进行同步操作以完成同步。该方法可以通过文件的类别对文件进行循环同步,从而能够提高文件同步的效率。从而能够提高文件同步的效率。从而能够提高文件同步的效率。

【技术实现步骤摘要】
基于人工智能的文件同步方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种基于人工智能的文件同步方法、装置、电子设备及存储介质。

技术介绍

[0002]随着信息科技的发展,金融保险行业逐渐倾向于利用大数据分析技术生成业务报表来为企业提供业务决策支持。在业务数据更新的过程中,通常在短时间内会存在成百上千个数据文件同步更改的需求,这一现状给文件同步带来了极大的挑战。
[0003]目前,通常通过人工检查文件并对于不符合规范的文件进行修改和变更,这种方式费时费力且极大的浪费了人力资源,因此,寻求一种快捷并准确的文件同步方法势在必行。

技术实现思路

[0004]鉴于以上内容,有必要提供一种基于人工智能的文件同步方法及相关设备,以解决如何提高文件同步的效率这一技术问题,其中,相关设备包括基于人工智能的文件同步装置、电子设备及存储介质。
[0005]本申请实施例提供一种基于人工智能的文件同步方法,所述方法包括:
[0006]对历史文件进行编码获得每个历史文件对应的编码数据;
[0007]依据所述编码数据训练目标文件分类模型;
[0008]依据预设的编码规范评估提报文件获得合格文件,所述提报文件代表未被评估且待同步的文件,所述合格文件代表符合所述预设的编码规范的提报文件;
[0009]依据所述目标文件分类模型对所述合格文件进行分类以获取分类文件;
[0010]设置所述分类文件的时间优先级,依据时间优先级由高到底的顺序执行所述分类文件以获得待同步文件;
[0011]依据所述待同步文件的类别将所述待同步文件分组为实时组和循环组,分别对所述实时组和循环组中的所有待同步文件进行同步操作以完成同步。
[0012]上述基于人工智能的文件同步方法通过对历史文件进行编码获得了编码数据,并依据编码数据训练目标文件分类模型以供后续文件的分类任务,并依据预设编码规范对于提报文件进行评估以筛选出合格的文件,进一步制定每个合格文件的优先级并对于所有合格文件进行分类,最终依据合格文件的类别和优先级循环执行同步操作,从而提升了文件同步的效率。
[0013]在一些实施例中,所述每个历史文件包含多个关键字,所述对历史文件进行编码获得每个历史文件对应的编码数据,包括:
[0014]构建所述关键字的索引,并依据所述索引和关键字构建关键字哈希表;
[0015]依据所述历史文件中关键字的排列顺序组合每个关键字对应的索引作为每个历史文件对应的编码向量;
[0016]对所述编码向量进行特征提取获得每个历史文件对应的编码数据。
[0017]如此,通过构建所有历史文件中的关键字索引获得了每个关键字对应的编码向量,并依据预设的特征提取算法对每个编码向量进行特征提取获得每个历史文件对应的编码数据,从而以较低维度的量化数据表征历史文件,提升了后续历史文件分类的准确度和效率。
[0018]在一些实施例中,所述依据所述编码数据训练目标文件分类模型,包括:
[0019]依据所述关键字的语义对每个历史文件对应的编码数据进行标注获得多个标签数据;
[0020]将所述编码数据作为样本数据,并将所述样本数据与所述标签数据一一对应构建训练数据集;
[0021]依据所述训练数据集训练目标文件分类模型。
[0022]如此,依据历史文件中关键字的语义对每个历史文件对应的编码数据进行标注获得标签数据,将所有编码数据作为样本数据并与标签数据一一对应作为训练数据集,进一步利用训练数据训练文件分类模型,通过大量数据拟合出了较为精确的文件分类模型,能够为后续大数据自动同步流程提供便捷的分类方式,提升了大数据自动同步流程的效率。
[0023]在一些实施例中,所述依据所述训练数据集训练目标文件分类模型,包括:
[0024]构建初始文件分类模型,所述初始文件分类模型包括编码器和解码器;
[0025]将所述样本数据输入所述初始文件分类模型,获得所述样本数据对应的预测概率列表;
[0026]将所述预测概率列表和所述标签数据对应的概率列表输入预设的损失函数获得损失值,依据所述损失值迭代更新所述初始文件分类模型中的参数以获得目标文件分类模型。
[0027]如此,通过预设的损失函数约束所述目标文件分类模型的分类结果,从而能够提升所述目标文件分类模型的准确度。
[0028]在一些实施例中,所述依据预设的编码规范评估提报文件获得合格文件,包括:
[0029]对提报文件进行分词获得提报词汇列表,所述提报词汇列表包含多个提报词汇;
[0030]依据预设的编码规范评估每个提报词汇获得多个评估结果,并依据所有评估结果计算所述提报词汇列表对应的评估值;
[0031]依据所述评估值将所述提报词汇列表对应的提报文件分类为合格文件和不合格文件。
[0032]如此,通过预设的编码规范对提报文件进行分类,并依据所述提报文件的类别做出下一步操作,能够在大数据同步的最初阶段筛查不符合编码规范的文件,从而提升文件同步的效率。
[0033]在一些实施例中,所述依据所述目标文件分类模型对所述合格文件进行分类以获取分类文件,包括:
[0034]依据所述关键字哈希表查询所述合格文件中每个关键字对应的索引以获得所述合格文件对应的编码向量;
[0035]依据所述预设的特征提取算法对所述合格文件的编码向量进行特征提取获得合格文件的编码数据;
[0036]将所述合格文件的编码数据输入所述目标文件分类模型获得分类结果,并依据所述分类结果标记所述合格文件以获得分类文件。
[0037]如此,通过对提报文件进行分词和查询获得了提报向量,并将提报向量输入所述文件分类模型获得了所述提报文件对应的类别,为后续大数据同步提供了类别指引,从而提升了大数据同步的效率。
[0038]在一些实施例中,每个分类文件对应一个提报时间,所述设置所述分类文件的时间优先级,依据时间优先级由高到底的顺序执行所述分类文件以获得待同步文件,包括:
[0039]依据所述分类文件的提报时间设置所述分类文件的时间优先级;
[0040]依据所述时间优先级由高到低的顺序执行所述分类文件以获得每个分类文件对应的运行日志;
[0041]遍历所述运行日志的内容以查询报错信息,若无报错信息则标记所述分类文件为待同步文件,若有报错信息则标记该分类文件并通知开发人员进行修改。
[0042]如此,基于分类文件提报的时间设置了分类文件对应的时间优先级,并依据时间优先级由高到低的顺序运行分类文件以获得运行日志,进一步依据运行日志的报错信息制定所述分类文件的错误信息,能够将包含错误信息的文件剔除,从而提升文件同步的安全性。
[0043]本申请实施例还提供一种基于人工智能的文件同步装置,所述装置包括:
[0044]编码单元,用于对历史文件进行编码获得每个历史文件对应的编码数据;
[0045]训练单元,用于依据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的文件同步方法,其特征在于,所述方法包括:对历史文件进行编码获得每个历史文件对应的编码数据;依据所述编码数据训练目标文件分类模型;依据预设的编码规范评估提报文件获得合格文件,所述提报文件代表未被评估且待同步的文件,所述合格文件代表符合所述预设的编码规范的提报文件;依据所述目标文件分类模型对所述合格文件进行分类以获取分类文件;设置所述分类文件的时间优先级,依据时间优先级由高到底的顺序执行所述分类文件以获得待同步文件;依据所述待同步文件的类别将所述待同步文件分组为实时组和循环组,分别对所述实时组和循环组中的所有待同步文件进行同步操作以完成同步。2.如权利要求1所述的基于人工智能的文件同步方法,其特征在于,所述每个历史文件包含多个关键字,所述对历史文件进行编码获得每个历史文件对应的编码数据,包括:构建所述关键字的索引,并依据所述索引和关键字构建关键字哈希表;依据所述历史文件中关键字的排列顺序组合每个关键字对应的索引作为每个历史文件对应的编码向量;对所述编码向量进行特征提取获得每个历史文件对应的编码数据。3.如权利要求1所述的基于人工智能的文件同步方法,其特征在于,所述依据所述编码数据训练目标文件分类模型,包括:依据所述关键字的语义对每个历史文件对应的编码数据进行标注获得多个标签数据;将所述编码数据作为样本数据,并将所述样本数据与所述标签数据一一对应构建训练数据集;依据所述训练数据集训练目标文件分类模型。4.如权利要求3所述的基于人工智能的文件同步方法,其特征在于,所述依据所述训练数据集训练目标文件分类模型,包括:构建初始文件分类模型,所述初始文件分类模型包括编码器和解码器;将所述样本数据输入所述初始文件分类模型,获得所述样本数据对应的预测概率列表;将所述预测概率列表和所述标签数据对应的概率列表输入预设的损失函数获得损失值,依据所述损失值迭代更新所述初始文件分类模型中的参数以获得目标文件分类模型。5.如权利要求2所述的基于人工智能的文件同步方法,其特征在于,所述依据预设的编码规范评估提报文件获得合格文件,包括:对提报文件进行分词获得提报词汇列表,所述提报词汇列表包含多个提报词汇;依据预设的编码规范评估每个提报词汇获得多个评估结果,并依据所有评估结果计算所述提报词汇列表对应的评估值;依据...

【专利技术属性】
技术研发人员:谢敏良
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1