文件分类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:36756706 阅读:9 留言:0更新日期:2023-03-04 10:48
本申请涉及一种文件分类方法、装置、计算机设备和存储介质,涉及计算机技术领域,可用于金融科技领域或其他相关领域。该方法包括:获取管理终端发送的账号提取请求,所述账号提取请求携带有待分类待分类文件标识;根据所述待分类文件标识获取对应的待分类文件;在所述待分类文件中提取半结构化数据;在所述半结构化数据中提取账号数据;将所述账号数据发送至所述管理终端,所述账号数据用于指示所述管理终端确定所述待分类文件对应的公司名称,根据所述公司名称对所述待分类文件进行分类。采用本方法能够提高文件分类效率。本方法能够提高文件分类效率。本方法能够提高文件分类效率。

【技术实现步骤摘要】
文件分类方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种文件分类方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]金融机构每天都会收到大量的、来自数百家不同基金公司的各类文件金融机构需要对接收到的文件进行分类、录入和保存,以方便业务人员查看、归档以及统计相关信息。传统方式中,是通过业务人员人工查找基金公司发送的文件,对文件进行分类归档。然而由于涉及的基金公司众多,且文件的格式多样,导致文件分类效率较低。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种能够提高文件分类效率的文件分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0004]第一方面,本申请提供了一种文件分类方法。该方法包括:
[0005]获取管理终端发送的账号提取请求,账号提取请求携带有待分类待分类文件标识;
[0006]根据待分类文件标识获取对应的待分类文件;
[0007]在待分类文件中提取半结构化数据;
[0008]在半结构化数据中提取账号数据;
[0009]将账号数据发送至管理终端,账号数据用于指示管理终端确定待分类文件对应的公司名称,根据公司名称对待分类文件进行分类。
[0010]在其中一个实施例中,在待分类文件中提取半结构化数据包括:
[0011]提取待分类文件中的结构化数据以及非结构化数据;
[0012]根据结构化数据以及非结构化数据得到半结构化数据。
>[0013]在其中一个实施例中,在半结构化数据中提取账号数据包括:
[0014]将半结构化数据中的非结构化数据输入至预先构建的语言模型;
[0015]通过语言模型在非结构化数据中提取账号数据。
[0016]在其中一个实施例中,在半结构化数据中提取账号数据包括:
[0017]获取多种类别的关键词匹配策略;
[0018]根据多种类别的关键词匹配策略在半结构化数据中提取账号数据。
[0019]在其中一个实施例中,该方法还包括:
[0020]当账号数据提取失败时,将待分类文件转换为图像文件;
[0021]对图像文件进行字符识别,得到目标数据;
[0022]在目标数据中提取账号数据。
[0023]在其中一个实施例中,在根据待分类文件标识获取对应的待分类文件之后,该方法还包括:
[0024]获取待分类文件的文件扩展名,根据文件扩展名识别待分类文件是否为目标文件格式;
[0025]若是目标文件格式,则对待分类文件进行半结构化处理;
[0026]若并非目标文件格式,则返回拒绝服务的信息。
[0027]第二方面,本申请还提供了一种文件分类装置。该装置包括:
[0028]请求模块,用于获取管理终端发送的账号提取请求,账号提取请求携带有待分类待分类文件标识;
[0029]文件获取模块,用于根据待分类文件标识获取对应的待分类文件;
[0030]数据提取模块,用于在待分类文件中提取半结构化数据;
[0031]账号提取模块,用于在半结构化数据中提取账号数据;
[0032]文件分类模块,用于将账号数据发送至管理终端,账号数据用于指示管理终端确定待分类文件对应的公司名称,根据公司名称对待分类文件进行分类。
[0033]第三方面,本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现以下步骤:
[0034]获取管理终端发送的账号提取请求,账号提取请求携带有待分类待分类文件标识;
[0035]根据待分类文件标识获取对应的待分类文件;
[0036]在待分类文件中提取半结构化数据;
[0037]在半结构化数据中提取账号数据;
[0038]将账号数据发送至管理终端,账号数据用于指示管理终端确定待分类文件对应的公司名称,根据公司名称对待分类文件进行分类。
[0039]第四方面,本申请还提供了一种计算机可读存储介质。该计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0040]获取管理终端发送的账号提取请求,账号提取请求携带有待分类待分类文件标识;
[0041]根据待分类文件标识获取对应的待分类文件;
[0042]在待分类文件中提取半结构化数据;
[0043]在半结构化数据中提取账号数据;
[0044]将账号数据发送至管理终端,账号数据用于指示管理终端确定待分类文件对应的公司名称,根据公司名称对待分类文件进行分类。
[0045]第五方面,本申请还提供了一种计算机程序产品。该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0046]获取管理终端发送的账号提取请求,账号提取请求携带有待分类待分类文件标识;
[0047]根据待分类文件标识获取对应的待分类文件;
[0048]在待分类文件中提取半结构化数据;
[0049]在半结构化数据中提取账号数据;
[0050]将账号数据发送至管理终端,账号数据用于指示管理终端确定待分类文件对应的公司名称,根据公司名称对待分类文件进行分类。
[0051]上述文件分类方法、装置、计算机设备、存储介质和计算机程序产品,获取管理终端发送的账号提取请求,账号提取请求携带有待分类文件标识,根据待分类文件标识获取对应的待分类文件,在待分类文件中提取出半结构化数据,有利于后续进行账号数据的提取。在半结构化数据中提取账号数据,将账号数据发送至管理终端,账号数据用于指示管理终端确定待分类文件对应的公司名称,根据公司名称对待分类文件进行分类。在获取到账号提取请求后,针对大量不同格式的文件,能够自动提取账号数据,从而实现根据账号数据对待分类文件进行分类,提高了文件分类效率,且减少了人力成本。另外,上述文件分类方法无需采用额外的机器学习或深度学习模型,无需收集和标注训练样本,降低了开发周期和后期维护成本。
附图说明
[0052]图1为一个实施例中文件分类方法的应用环境图;
[0053]图2为一个实施例中文件分类方法的流程示意图;
[0054]图3为一个实施例中在待分类文件中提取半结构化数据步骤的流程示意图;
[0055]图4为一个实施例中类别一的关键词匹配策略所对应的待分类文件的示意图;
[0056]图5为一个实施例中类别二的关键词匹配策略所对应的待分类文件的局部示意图;
[0057]图6为一个实施例中类别三的关键词匹配策略所对应的待分类文件;
[0058]图7为另一个实施例中文件分类方法的流程示意图;
[0059]图8为一个实施例中文件分类装置的结构框图;
[0060]图9为一个实施例中计算机设备的内部结构图。
具体实施方式
[0061]为了使本申请的目的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文件分类方法,其特征在于,所述方法包括:获取管理终端发送的账号提取请求,所述账号提取请求携带有待分类待分类文件标识;根据所述待分类文件标识获取对应的待分类文件;在所述待分类文件中提取半结构化数据;在所述半结构化数据中提取账号数据;将所述账号数据发送至所述管理终端,所述账号数据用于指示所述管理终端确定所述待分类文件对应的公司名称,根据所述公司名称对所述待分类文件进行分类。2.根据权利要求1所述的方法,其特征在于,所述在所述待分类文件中提取半结构化数据包括:提取所述待分类文件中的结构化数据以及非结构化数据;根据所述结构化数据以及所述非结构化数据得到半结构化数据。3.根据权利要求1所述的方法,其特征在于,所述在所述半结构化数据中提取账号数据包括:将所述半结构化数据中的非结构化数据输入至预先构建的语言模型;通过所述语言模型在所述非结构化数据中提取账号数据。4.根据权利要求1所述的方法,其特征在于,所述在所述半结构化数据中提取账号数据包括:获取多种类别的关键词匹配策略;根据所述多种类别的关键词匹配策略在所述半结构化数据中提取账号数据。5.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:当账号数据提取失败时,将所述待分类文件转换为图像文件;对所述图像文件进行字符识别,得到目标数据;在所述目标数据中提取账号数据。6.根据权利要求1所述的方法,...

【专利技术属性】
技术研发人员:张瀚文
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1