文件识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:35807594 阅读:22 留言:0更新日期:2022-12-03 13:25
本发明专利技术提供一种文件识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别文件的标题与字段名称;将标题与字段名称输入至文件分类模型,得到文件分类模型输出的文件分类结果;文件分类模型是基于样本文件的标题与字段名称,以及样本文件的文件类型标签训练得到的;文件分类模型包括具备不同参数的第一分类子模型和第二分类子模型,文件分类模型用于通过第一分类子模型和第二分类子模型分别获取与输入的标题与字段名称对应的第一分类结果和第二分类结果,并基于第一分类结果和第二分类结果进行文件分类,解决了依靠人工对文件进行文件分类需耗费大量人力且处理效率低下的问题,实现了根据文件的标题与字段名称能够对文件进行自动分类。对文件进行自动分类。对文件进行自动分类。

【技术实现步骤摘要】
文件识别方法、装置、电子设备和存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文件识别方法、装置、电子设备和存储介质。

技术介绍

[0002]随着开放平台上政务文件的不断增加,文件种类的日益增多,文件的杂乱程度也在不断加大,对政务文件进行分类是当前政务文件在逐步开放的大环境下的必然需求。但政务文件来源广泛,文件的内容在被记录时并没有统一的标准,这给文件的分类造成了困难。
[0003]现有通过识别政务文件特征区域提取“关键字”,根据“关键字”与预先构建的标准库将政务文件逐级分类的方案,分类效果依赖于待分类文件是否包含预设的关键字以及构建的标准库是否覆盖全面,且随着政务文件来源范围扩大标准库需要人工更新,难以维护。此种方法只能对特定范围政务文件分类有效,对于源源不断增加的文件存在局限性。
[0004]目前,政务文件种类繁多,依靠人工对政务文件进行文件分类与标签提取的处理方式,不仅需要耗费大量人力,而且处理效率十分低下;并且依靠人工整理材料不能对政务文件进行有效分类,政务文件中数据与数据之间缺乏关联性,这使得被整理的文件很难在后期被利用。

技术实现思路

[0005]本专利技术提供一种文件识别方法、装置、电子设备和存储介质,用以解决现有技术中依靠人工对文件进行文件分类需耗费大量人力且处理效率低下的缺陷,实现了根据文件的标题与字段名称能够对文件进行自动分类。
[0006]本专利技术提供一种文件识别方法,包括:
[0007]确定待识别文件的标题与字段名称;r/>[0008]将所述标题与字段名称输入至文件分类模型,得到所述文件分类模型输出的文件分类结果;
[0009]所述文件分类模型是基于样本文件的标题与字段名称,以及所述样本文件的文件类型标签训练得到的;
[0010]所述文件分类模型包括具备不同参数的第一分类子模型和第二分类子模型,所述文件分类模型用于通过所述第一分类子模型和所述第二分类子模型分别获取与输入的所述标题与字段名称对应的第一分类结果和第二分类结果,并基于所述第一分类结果和所述第二分类结果进行文件分类。
[0011]根据本专利技术提供的一种文件识别方法,所述文件分类模型还包括加权融合层;
[0012]所述将所述标题与字段名称输入至文件分类模型,得到所述文件分类模型输出的文件分类结果,包括:
[0013]将所述标题与字段名称分别输入所述第一分类子模型和所述第二分类子模型,得
到所述第一分类子模型输出的第一分类结果,以及所述第二分类子模型输出的第二分类结果;
[0014]将所述第一分类结果和所述第二分类结果输入至所述加权融合层,由所述加权融合层对所述第一分类结果和所述第二分类结果进行加权求和,得到所述加权融合层输出的文件分类结果。
[0015]根据本专利技术提供的一种文件识别方法,所述文件分类结果包括所述待识别文件的文件类型,以及所述文件类型的置信度;
[0016]所述将所述标题与字段名称输入至文件分类模型,得到所述文件分类模型输出的文件分类结果,之后还包括:
[0017]若所述文件类型的置信度低于预设置信阈值,则对所述待识别文件的标题与字段名称进行关键词匹配,并基于匹配所得的关键词对应的文件类型更新所述文件分类结果。
[0018]根据本专利技术提供的一种文件识别方法,所述基于匹配所得的关键词对应的文件类型更新所述文件分类结果,包括:
[0019]若匹配所得的关键词个数为1,则将所述关键词对应的文件类型作为所述文件分类结果;
[0020]若匹配所得的关键词个数大于1,则从匹配所得的各关键词中选取优先级最高的关键词,将优先级最高的关键词对应的文件类型作为所述文件分类结果。
[0021]根据本专利技术提供的一种文件识别方法,所述第一分类子模型是基于卷积神经网络构建的,所述第二分类子模型是基于循环神经网络构建的。
[0022]根据本专利技术提供的一种文件识别方法,所述确定待识别文件的标题与字段名称,之后还包括:
[0023]对所述待识别文件的标题与字段名称进行分词,得到所述待识别文件的分词集合;
[0024]基于所述分词集合中各个词的TF

IDF值,确定所述待识别文件的文件标签。
[0025]根据本专利技术提供的一种文件识别方法,所述基于所述分词集合中各个词的TF

IDF值,确定所述待识别文件的文件标签,包括:
[0026]按照TF

IDF值从高到低的顺序对所述分词集合中的各个词进行排序,并选取前预设数量个词作为所述待识别文件的文件标签;
[0027]所述预设数量是基于所述待识别文件的标题与字段名称的文本长度确定的。
[0028]本专利技术还提供一种文件识别装置,包括:
[0029]确定单元,用于确定待识别文件的标题与字段名称;
[0030]结果获取单元,用于将所述标题与字段名称输入至文件分类模型,得到所述文件分类模型输出的文件分类结果;所述文件分类模型是基于样本文件的标题与字段名称,以及所述样本文件的文件类型标签训练得到的;所述文件分类模型包括具备不同参数的第一分类子模型和第二分类子模型,所述文件分类模型用于通过所述第一分类子模型和所述第二分类子模型分别获取输入的所述标题与字段名称对应的第一分类结果和第二分类结果,并基于所述第一分类结果和所述第二分类结果进行文件分类。
[0031]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所
述文件识别方法的步骤。
[0032]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文件识别方法的步骤。
[0033]本专利技术提供的文件识别方法、装置、电子设备和存储介质,将待识别文件的标题与字段名称输入至文件分类模型,通过文件分类模型包括的第一分类子模型和所述第二分类子模型分别获取第一分类结果和第二分类结果,根据第一分类结果和第二分类结果进行文件分类,解决了依靠人工对文件进行文件分类需耗费大量人力且处理效率低下的问题,实现了根据文件的标题与字段名称能够对文件进行自动分类。
附图说明
[0034]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1是本专利技术提供的文件识别方法的流程示意图;
[0036]图2是本专利技术提供的TextRNN模型的结构示意图;
[0037]图3是本专利技术提供的标签提取的流程示意图;
[0038]图4是本专利技术提供的文件分类的流程示意图;
[0039]图5是本专利技术提供的文件识别方法的总体本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文件识别方法,其特征在于,包括:确定待识别文件的标题与字段名称;将所述标题与字段名称输入至文件分类模型,得到所述文件分类模型输出的文件分类结果;所述文件分类模型是基于样本文件的标题与字段名称,以及所述样本文件的文件类型标签训练得到的;所述文件分类模型包括具备不同参数的第一分类子模型和第二分类子模型,所述文件分类模型用于通过所述第一分类子模型和所述第二分类子模型分别获取与输入的所述标题与字段名称对应的第一分类结果和第二分类结果,并基于所述第一分类结果和所述第二分类结果进行文件分类。2.根据权利要求1所述的文件识别方法,其特征在于,所述文件分类模型还包括加权融合层;所述将所述标题与字段名称输入至文件分类模型,得到所述文件分类模型输出的文件分类结果,包括:将所述标题与字段名称分别输入所述第一分类子模型和所述第二分类子模型,得到所述第一分类子模型输出的第一分类结果,以及所述第二分类子模型输出的第二分类结果;将所述第一分类结果和所述第二分类结果输入至所述加权融合层,由所述加权融合层对所述第一分类结果和所述第二分类结果进行加权求和,得到所述加权融合层输出的文件分类结果。3.根据权利要求1所述的文件识别方法,其特征在于,所述文件分类结果包括所述待识别文件的文件类型,以及所述文件类型的置信度;所述将所述标题与字段名称输入至文件分类模型,得到所述文件分类模型输出的文件分类结果,之后还包括:若所述文件类型的置信度低于预设置信阈值,则对所述待识别文件的标题与字段名称进行关键词匹配,并基于匹配所得的关键词对应的文件类型更新所述文件分类结果。4.根据权利要求3所述的文件识别方法,其特征在于,所述基于匹配所得的关键词对应的文件类型更新所述文件分类结果,包括:若匹配所得的关键词个数为1,则将所述关键词对应的文件类型作为所述文件分类结果;若匹配所得的关键词个数大于1,则从匹配所得的各关键词中选取优先级最高的关键词,将优先级最高的关键词对应的文件类型作为所述文件分类结果。5...

【专利技术属性】
技术研发人员:宋琦悦
申请(专利权)人:中移系统集成有限公司中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1