一种文件审核方法及系统技术方案

技术编号:31317018 阅读:12 留言:0更新日期:2021-12-12 23:56
本发明专利技术提供了一种文件审核方法及系统,其中,方法包括:获取待审核文件;将待审核文件拆分为多个待审核句;将多个待审核句输入分类模型中,得到每个待审核句的标签种类;分类模型利用训练审核文件集,对卷积神经网络进行训练得到的;将同一标签种类下的多个待审核句和多个审核标准句输入相似度模型中,确定与每个待审核句相似度最大的审核标准句;审核标准句是将审核标准文件进行拆分得到的;相似度模型是利用训练审核文件集,对长短期记忆网络进行训练得到的。本发明专利技术通过分类模型和相似度模型从,能够待审核文件中与审核标准文件相似度最大的语句,进而提高文件审核的效率和自动化水平。平。平。

【技术实现步骤摘要】
一种文件审核方法及系统


[0001]本专利技术涉及语句分类
,特别是涉及一种文件审核方法及系统。

技术介绍

[0002]近年来,在公司的集团化管理中,集团母公司对控股子公司内部制度审核工作的管理日趋严格,控股子公司制定内部制度时必须依照集团母公司的相关制度文件进行条款拆解,依照相应条款要求制定制度,并细化到具体执行内容。子公司内部制度制定完成后,需报送至集团,再由集团人工进行合规性审核。目前,集团下属多家子公司每年新增内部制度的文件多达数千多份,且制度文件篇幅普遍较长,同时,制度文件种类繁多,例如舆情异常情况制度、保密制度、日常管理制度;各类制度中条款内容专业性强,例如财务制度中,条款相关的定量约束、内部审核,是制度审核重点,对审核者的业务能力要求高。集团母公司每年投入数十名不同领域的专业人员进行制度审核,同时,由于同类制度各子公司报送时间相对集中,造成短期内人员工作量极大,无法保证制度审核及时完成。

技术实现思路

[0003]本专利技术的目的是提供一种相似度审核方法及系统,能够提高文件审核的效率和自动化水平。
[0004]为实现上述目的,本专利技术提供了如下方案:
[0005]一种文件审核方法,包括:
[0006]获取待审核文件;
[0007]将所述待审核文件拆分为多个待审核句;
[0008]将多个所述待审核句输入分类模型中,得到每个所述待审核句的标签种类;所述分类模型利用训练审核文件集,对卷积神经网络进行训练得到的;
[0009]将同一标签种类下的多个所述待审核句和多个审核标准句输入相似度模型中,确定与每个所述待审核句相似度最大的审核标准句;所述审核标准句是将审核标准文件进行拆分得到的;所述相似度模型是利用训练审核文件集,对长短期记忆网络进行训练得到的。
[0010]可选的,在所述将同一标签种类下的多个所述待审核句和多个审核标准句输入相似度模型中,确定与每个所述待审核句相似度最大的审核标准句之前,还包括:
[0011]获取审核标准文件;
[0012]将所述审核标准文件拆分为多个审核标准句;
[0013]将多个所述审核标准句输入分类模型中,得到每个所述审核标准句的标签种类。
[0014]可选的,在所述获取待审核文件之前,还包括:
[0015]获取所述审核训练集;所述审核训练集中包括标有不同标签的多个审核训练句;
[0016]以多个所述审核训练句为输入,以多个所述审核训练句的标签为输出,以交叉熵损失为目标函数,训练卷积神经网络,得到所述分类模型。
[0017]可选的,在所述获取待审核文件之前,还包括:
[0018]获取所述审核训练集中任一标签下的多个审核训练句作为审核训练子集;
[0019]将所述审核训练子集中的多个审核训练句分别进行词向量划分,得到多个审核训练词向量序列;所述审核训练词向量序列与所述审核训练子集中的多个审核训练句一一对应;
[0020]获取与所述审核训练子集同一标签下多个审核标准句作为审核标准子集;
[0021]将所述审核标准子集中的多个审核标准句分别进行词向量划分,得到多个审核标准词向量序列;所述审核标准词向量序列与所述审核标准子集中的多个审核标准句一一对应;
[0022]以将多个审核训练词向量序列为输入,以与审核训练词向量序列相似度最大的审核标准词向量序列为输出,训练长短期记忆网络,得到所述相似度模型。
[0023]一种文件审核系统,包括:
[0024]待审核文件获取模块,用于获取待审核文件;
[0025]待审核文件拆分模块,用于将所述待审核文件拆分为多个待审核句;
[0026]待审核句标签种类确定模块,用于将多个所述待审核句输入分类模型中,得到每个所述待审核句的标签种类;所述分类模型利用训练审核文件集,对卷积神经网络进行训练得到的;
[0027]相似度确定模块,用于将同一标签种类下的多个所述待审核句和多个审核标准句输入相似度模型中,确定与每个所述待审核句相似度最大的审核标准句;所述审核标准句是将审核标准文件进行拆分得到的;所述相似度模型是利用训练审核文件集,对长短期记忆网络进行训练得到的。
[0028]可选的,所述系统,还包括:
[0029]审核标准文件获取模块,用于获取审核标准文件;
[0030]审核标准文件拆分模块,用于将所述审核标准文件拆分为多个审核标准句;
[0031]审核标准句标签种类确定模块,用于将多个所述审核标准句输入分类模型中,得到每个所述审核标准句的标签种类。
[0032]可选的,所述系统,还包括:
[0033]审核训练集获取模块,用于获取所述审核训练集;所述审核训练集中包括标有不同标签的多个审核训练句;
[0034]分类模型确定模块,用于以多个所述审核训练句为输入,以多个所述审核训练句的标签为输出,以交叉熵损失为目标函数,训练卷积神经网络,得到所述分类模型。
[0035]可选的,所述系统,还包括:
[0036]审核训练子集确定模块,用于获取所述审核训练集中任一标签下的多个审核训练句作为审核训练子集;
[0037]审核训练词向量序列确定模块,用于将所述审核训练子集中的多个审核训练句分别进行词向量划分,得到多个审核训练词向量序列;所述审核训练词向量序列与所述审核训练子集中的多个审核训练句一一对应;
[0038]审核标准子集确定模块,用于获取与所述审核训练子集同一标签下多个审核标准句作为审核标准子集;
[0039]审核标准词向量序列确定模块,用于将所述审核标准子集中的多个审核标准句分
别进行词向量划分,得到多个审核标准词向量序列;所述审核标准词向量序列与所述审核标准子集中的多个审核标准句一一对应;
[0040]相似度模型确定模块,用于以将多个审核训练词向量序列为输入,以与审核训练词向量序列相似度最大的审核标准词向量序列为输出,训练长短期记忆网络,得到所述相似度模型。
[0041]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0042]本专利技术提供了一种文件审核方法及系统,其中,方法包括:获取待审核文件;将待审核文件拆分为多个待审核句;将多个待审核句输入分类模型中,得到每个待审核句的标签种类;分类模型利用训练审核文件集,对卷积神经网络进行训练得到的;将同一标签种类下的多个待审核句和多个审核标准句输入相似度模型中,确定与每个待审核句相似度最大的审核标准句;审核标准句是将审核标准文件进行拆分得到的;相似度模型是利用训练审核文件集,对长短期记忆网络进行训练得到的。本专利技术通过分类模型和相似度模型从,能够待审核文件(子公司制度文件)中与审核标准文件(母公司制度文件)相似度最大的语句,审核人员只需对待审核文件中与审核标准文件相似度最大的语句进行审核,提高文件审核的效率和自动化水平。
附图说明
[0043]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件审核方法,其特征在于,所述方法,包括:获取待审核文件;将所述待审核文件拆分为多个待审核句;将多个所述待审核句输入分类模型中,得到每个所述待审核句的标签种类;所述分类模型利用训练审核文件集,对卷积神经网络进行训练得到的;将同一标签种类下的多个所述待审核句和多个审核标准句输入相似度模型中,确定与每个所述待审核句相似度最大的审核标准句;所述审核标准句是将审核标准文件进行拆分得到的;所述相似度模型是利用训练审核文件集,对长短期记忆网络进行训练得到的。2.根据权利要求1所述的文件审核方法,其特征在于,在所述将同一标签种类下的多个所述待审核句和多个审核标准句输入相似度模型中,确定与每个所述待审核句相似度最大的审核标准句之前,还包括:获取审核标准文件;将所述审核标准文件拆分为多个审核标准句;将多个所述审核标准句输入分类模型中,得到每个所述审核标准句的标签种类。3.根据权利要求2所述的文件审核方法,其特征在于,在所述获取待审核文件之前,还包括:获取所述审核训练集;所述审核训练集中包括标有不同标签的多个审核训练句;以多个所述审核训练句为输入,以多个所述审核训练句的标签为输出,以交叉熵损失为目标函数,训练卷积神经网络,得到所述分类模型。4.根据权利要求3所述的文件审核方法,其特征在于,在所述获取待审核文件之前,还包括:获取所述审核训练集中任一标签下的多个审核训练句作为审核训练子集;将所述审核训练子集中的多个审核训练句分别进行词向量划分,得到多个审核训练词向量序列;所述审核训练词向量序列与所述审核训练子集中的多个审核训练句一一对应;获取与所述审核训练子集同一标签下多个审核标准句作为审核标准子集;将所述审核标准子集中的多个审核标准句分别进行词向量划分,得到多个审核标准词向量序列;所述审核标准词向量序列与所述审核标准子集中的多个审核标准句一一对应;以将多个审核训练词向量序列为输入,以与审核训练词向量序列相似度最大的审核标准词向量序列为输出,训练长短期记忆网络,得到所述相似度模型。5.一种文件审核系统,其特征在于,所述系统,包括:待审核文件获取模块,用于获取待审核文件;待审核文件拆分模块,用于将所述待审...

【专利技术属性】
技术研发人员:石贇汪志成杨程旺武宝杰赵璇叶超张芸
申请(专利权)人:上海欧冶金融信息服务股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1