一种基于NLP技术的智能审计方法技术

技术编号:38896408 阅读:16 留言:0更新日期:2023-09-22 14:17
本发明专利技术涉及一种基于NLP技术的智能审计方法,包括以下步骤:S1:将审计分为3类,分别为情感分类、相似度计算和要素抽取;S2:建立3个审计模型;采用支持向量机训练样本并建立情感分类模型;建立相似度计算模型;获取批量历史审批通知书中有效数据的句子,采用BiLSTM

【技术实现步骤摘要】
一种基于NLP技术的智能审计方法


[0001]本专利技术涉及审计
,特别涉及一种基于NLP技术的智能审计方法。

技术介绍

[0002]内部审计在企业中承担着监督管理的重要职责,其高效展开与企业健康发展紧密相连。随着互联网信息技术的发展和数字化转型步伐的加快,内审必然要面对更多纷繁复杂的异构多源数据。通过打造智能审计系统,实现对非结构化数据的智能审计,减少审计人员的机械劳动时间,已成大势所趋。
[0003]当前授信文本材料的审计多依赖于现场手工翻阅,一个项目周期内,审计人员可翻阅的档案有限。此外,不同审计人员的经验差异会影响到抽样精准度,容易遗漏有风险的业务。
[0004]因此,有必要提供一种基于NLP技术的智能审计方法,以提高审计效率,实现批量识别高风险问题,做到风险提前监测、事后快速响应。

技术实现思路

[0005]本专利技术的目的在于提供一种基于NLP技术的智能审计方法,以提高审计效率,实现批量识别高风险问题,做到风险提前监测、事后快速响应。
[0006]为了解决现有技术中存在的问题,本专利技术提供了一种基于NLP技术的智能审计方法,包括以下步骤:S1:将审计分为3类,分别为情感分类、相似度计算和要素抽取;S2:建立3个审计模型;获取批量历史审批通知书中的负面情感为样本,采用支持向量机训练样本并建立情感分类模型;建立相似度计算模型;获取批量历史审批通知书中有效数据的句子,采用BiLSTM

CRF模型和BMESO标注集对所述句子进行训练,以建立要素抽取模型;S3:设置智能审计规则,根据智能审计规则为待审计文本材料选择对应的审计模型;S4:通过情感分类模型、相似度计算模型或要素抽取模型对待审计文本材料进行审计。
[0007]可选的,在所述基于NLP技术的智能审计方法中,建立情感分类模型的方式如下:获取批量历史审批通知书中的有效样本;采用n

gram语言模型,将所述有效样本划分为多个子串,多个所述子串长度为1

3;采用TF

IDF词袋模型将多个所述子串转化为TF

IDF词向量;采用支持向量机训练TF

IDF词向量,以建立情感分类模型。
[0008]可选的,在所述基于NLP技术的智能审计方法中,所述有效样本包括业务架构、财务、外部信息、经营以及担保。
[0009]可选的,在所述基于NLP技术的智能审计方法中,通过情感分类模型进行审计的方式如下:获取待审计文本材料的审批通知书;采用n

gram语言模型,将所述待审计的审批通知书划分为多个子串,多个所述子串长度为1

3;采用TF

IDF词袋模型将多个所述子串转化为TF

IDF词向量;将TF

IDF词向量输入支持向量机,得到审计结果,根据审计结果判断客户的风险情况。
[0010]可选的,在所述基于NLP技术的智能审计方法中,建立相似度计算模型的方式如下:获取批量历史贷后检查报告的文本信息;采用n

gram语言模型,将所述文本信息划分为多个子串,多个所述子串长度为1

3;采用TF

IDF词袋模型将多个所述子串转化为多个文本向量,并将多个所述文本向量存入文本向量数据库,以建立相似度计算模型。
[0011]可选的,在所述基于NLP技术的智能审计方法中,通过相似度计算模型进行审计的方式如下:获取待审计文本材料的贷后检查报告的文本信息,利用TF

IDF词袋模型将新的文本信息转化为新的文本向量;计算新的文本向量与文本向量数据库中每一个文本向量的余弦相似度值;根据余弦相似度值的高低预设余弦相似度值筛选条件;根据筛选条件选取文本向量数据库中的文本向量,以判断贷后检查报告的重复率。
[0012]可选的,在所述基于NLP技术的智能审计方法中,筛选条件为选取余弦相似度值从高向低排序的前5个。
[0013]可选的,在所述基于NLP技术的智能审计方法中,通过要素抽取模型进行审计的方式如下:获取待审计文本材料的审批通知书中有效数据的句子;将其输入要素抽取模型中,要素抽取模型输出抽取概率。
[0014]可选的,在所述基于NLP技术的智能审计方法中,智能审计规则包括:若需要对文本内容进行情感分析,则采用情感分类模型进行审计;若需要对文本内容进行相似度分析,则采用相似度计算模型进行审计;若需要对文本内容部分信息进行抽取,则采用要素抽取模型进行审计。
[0015]在本专利技术所提供的基于NLP技术的智能审计方法中,通过对待审计文本材料的审计抽样思路转化为自然语言处理问题并通过智能引擎完成自动化处理,一方面能够实现对海量材料的批量分析,提高效率,增加覆盖面;另一方面,能够为现场审计人员提供更加精准的抽样清单,可以实现批量识别高风险问题,做到风险提前监测、事后快速响应。
附图说明
[0016]图1为本专利技术实施例提供的智能审计方法的流程图;图2为本专利技术实施例提供的相似度计算的流程图;图3为本专利技术实施例提供的要素抽取模型结构图。
具体实施方式
[0017]下面将结合示意图对本专利技术的具体实施方式进行更详细的描述。根据下列描述,本专利技术的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本专利技术实施例的目的。
[0018]在下文中,如果本文所述的方法包括一系列步骤,本文所呈现的这些步骤的顺序并非必须是可执行这些步骤的唯一顺序,且一些所述的步骤可被省略和/或一些本文未描述的其他步骤可被添加到该方法。
[0019]当前授信文本材料的审计多依赖于现场手工翻阅,一个项目周期内,审计人员可翻阅的档案有限。此外,不同审计人员的经验差异会影响到抽样精准度,容易遗漏有风险的业务。
[0020]为了解决现有技术中存在的问题,本专利技术提供了一种基于NLP技术的智能审计方法,如图1所示,所述智能审计方法包括以下步骤:S1:将审计分为3类,分别为情感分类、相似度计算和要素抽取;S2:建立3个审计模型;获取批量历史审批通知书中的负面情感为样本,采用支持向量机训练样本并建立情感分类模型;建立相似度计算模型;获取批量历史审批通知书中有效数据的句子,采用BiLSTM

CRF模型和BMESO标注集对所述句子进行训练,以建立要素抽取模型;S3:设置智能审计规则,根据智能审计规则为待审计文本材料选择对应的审计模型;S4:通过情感分类模型、相似度计算模型或要素抽取模型对待审计文本材料进行审计。
[0021]优选的智能审计规则包括:若需要对文本内容进行情感分析,则采用情感分类模型进行审计,本专利技术将以自动识别贷款审批环节中审批意见与结论不一致业务场景为例,进行详细说明;若需要对文本内容进行相似度分析,则采用相似度计算模型进行审计,本专利技术将以贷后检查报告内容查重场景为例,进行详本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于NLP技术的智能审计方法,其特征在于,包括以下步骤:S1:将审计分为3类,分别为情感分类、相似度计算和要素抽取;S2:建立3个审计模型;获取批量历史审批通知书中的负面情感为样本,采用支持向量机训练样本并建立情感分类模型;建立相似度计算模型;获取批量历史审批通知书中有效数据的句子,采用BiLSTM

CRF模型和BMESO标注集对所述句子进行训练,以建立要素抽取模型;S3:设置智能审计规则,根据智能审计规则为待审计文本材料选择对应的审计模型;S4:通过情感分类模型、相似度计算模型或要素抽取模型对待审计文本材料进行审计。2.如权利要求1所述的基于NLP技术的智能审计方法,其特征在于,建立情感分类模型的方式如下:获取批量历史审批通知书中的有效样本;采用n

gram语言模型,将所述有效样本划分为多个子串,多个所述子串长度为1

3;采用TF

IDF词袋模型将多个所述子串转化为TF

IDF词向量;采用支持向量机训练TF

IDF词向量,以建立情感分类模型。3.如权利要求2所述的基于NLP技术的智能审计方法,其特征在于,所述有效样本包括业务架构、财务、外部信息、经营以及担保。4.如权利要求2所述的基于NLP技术的智能审计方法,其特征在于,通过情感分类模型进行审计的方式如下:获取待审计文本材料的审批通知书;采用n

gram语言模型,将所述待审计的审批通知书划分为多个子串,多个所述子串长度为1

3;采用TF

IDF词袋模型将多个所述子串转化为TF

IDF词向...

【专利技术属性】
技术研发人员:李雪娇杨婧陈超李梦霄王璐珊
申请(专利权)人:上海银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1