基于BERT模型的审计数据聚类方法技术

技术编号:38711300 阅读:15 留言:0更新日期:2023-09-08 14:54
本发明专利技术实施例公开的基于BERT模型的审计数据聚类方法,包括步骤S1、对原始审计数据进行预处理,选定合适的数据列为列特征,形成审计数据集样本;S2、对审计数据集样本进行向量表示;其中,对于文本数据特征和非文本数据特征分别进行向量表示;将审计数据向量进行特征融合,得到审计数据集样本特征向量;S3、采用聚类算法对审计数据集样本特征向量进行聚类,得到准确的审计数据聚类结果。聚类方法结合了审计数据的文本特征和非文本特征,并进行向量化表示,在BERT模型基础上取每个encoder层的CLS向量,进行均值处理,并对向量进行白化操作,确定审计数据特征向量中各数据向量间的余弦相似度在

【技术实现步骤摘要】
基于BERT模型的审计数据聚类方法


[0001]本专利技术属于数据处理
,具体涉及基于BERT模型的审计数据聚类方法。

技术介绍

[0002]长期以来,审计问题数据的归类主要依靠人工识别方式,通常由各个审计实施主体进行管理,审计系统并未对审计问题归类判断进行解释说明,不同审计人员仅根据类别标题描述和自身经验进行操作,对问题归类的理解存在差异,导致归类标准不清晰,归类方案不合理。在不同管理层级、不同时间条件下,审计问题的分类、定性以及重要程度也会不同。
[0003]传统审计数据的聚类方法只运用到了审计文本特征,没有考虑到其他特征,比如审计时间、被审计单位等。
[0004]BERT模型是一种文本表示方法模型,现有文本语义表征通常以BERT模型为基础,取BERT模型最后一层输出的第一个token位置(CLS位置)当作句子的真实表示,但是这样丢掉了许多其他位置的信息。此外,直接从BERT模型导出的句向量会表现出塌缩现象,即这些向量表示会受高频词的影响,被约束在一个很小的区域,使得不同文本之间都会表现出很高的相似性,所以,现有的文本语义表征方法在文本聚类任务中的技术效果并不理想。

技术实现思路

[0005]有鉴于此,一些实施例公开的技术方案是基于BERT模型的审计数据聚类方法,包括步骤:
[0006]S1、对原始审计数据进行预处理,选定合适的数据列为列特征,形成审计数据集样本;
[0007]S2、对审计数据集样本进行向量表示;其中,对于文本数据特征,采用BERT模型和向量白化的方式进行向量表示;对于非文本数据特征,采用独热编码进行向量表示;将审计数据向量进行特征融合,得到审计数据集样本特征向量;
[0008]S3、采用聚类算法对审计数据集样本特征向量进行聚类,得到准确的审计数据聚类结果。
[0009]进一步,一些实施例公开的基于BERT模型的审计数据聚类方法,步骤S1具体包括:
[0010]原始审计数据包含的数据列特征包括“整改台账ID”、“年份”、“整改问题ID”、“审计问题事实表述”、“被审计单位编码”、“协同单位名称”、“审计意见或建议”;
[0011]对于文本数据列,选取“审计问题事实表述”、“审计意见或建议”两列作为列特征;
[0012]对于非文本数据列,选取“年份”、“被审计单位编码”两列作为列特征。
[0013]进一步,一些实施例公开的基于BERT模型的审计数据聚类方法,步骤S1还包括对异常值和缺失值的处理。
[0014]一些实施例公开的BERT模型的审计数据聚类方法,其特征在于,步骤S2包括:
[0015]S2

1、对文本特征“审计问题事实表述”进行向量化表示;具体包括:
[0016]S2
‑1‑
1、将“审计问题事实表述”文本数据中的一条文本数据输入BERT模型中,取出其12个encoder层中每层第一个token位置向量hidden

states,即每层的CLS向量,组成12*768的矩阵;
[0017]S2
‑1‑
2、对S2
‑1‑
1中的矩阵中每列数据取平均值,得到该文本句子的句向量;
[0018]S2
‑1‑
3、将“审计问题事实表述”文本数据中其余的文本数据逐一输入BERT模型,分别执行S2
‑1‑
1、S2
‑1‑
2的操作,最终,全部“审计问题事实表述”句向量组成文本数据矩阵;
[0019]S2
‑1‑
4、对全部“审计问题事实表述”句向量组成的文本数据矩阵的所有文本数据向量X分别进行向量白化操作,将各向异性特征转化为各向同性特征,得到文本数据向量A;
[0020]S2

2、对文本特征“审计意见或建议”进行向量化表示;参照S2

1的方法对“审计意见或建议”文本数据进行处理,得到文本数据向量B;
[0021]S2

3、将文本数据向量A与文本数据向量B进行特征融合,得到文本数据特征向量AB;
[0022]S2

4、对于非文本数据列,使用python库seaborn的heatmap函数绘制非文本数据列的相关性矩阵热度图,选取“年份”、“被审计单位编码”两列作为非文本数据的列特征;采用独热编码将“年份”、“被审计单位编码”两条非文本数据向量化,然后将“年份”、“被审计单位编码”非文本数据向量进行特征融合,得到非文本数据特征向量CD;
[0023]S2

5、将文本数据特征向量AB与非文本数据特征向量CD进行特征融合,形成审计数据集样本特征向量R。
[0024]一些实施例公开的基于BERT模型的审计数据聚类方法,步骤S2
‑1‑
4中对文本数据向量X进行白化操作,具体包括:
[0025]对文本数据向量X中每行数据取均值,然后将这一行的每个数据减去均值,可以得到一组均值为0的新数据;
[0026]文本数据向量X中的其余行数据依次以此方法处理,最终得到均值为零的文本数据向量Y;
[0027]计算文本数据向量Y的协方差矩阵,然后通过数学方法让其变成单位阵,得到“审计问题事实表述”文本数据的向量A。
[0028]一些实施例公开的基于BERT模型的审计数据聚类方法,对文本数据向量X进行白化操作后,文本数据向量X中各向量之间的余弦相似度为

0.4~0.4。
[0029]一些实施例公开的基于BERT模型的审计数据聚类方法,步骤S3包括:
[0030]结合领域知识,进一步结合经验总结,将聚类数k确定在6~9范围内;
[0031]将审计数据集样本特征向量R输入到python库sklearn中的Kmeans函数中,设定聚类数k分别为6、7、8、9,其余参数取默认值,进行聚类计算;
[0032]采用轮廓系数指标和手肘法确定最佳聚类数k;
[0033]确定最佳聚类数k值后,确定初始聚类中心状态函数random

state的值,根据k值和random

state值即可得到最终聚类结果。
[0034]一些实施例公开的基于BERT模型的审计数据聚类方法,步骤S3中:
[0035]轮廓系数使用python库sklearn中的silhouette_score函数,结果最大的大概率是最佳聚类数;
[0036]手肘法通过计算每个k值下的误差平方和,绘制折线图,取曲率最高的点的k值大概率是最佳聚类数;
[0037]结合两种方式确定的最佳聚类数,确定最终聚类数k值。
[0038]一些实施例公开的基于BERT模型的审计数据聚类方法,手肘法中,计算每个聚类数k下的误差平方和,计算公式为:
[0039][0040]其中,Ci是第i个簇,p是Ci中的样本点,mi是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于BERT模型的审计数据聚类方法,其特征在于,包括步骤:S1、对原始审计数据进行预处理,选定合适的数据列为列特征,形成审计数据集样本;S2、对审计数据集样本进行向量表示;其中,对于文本数据特征,采用BERT模型和向量白化的方式进行向量表示;对于非文本数据特征,采用独热编码进行向量表示;将审计数据向量进行特征融合,得到审计数据集样本特征向量;S3、采用聚类算法对审计数据集样本特征向量进行聚类,得到准确的审计数据聚类结果。2.根据权利要求1所述的基于BERT模型的审计数据聚类方法,其特征在于,所述步骤S1还包括对异常值和缺失值的处理。3.根据权利要求1所述的基于BERT模型的审计数据聚类方法,其特征在于,步骤S1具体包括:原始审计数据包含的数据列特征包括“整改台账ID”、“年份”、“整改问题ID”、“审计问题事实表述”、“被审计单位编码”、“协同单位名称”、“审计意见或建议”;对于文本数据列,选取“审计问题事实表述”、“审计意见或建议”两列作为列特征;对于非文本数据列,选取“年份”、“被审计单位编码”两列作为列特征。4.根据权利要求3所述的基于BERT模型的审计数据聚类方法,其特征在于,步骤S2包括:S2

1、对文本特征“审计问题事实表述”进行向量化表示;具体包括:S2
‑1‑
1、将“审计问题事实表述”文本数据中的一条文本数据输入BERT模型中,取出其12个encoder层中每层第一个token位置向量hidden

states,即每层的CLS向量,组成12*768的矩阵;S2
‑1‑
2、对S2
‑1‑
1中的矩阵中每列数据取平均值,得到该文本句子的句向量;S2
‑1‑
3、将“审计问题事实表述”文本数据中其余的文本数据逐一输入BERT模型,分别执行S2
‑1‑
1、S2
‑1‑
2的操作;最终,全部“审计问题事实表述”句向量组成文本数据矩阵;S2
‑1‑
4、对全部“审计问题事实表述”句向量组成的文本数据矩阵的所有文本数据向量X分别进行向量白化操作,将各向异性特征转化为各向同性特征,得到文本数据向量A;S2

2、对文本特征“审计意见或建议”进行向量化表示;参照S2

1的方法对文本特征“审计意见或建议”进行处理,得到文本数据向量B;S2

3、将文本数据向量A与文本数据向量B进行特征融合,得到文本数据特征向量AB;S2

4、对于非文本数据列,使用python库seabo...

【专利技术属性】
技术研发人员:章凯李春光戴悦
申请(专利权)人:中远海运科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1