基于BERT模型的审计数据聚类方法技术

技术编号：38711300 阅读：15 留言：0更新日期：2023-09-08 14:54

本发明专利技术实施例公开的基于BERT模型的审计数据聚类方法，包括步骤S1、对原始审计数据进行预处理，选定合适的数据列为列特征，形成审计数据集样本；S2、对审计数据集样本进行向量表示；其中，对于文本数据特征和非文本数据特征分别进行向量表示；将审计数据向量进行特征融合，得到审计数据集样本特征向量；S3、采用聚类算法对审计数据集样本特征向量进行聚类，得到准确的审计数据聚类结果。聚类方法结合了审计数据的文本特征和非文本特征，并进行向量化表示，在BERT模型基础上取每个encoder层的CLS向量，进行均值处理，并对向量进行白化操作，确定审计数据特征向量中各数据向量间的余弦相似度在

全部详细技术资料下载

【技术实现步骤摘要】
基于BERT模型的审计数据聚类方法

[0001]本专利技术属于数据处理
，具体涉及基于BERT模型的审计数据聚类方法。

技术介绍

[0002]长期以来，审计问题数据的归类主要依靠人工识别方式，通常由各个审计实施主体进行管理，审计系统并未对审计问题归类判断进行解释说明，不同审计人员仅根据类别标题描述和自身经验进行操作，对问题归类的理解存在差异，导致归类标准不清晰，归类方案不合理。在不同管理层级、不同时间条件下，审计问题的分类、定性以及重要程度也会不同。
[0003]传统审计数据的聚类方法只运用到了审计文本特征，没有考虑到其他特征，比如审计时间、被审计单位等。
[0004]BERT模型是一种文本表示方法模型，现有文本语义表征通常以BERT模型为基础，取BERT模型最后一层输出的第一个token位置(CLS位置)当作句子的真实表示，但是这样丢掉了许多其他位置的信息。此外，直接从BERT模型导出的句向量会表现出塌缩现象，即这些向量表示会受高频词的影响，被约束在一个很小的区域，使得不同文本之间都会表现出很高的相似性，所以，现有的文本语义表征方法在文本聚类任务中的技术效果并不理想。

技术实现思路

[0005]有鉴于此，一些实施例公开的技术方案是基于BERT模型的审计数据聚类方法，包括步骤：
[0006]S1、对原始审计数据进行预处理，选定合适的数据列为列特征，形成审计数据集样本；
[0007]S2、对审计数据集样本进行向量表示；其中，对于文本数据特征，采用BERT模型和向量白...

【技术保护点】

【技术特征摘要】
1.基于BERT模型的审计数据聚类方法，其特征在于，包括步骤：S1、对原始审计数据进行预处理，选定合适的数据列为列特征，形成审计数据集样本；S2、对审计数据集样本进行向量表示；其中，对于文本数据特征，采用BERT模型和向量白化的方式进行向量表示；对于非文本数据特征，采用独热编码进行向量表示；将审计数据向量进行特征融合，得到审计数据集样本特征向量；S3、采用聚类算法对审计数据集样本特征向量进行聚类，得到准确的审计数据聚类结果。2.根据权利要求1所述的基于BERT模型的审计数据聚类方法，其特征在于，所述步骤S1还包括对异常值和缺失值的处理。3.根据权利要求1所述的基于BERT模型的审计数据聚类方法，其特征在于，步骤S1具体包括：原始审计数据包含的数据列特征包括“整改台账ID”、“年份”、“整改问题ID”、“审计问题事实表述”、“被审计单位编码”、“协同单位名称”、“审计意见或建议”；对于文本数据列，选取“审计问题事实表述”、“审计意见或建议”两列作为列特征；对于非文本数据列，选取“年份”、“被审计单位编码”两列作为列特征。4.根据权利要求3所述的基于BERT模型的审计数据聚类方法，其特征在于，步骤S2包括：S2
‑
1、对文本特征“审计问题事实表述”进行向量化表示；具体包括：S2
‑1‑
1、将“审计问题事实表述”文本数据中的一条文本数据输入BERT模型中，取出其12个encoder层中每层第一个token位置向量hidden
‑
states，即每层的CLS向量，组成12*768的矩阵；S2
‑1‑
2、对S2
‑1‑
1中的矩阵中每列数据取平均值，得到该文本句子的句向量；S2
‑1‑
3、将“审计问题事实表述”文本数据中其余的文本数据逐一输入BERT模型，分别执行S2
‑1‑
1、S2
‑1‑
2的操作；最终，全部“审计问题事实表述”句向量组成文本数据矩阵；S2
‑1‑
4、对全部“审计问题事实表述”句向量组成的文本数据矩阵的所有文本数据向量X分别进行向量白化操作，将各向异性特征转化为各向同性特征，得到文本数据向量A；S2
‑
2、对文本特征“审计意见或建议”进行向量化表示；参照S2
‑
1的方法对文本特征“审计意见或建议”进行处理，得到文本数据向量B；S2
‑
3、将文本数据向量A与文本数据向量B进行特征融合，得到文本数据特征向量AB；S2
‑
4、对于非文本数据列，使用python库seabo...

【专利技术属性】
技术研发人员：章凯，李春光，戴悦，
申请(专利权)人：中远海运科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人