【技术实现步骤摘要】
基于BERT模型的审计数据聚类方法
[0001]本专利技术属于数据处理
,具体涉及基于BERT模型的审计数据聚类方法。
技术介绍
[0002]长期以来,审计问题数据的归类主要依靠人工识别方式,通常由各个审计实施主体进行管理,审计系统并未对审计问题归类判断进行解释说明,不同审计人员仅根据类别标题描述和自身经验进行操作,对问题归类的理解存在差异,导致归类标准不清晰,归类方案不合理。在不同管理层级、不同时间条件下,审计问题的分类、定性以及重要程度也会不同。
[0003]传统审计数据的聚类方法只运用到了审计文本特征,没有考虑到其他特征,比如审计时间、被审计单位等。
[0004]BERT模型是一种文本表示方法模型,现有文本语义表征通常以BERT模型为基础,取BERT模型最后一层输出的第一个token位置(CLS位置)当作句子的真实表示,但是这样丢掉了许多其他位置的信息。此外,直接从BERT模型导出的句向量会表现出塌缩现象,即这些向量表示会受高频词的影响,被约束在一个很小的区域,使得不同文本之间都会表现出很高的相似性,所以,现有的文本语义表征方法在文本聚类任务中的技术效果并不理想。
技术实现思路
[0005]有鉴于此,一些实施例公开的技术方案是基于BERT模型的审计数据聚类方法,包括步骤:
[0006]S1、对原始审计数据进行预处理,选定合适的数据列为列特征,形成审计数据集样本;
[0007]S2、对审计数据集样本进行向量表示;其中,对于文本数据特征,采用BERT模型和向量白 ...
【技术保护点】
【技术特征摘要】
1.基于BERT模型的审计数据聚类方法,其特征在于,包括步骤:S1、对原始审计数据进行预处理,选定合适的数据列为列特征,形成审计数据集样本;S2、对审计数据集样本进行向量表示;其中,对于文本数据特征,采用BERT模型和向量白化的方式进行向量表示;对于非文本数据特征,采用独热编码进行向量表示;将审计数据向量进行特征融合,得到审计数据集样本特征向量;S3、采用聚类算法对审计数据集样本特征向量进行聚类,得到准确的审计数据聚类结果。2.根据权利要求1所述的基于BERT模型的审计数据聚类方法,其特征在于,所述步骤S1还包括对异常值和缺失值的处理。3.根据权利要求1所述的基于BERT模型的审计数据聚类方法,其特征在于,步骤S1具体包括:原始审计数据包含的数据列特征包括“整改台账ID”、“年份”、“整改问题ID”、“审计问题事实表述”、“被审计单位编码”、“协同单位名称”、“审计意见或建议”;对于文本数据列,选取“审计问题事实表述”、“审计意见或建议”两列作为列特征;对于非文本数据列,选取“年份”、“被审计单位编码”两列作为列特征。4.根据权利要求3所述的基于BERT模型的审计数据聚类方法,其特征在于,步骤S2包括:S2
‑
1、对文本特征“审计问题事实表述”进行向量化表示;具体包括:S2
‑1‑
1、将“审计问题事实表述”文本数据中的一条文本数据输入BERT模型中,取出其12个encoder层中每层第一个token位置向量hidden
‑
states,即每层的CLS向量,组成12*768的矩阵;S2
‑1‑
2、对S2
‑1‑
1中的矩阵中每列数据取平均值,得到该文本句子的句向量;S2
‑1‑
3、将“审计问题事实表述”文本数据中其余的文本数据逐一输入BERT模型,分别执行S2
‑1‑
1、S2
‑1‑
2的操作;最终,全部“审计问题事实表述”句向量组成文本数据矩阵;S2
‑1‑
4、对全部“审计问题事实表述”句向量组成的文本数据矩阵的所有文本数据向量X分别进行向量白化操作,将各向异性特征转化为各向同性特征,得到文本数据向量A;S2
‑
2、对文本特征“审计意见或建议”进行向量化表示;参照S2
‑
1的方法对文本特征“审计意见或建议”进行处理,得到文本数据向量B;S2
‑
3、将文本数据向量A与文本数据向量B进行特征融合,得到文本数据特征向量AB;S2
‑
4、对于非文本数据列,使用python库seabo...
【专利技术属性】
技术研发人员:章凯,李春光,戴悦,
申请(专利权)人:中远海运科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。