一种基于聚类预处理的大模型文本审核优化方法技术

技术编号:44970690 阅读:24 留言:0更新日期:2025-04-12 01:44
本发明专利技术公开了一种基于聚类预处理的大模型文本审核优化方法,涉及自然语言处理技术领域,包括以下步骤:S1、对输入的原始文本数据进行预处理,所述预处理包括:文本清洗、分词、去除停用词和标点符号,生成标准化文本向量,预处理时采用TF‑IDF算法计算文本特征权重,生成高维特征向量矩阵。本发明专利技术提出大模型文本审核优化方法通过聚类预处理,将文本划分为具有相似语义或主题内容的簇,并针对每个簇构建专门的审核模型,这使得模型能够更精准地理解文本内容,从而提高了审核的准确率,同时,由于聚类减少了需要处理的数据量,模型的计算效率也得到了显著提升,不断调整聚类中心向量及簇划分规则,实现了模型的闭环优化。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体是涉及一种基于聚类预处理的大模型文本审核优化方法


技术介绍

1、随着互联网文本数据规模的指数级增长,传统文本审核方法面临海量数据处理效率低、语义理解精度不足的瓶颈。当前主流技术采用统一的大模型对全量文本进行审核,虽在通用语义识别上有所突破,但存在模型参数冗余、计算资源消耗过大的缺陷。特别是在多主题、多场景的混合文本审核场景中,由于缺乏对文本特征分布的预分析,模型难以针对性处理不同语义密度的内容区域,导致审核准确率与处理速度呈现显著负相关。部分研究尝试通过规则引擎前置过滤降低处理量,但人工规则库的维护成本高昂,且难以适应动态变化的网络语言特征。

2、现有技术存在三个关键问题:其一,文本特征提取维度单一,tf-idf等传统方法无法有效捕捉上下文语义关联,导致聚类结果与真实语义分布存在偏差;其二,审核模型与文本簇的适配性不足,未建立基于簇特征的动态模型选择机制,同类研究中模型微调仅采用简单参数调整,未能结合对抗训练、知识蒸馏等优化手段提升专业领域识别能力;其三,缺乏闭环优化体系,多数系统采用静态审核策略,未能将误判样本文档来自技高网...

【技术保护点】

1.一种基于聚类预处理的大模型文本审核优化方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,S1步骤中所述预处理具体包括:

3.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,S2步骤中所述K-means聚类算法改进包括:

4.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,通过轮廓系数确定最优聚类数K具体方法为:

5.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,S3步骤中的构建审核模型具体...

【技术特征摘要】

1.一种基于聚类预处理的大模型文本审核优化方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,s1步骤中所述预处理具体包括:

3.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,s2步骤中所述k-means聚类算法改进包括:

4.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,通过轮廓系数确定最优聚类数k具体方法为:

5.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,s3步骤中的构建审核模型具体包括:

【专利技术属性】
技术研发人员:戴亦斌周斌
申请(专利权)人:北京信工博特智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1