【技术实现步骤摘要】
本专利技术涉及自然语言处理,具体是涉及一种基于聚类预处理的大模型文本审核优化方法。
技术介绍
1、随着互联网文本数据规模的指数级增长,传统文本审核方法面临海量数据处理效率低、语义理解精度不足的瓶颈。当前主流技术采用统一的大模型对全量文本进行审核,虽在通用语义识别上有所突破,但存在模型参数冗余、计算资源消耗过大的缺陷。特别是在多主题、多场景的混合文本审核场景中,由于缺乏对文本特征分布的预分析,模型难以针对性处理不同语义密度的内容区域,导致审核准确率与处理速度呈现显著负相关。部分研究尝试通过规则引擎前置过滤降低处理量,但人工规则库的维护成本高昂,且难以适应动态变化的网络语言特征。
2、现有技术存在三个关键问题:其一,文本特征提取维度单一,tf-idf等传统方法无法有效捕捉上下文语义关联,导致聚类结果与真实语义分布存在偏差;其二,审核模型与文本簇的适配性不足,未建立基于簇特征的动态模型选择机制,同类研究中模型微调仅采用简单参数调整,未能结合对抗训练、知识蒸馏等优化手段提升专业领域识别能力;其三,缺乏闭环优化体系,多数系统采用静态审
...【技术保护点】
1.一种基于聚类预处理的大模型文本审核优化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,S1步骤中所述预处理具体包括:
3.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,S2步骤中所述K-means聚类算法改进包括:
4.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,通过轮廓系数确定最优聚类数K具体方法为:
5.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,S3步骤
...【技术特征摘要】
1.一种基于聚类预处理的大模型文本审核优化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,s1步骤中所述预处理具体包括:
3.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,s2步骤中所述k-means聚类算法改进包括:
4.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,通过轮廓系数确定最优聚类数k具体方法为:
5.根据权利要求1所述的一种基于聚类预处理的大模型文本审核优化方法,其特征在于,s3步骤中的构建审核模型具体包括:
【专利技术属性】
技术研发人员:戴亦斌,周斌,
申请(专利权)人:北京信工博特智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。