一种基于关键词库的大模型数据污染监测评估方法及系统技术方案

技术编号:43610104 阅读:14 留言:0更新日期:2024-12-11 14:55
本发明专利技术涉及一种基于关键词库的大模型数据污染监测评估方法及系统,其中方法包括:获取目标监测领域相关的多个不同的关键词构成第一训练数据集;去除所述第一训练数据集中的污染关键词,得到第二训练数据集;其中所述污染关键词是在基于所述目标监测领域相关的关键词对目标模型训练时对所述目标模型的输出结果起到负面作用的关键词;并且不同的目标监测领域以及不同类型的目标模型对应的污染关键词不同;基于所述第二训练数据集对与目标模型的类型相同的另一目标模型进行机器学习训练以得到目标监测模型。

【技术实现步骤摘要】

本专利技术实施例涉及人工智能,尤其涉及一种基于关键词库的大模型数据污染监测评估方法及系统


技术介绍

1、目前随着人工智能技术的发展,基于训练数据进行模型训练得到的模型来执行相应的操作如结果预测或分类等越来越流形。在模型训练过程中,需要某个应用场景下的大量的样本数据来对模型训练,例如通过网络爬虫技术从网络论坛如社交论坛、专业领域的网络社区、网页等获取专业数据作为训练的样本数据。

2、相关技术中,由于获取的训练用的样本数据中存在噪音数据或缺失数据等实际情况,需要对训练样本数据进行预处理,而目前的训练样本数据的预处理仅是简单的去噪、归一化及缺失数据填充等。业界目前还未关注到,针对某个特定的
和/或应用场景如舆情监测领域获取的训练样本数据集,其中可能包括对选择的模型的训练结果起到负面作用的不健康的污染数据,使得最终训练得到的模型的输出结果的准确性降低。


技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题,本专利技术实施例提供了一种基于关键词库的大模型数据污染监测评估方法及系统。<本文档来自技高网...

【技术保护点】

1.一种基于关键词库的大模型数据污染监测评估方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述关键词库中的多个关键词预先通过以下方式确定:获取目标监测领域相关的多个历史关键词,将所述多个历史关键词输入所述第一目标模型以得到预测值;基于所述多个历史关键词以及对应的预测值,通过模型解释工具计算所述多个历史关键词各自对应的参数值,所述参数值表征对应的历史关键词对所述第一目标模型的输出结果即预测值所起作用程度的大小;选择所述多个历史关键词各自对应的参数值中大于或等于预设值的历史关键词以形成所述关键词库。

3.根据权利要求1或2所述的方法,其特征在于,...

【技术特征摘要】

1.一种基于关键词库的大模型数据污染监测评估方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述关键词库中的多个关键词预先通过以下方式确定:获取目标监测领域相关的多个历史关键词,将所述多个历史关键词输入所述第一目标模型以得到预测值;基于所述多个历史关键词以及对应的预测值,通过模型解释工具计算所述多个历史关键词各自对应的参数值,所述参数值表征对应的历史关键词对所述第一目标模型的输出结果即预测值所起作用程度的大小;选择所述多个历史关键词各自对应的参数值中大于或等于预设值的历史关键词以形成所述关键词库。

3.根据权利要求1或2所述的方法,其特征在于,所述获取目标监测领域相关的多个不同的关键词构成第一训练数据集,包括:

4.根据权利要求3所述的方法,其特征在于,该方法还包括:

5.根据权利要...

【专利技术属性】
技术研发人员:薛玲伊沙晨子周苏岳李仲正田泽力
申请(专利权)人:云目未来科技湖南有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1