一种模型评估方法及装置制造方法及图纸

技术编号:37586999 阅读:27 留言:0更新日期:2023-05-18 11:00
本申请提供一种模型评估方法及装置,该方法包括:根据敏感词识别模型对预设置的验证集进行识别,获得所述敏感词识别模型对应的真正例个数和真负例个数;根据所述真正例个数与所述验证集的正例总数确定目标正例准确率,以及根据所述真负例个数与所述验证集的负例总数确定目标负例准确率;对所述目标正例准确率和所述目标负例准确率进行加权计算,获得评估信息。本申请提供的模型评估方法,通过对目标正例准确率和目标负例准确率进行加权计算的方式,以获得表征所述模型的识别准确度的评估信息,由于所述评估信息对所述模型在正例识别方面和负例识别方面的准确率进行了综合考量,因此能较为准确地指示所述模型的识别准确度。此能较为准确地指示所述模型的识别准确度。此能较为准确地指示所述模型的识别准确度。

【技术实现步骤摘要】
一种模型评估方法及装置


[0001]本申请涉及信息处理
,尤其涉及一种模型评估方法及装置。

技术介绍

[0002]近年来,以智能手机、平板电脑为代表的移动互联网设备正成为人们随时随地进行网络互联并获取信息的便捷通道。伴随着移动互联网的快速发展,网络信息也愈发鱼龙混杂。
[0003]目前,相关企业一般会采用敏感词识别模型对网络信息进行监管,以识别并处理网络信息中夹杂的非法内容,保持网络环境的和谐。
[0004]在相关技术中,多基于敏感词识别模型对应的F值来评估敏感词识别模型的识别准确度,此种评估方式仅对敏感词识别模型所识别正例(指被模型识别为不含敏感词的语料)进行考量,会导致评估结果所指示模型识别准确度与模型实际的识别准确度存在较大差异,也就是说,基于相关技术对敏感词识别模型的识别准确度进行评估时,所获得评估结果的可靠性差。

技术实现思路

[0005]本申请实施例提供一种模型评估方法及装置,以解决相关技术在对敏感词识别模型的识别准确度进行评估时,所获得评估结果不可靠的问题。
[0006]为了解决上述技本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型评估方法,其特征在于,包括:利用敏感词识别模型分别对预设置的验证样本集中的每个样本进行识别,得到所述验证样本集中的每个样本对应的识别结果;其中,所述验证样本集包括多个正例样本和多个负例样本,所述正例样本为未包含敏感词的样本,所述负例样本为包括敏感词的样本;根据所述验证样本集中的每个样本对应的识别结果确定所述验证样本集中的真正例个数和真负例个数;其中,所述真正例个数为所述验证样本集中被识别为正例的正例样本的个数,所述真负例个数为所述验证样本集中被识别为负例的负例样本的个数;根据所述真正例个数与正例总数确定目标正例准确率,以及根据所述真负例个数与负例总数确定目标负例准确率,其中,所述正例总数为所述验证集内的正例样本的总数,所述目标正例准确率用于指示所述敏感词识别模型对所述验证样本集的正例样本的识别准确率,所述负例总数为所述验证集内的负例样本的总数,所述目标负例准确率用于指示所述敏感词识别模型对所述验证样本集的负例样本的识别准确率;对所述目标正例准确率和所述目标负例准确率进行加权计算,获得用于表征所述敏感词识别模型的识别准确度的评估信息。2.根据权利要求1所述的方法,其特征在于,所述验证样本集包括N个类别的负例样本,所述N个类别的负例样本分别与N个类别的敏感词一一对应,N为大于1的整数;所述根据所述真负例个数与负例总数确定目标负例准确率,包括:分别根据所述N个类别的负例样本中每一类别的负例样本对应的真负例个数和每一类别的负例样本的负例总数,确定所述N个类别的负例样本中每一类别的负例样本对应的负例准确率;其中,所述目标负例准确率包括所述N个类别的负例样本中每一类别的负例样本对应的负例准确率;所述对所述目标正例准确率和所述目标负例准确率进行加权计算,获得用于表征所述敏感词识别模型的识别准确度的评估信息,包括:对所述目标正例准确率和所述N个类别的负例样本中每一类别的负例样本对应的负例准确率进行加权计算,获得所述评估信息。3.根据权利要求2所述的方法,其特征在于,所述N个类别的负例样本中每一类别的负例样本分别对应一个敏感词优先级和一个权重值,所述N个类别的负例样本中每一类别的负例样本对应的所述敏感词优先级和所述权重值呈正相关关系。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:将所述N个类别的负例样本中每一类别的负例样本对应的敏感词优先级均设置为预定义的初始优先级,以及将所述N个类别的负例样本中每一类别的负例样本对应的权重值均设置为预定义的初始权重值;在获取到优先级变更请求的情况下,对所述优先级变更请求指示的负例样本所对应的敏感词优先级和权重值进行更新。5.根据权利要求1所述的方法,其特征在于,所述验证样本集中的正例样本和负例样本的比值与参考比值之间的差值位于第一预设范围内;其中,所述参考比值为在目标业务场景采集的样本中的正例样本和负例样本的比值,所述目标业务场景为所述敏感词识别模型的应用场景。6.根据权利...

【专利技术属性】
技术研发人员:井白玲郭剑霓郭江吴海英蒋宁
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1