【技术实现步骤摘要】
一种企业产品词异常的处理方法、装置及电子设备
[0001]本申请涉及数据处理的
,具体涉及一种企业产品词异常的处理方法
、
装置及电子设备
。
技术介绍
[0002]随着人工智能的快速发展,对于人工智能的应用也越来越广泛
。
用户在查询企业时,往往会借助应用了人工智能的企业数据分类模型对企业信息中的产品词进行提取和分类,最后,将多个产品词中归类为企业主营业务的产品词呈现给用户,以帮助用户快速了解企业的产品
。
[0003]目前,企业在编写企业信息时可能会存在编写错误的情况,从而导致企业产品词中存在异常词的情况,但企业信息中出现异常词为小概率事件,因此异常词的数量不会很多
。
然而,对于企业数据分类模型来说,在训练企业数据分类模型时,由于异常词组成的负样本数量较少,会导致用于训练企业数据分类模型的训练样本中正样本与负样本存在严重不均衡,从而造成企业数据分类模型对于异常词识别分类的准确率降低
。
[0004]因此,亟需一种企业产品词异常的处理方法
、
装置及电子设备
。
技术实现思路
[0005]针对用于训练企业数据分类模型的训练样本中正样本与负样本存在严重不均衡,从而造成企业数据分类模型对于异常词识别分类的准确率降低的问题
。
本申请提供了一种企业产品词异常的处理方法
、
装置及电子设备
。
[0006]第一方面,本申请提供一种企业产品词异 ...
【技术保护点】
【技术特征摘要】
1.
一种企业产品词异常的处理方法,其特征在于,应用于服务器,所述方法包括:获取训练样本库,所述训练样本库包括多个样本,多个所述样本包括正样本与负样本,所述正样本为正确产品词与其对应的样本类型,所述负样本为异常产品词与其对应的样本类型,所述正样本与负样本的比例为预设比例,所述正样本的数量大于所述负样本的数量;将所述训练样本库输入至所述预设企业信息分类模型中,得到多个所述样本各自对应的样本类型的预测概率;基于多个所述样本的预测概率,采用多分类焦点损失函数计算所述预设企业信息分类模型的损失函数值;当所述预设企业信息分类模型的损失函数值小于或等于预设阈值时,则确定所述预设企业信息分类模型训练完成
。2.
根据权利要求1所述的方法,其特征在于,所述多分类焦点损失函数为:其中,
FL
为损失函数值;
N
为所述训练样本库中样本的总数量;
M
为样本类型的总数量;
p
ic
为第
i
个样本属于样本类型
c
的预测概率;
y
ic
为第
i
个样本属于样本类型
c
的真实标签,若属于样本类型
c
,则真实标签取1,否则取0;
α
c
为样本类型
c
的权重值;
γ
为焦点因子
。3.
根据权利要求2所述的方法,其特征在于,确定所述样本类型
c
的权重值具体为:获取所述样本类型
c
对应的样本的总数量
n
,所述样本类型
c
为多个样本类型中任意一个;基于
n
与
N
的比值,确定所述样本类型
c
的权重值
。4.
根据权利要求1所述的方法,其特征在于,所述预设企业信息分类模型包括多层
transformer
神经网络层,所述将所述训练样本库输入至所述预设企业信息分类模型之前,还包括:计算所述训练样本库中样本的总数量;将所述样本的总数量与预设模型训练库进行匹配,得到所述样本的总数量对应的
transformer
神经网络层的层数,所述预设模型训练数据库中包括样本数量与神经网路模型的对应关系
。5.
根据权利要求1所述的方法,其特征在于,将所述训练样本库输入至所述企业信息分类模型之前,还包括:对多个所述样本的句首与句尾均连接特征标记
。6.
根据权利要求1所述的方法,其特征在于,所述确定所述预设企业信息分类模型训练完成之后,还包括:获取用户...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。