一种企业产品词异常的处理方法技术

技术编号:39732689 阅读:12 留言:0更新日期:2023-12-17 23:35
一种企业产品词异常的处理方法

【技术实现步骤摘要】
一种企业产品词异常的处理方法、装置及电子设备


[0001]本申请涉及数据处理的
,具体涉及一种企业产品词异常的处理方法

装置及电子设备


技术介绍

[0002]随着人工智能的快速发展,对于人工智能的应用也越来越广泛

用户在查询企业时,往往会借助应用了人工智能的企业数据分类模型对企业信息中的产品词进行提取和分类,最后,将多个产品词中归类为企业主营业务的产品词呈现给用户,以帮助用户快速了解企业的产品

[0003]目前,企业在编写企业信息时可能会存在编写错误的情况,从而导致企业产品词中存在异常词的情况,但企业信息中出现异常词为小概率事件,因此异常词的数量不会很多

然而,对于企业数据分类模型来说,在训练企业数据分类模型时,由于异常词组成的负样本数量较少,会导致用于训练企业数据分类模型的训练样本中正样本与负样本存在严重不均衡,从而造成企业数据分类模型对于异常词识别分类的准确率降低

[0004]因此,亟需一种企业产品词异常的处理方法

装置及电子设备


技术实现思路

[0005]针对用于训练企业数据分类模型的训练样本中正样本与负样本存在严重不均衡,从而造成企业数据分类模型对于异常词识别分类的准确率降低的问题

本申请提供了一种企业产品词异常的处理方法

装置及电子设备

[0006]第一方面,本申请提供一种企业产品词异常的处理方法,应用于服务器,该方法包括:获取训练样本库,训练样本库包括多个样本,多个样本包括正样本与负样本,正样本为正确产品词与其对应的样本类型,负样本为异常产品词与其对应的样本类型,正样本与负样本的比例为预设比例,正样本的数量大于负样本的数量;将训练样本库输入至预设企业信息分类模型中,得到多个样本各自对应的样本类型的预测概率;基于多个样本的预测概率,采用多分类焦点损失函数计算预设企业信息分类模型的损失函数值;当预设企业信息分类模型的损失函数值小于或等于预设阈值时,则确定预设企业信息分类模型训练完成

[0007]通过采用上述技术方案,通过调整训练样本库中正样本与负样本的比例,使正样本的数量大于负样本的数量

以此来模拟训练样本库中样本比例不均衡的问题

然后将训练样本库输入至预设企业信息分类模型中进行训练,再通过引入多分类焦点损失函数以对样本训练库中的正样本减少关注程度,即降低正样本的训练损失,对负样本增加关注程度,即增加负样本的训练损失,从而使得预设企业信息分类模型对于负样本增加更多的迭代次数,从而提升预设企业信息分类模型对异常产品词的识别准确率

[0008]第二方面,本申请提供一种企业产品词异常的处理装置,装置为服务器,服务器包括获取模块与处理模块,其中:获取模块,用于获取训练样本库,训练样本库包括多个样本,多个样本包括正样本
与负样本,正样本为正确产品词与其对应的产品类型,负样本为异常产品词与其对应的样本类型,正样本与负样本的比例为预设比例,正样本的数量大于负样本的数量;处理模块,用于将训练样本库输入至预设企业信息分类模型中,得到多个样本各自对应的样本类型的预测概率;基于多个样本的预测概率,采用多分类焦点损失函数计算预设企业信息分类模型的损失函数值;当预设企业信息分类模型的损失函数值小于或等于预设阈值时,则确定预设企业信息分类模型训练完成

[0009]可选的,所述多分类焦点损失函数为:其中,
FL
为损失函数值;
N
为所述训练样本库中样本的总数量;
M
为样本类型的总数量;
p
ic
为第
i
个样本属于样本类型
c
的预测概率;
y
ic
为第
i
个样本属于样本类型
c
的真实标签,若属于样本类型
c
,则真实标签取1,否则取0;
α
c
为样本类型
c
的权重值;
γ
为焦点因子

[0010]通过采用上述技术方案,将每个样本的预测概率代入多焦点分类损失函数中进行计算,在这个过程中多分类焦点损失函数增加负样本的分类难度,降低正样本的分类难度,从而使得预设企业信息分类模型经过多次迭代训练后,更专注于学习难学习的负样本

[0011]可选的,获取模块获取样本类型
c
对应的样本的总数量
n
,样本类型
c
为多个样本类型中任意一个;处理模型基于
n

N
的比值,确定样本类型
c
的权重值

[0012]通过采用上述技术方案,根据样本的总数量
n
与训练样本库中样本的总数量
N
的比值,调整样本类型的权重,对于负样本增加权重,对于正样本减少权重,从而增加使得预设企业信息分类模型更专注于学习难学习的负样本,从而增加模型的对负样本的异常产品词的准确率

[0013]可选的,预设企业信息分类模型包括多层
transformer
神经网络层,将训练样本库输入至预设企业信息分类模型之前,还包括:处理模块计算训练样本库中样本的总数量;将样本的总数量与预设模型训练库进行匹配,得到样本的总数量对应的
transformer
神经网络层的层数,预设模型训练数据库中包括样本数量与神经网路模型的对应关系

[0014]通过采用上述技术方案,通过计算训练样本库中样本的总数量,以此确定企业信息分类模型需要学习的数据量;再将样本的总数量与预设模型训练库进行匹配,得到与企业信息分类模型需要学习的数据量的神经网络模型,通过参考该神经网络模型的
transformer
神经网络层的层数,从而确定企业信息分类模型的
transformer
神经网络层的层数,以此来降低模型难以收敛的概率

[0015]可选的,将训练样本库输入至企业信息分类模型之前,还包括:处理模块对多个样本的句首与句尾均连接特征标记

[0016]通过采用上述技术方案,通过在句首连接特征标注,用于标记序列的开始,在训练过程中,句首的特征标记可以帮助模型识别句子的语义,以加快模型的训练效率和准确率;在句尾连接特征标注,用于标记序列的结束,以便模型能够正确处理多个句子的输入

[0017]可选的,确定预设企业信息分类模型训练完成之后,还包括:获取模块获取用户输入的企业检索词;处理模块基于企业检索词,从预设企业数据库中调用企业检索词对应的目标企业数据,预设企业数据库包括多个企业的企业数据;将目标企业数据输入至预设企
业信息分类模型中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种企业产品词异常的处理方法,其特征在于,应用于服务器,所述方法包括:获取训练样本库,所述训练样本库包括多个样本,多个所述样本包括正样本与负样本,所述正样本为正确产品词与其对应的样本类型,所述负样本为异常产品词与其对应的样本类型,所述正样本与负样本的比例为预设比例,所述正样本的数量大于所述负样本的数量;将所述训练样本库输入至所述预设企业信息分类模型中,得到多个所述样本各自对应的样本类型的预测概率;基于多个所述样本的预测概率,采用多分类焦点损失函数计算所述预设企业信息分类模型的损失函数值;当所述预设企业信息分类模型的损失函数值小于或等于预设阈值时,则确定所述预设企业信息分类模型训练完成
。2.
根据权利要求1所述的方法,其特征在于,所述多分类焦点损失函数为:其中,
FL
为损失函数值;
N
为所述训练样本库中样本的总数量;
M
为样本类型的总数量;
p
ic
为第
i
个样本属于样本类型
c
的预测概率;
y
ic
为第
i
个样本属于样本类型
c
的真实标签,若属于样本类型
c
,则真实标签取1,否则取0;
α
c
为样本类型
c
的权重值;
γ
为焦点因子
。3.
根据权利要求2所述的方法,其特征在于,确定所述样本类型
c
的权重值具体为:获取所述样本类型
c
对应的样本的总数量
n
,所述样本类型
c
为多个样本类型中任意一个;基于
n

N
的比值,确定所述样本类型
c
的权重值
。4.
根据权利要求1所述的方法,其特征在于,所述预设企业信息分类模型包括多层
transformer
神经网络层,所述将所述训练样本库输入至所述预设企业信息分类模型之前,还包括:计算所述训练样本库中样本的总数量;将所述样本的总数量与预设模型训练库进行匹配,得到所述样本的总数量对应的
transformer
神经网络层的层数,所述预设模型训练数据库中包括样本数量与神经网路模型的对应关系
。5.
根据权利要求1所述的方法,其特征在于,将所述训练样本库输入至所述企业信息分类模型之前,还包括:对多个所述样本的句首与句尾均连接特征标记
。6.
根据权利要求1所述的方法,其特征在于,所述确定所述预设企业信息分类模型训练完成之后,还包括:获取用户...

【专利技术属性】
技术研发人员:蔡青山
申请(专利权)人:企知道科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1