一种模型训练、评论识别方法、装置、电子设备及介质制造方法及图纸

技术编号:34564524 阅读:15 留言:0更新日期:2022-08-17 12:53
本公开实施例提供了一种模型训练、评论识别方法、装置、电子设备及介质。方案如下:获取预设训练集,预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记;针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值,第一指标值用于指示分词的在多个样本评论中的重要程度;基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记;利用多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。通过本公开实施例提供的技术方案,提供了用于评论识别的模型,从而提高了评论识别的准确性。高了评论识别的准确性。高了评论识别的准确性。

【技术实现步骤摘要】
一种模型训练、评论识别方法、装置、电子设备及介质


[0001]本公开涉及大数据处理
,特别是涉及一种模型训练、评论识别方法、装置、电子设备及介质。

技术介绍

[0002]在互联网领域中,用户可以针对某一目标对象自由发表评论。例如,用户可以针对其购买的商品发表相应的评论。再例如,用户可以针对某一事件的话题发表对应的评论。
[0003]目前,在用户发表的评论中,除了包括与目标对象相关的评论以外,还包括大量与目标对象不相关的评论。因此,需要针对用户发表的评论进行有效的识别。

技术实现思路

[0004]本公开实施例的目的在于提供一种模型训练、评论识别方法、装置、电子设备及介质,以提供用于评论识别的模型,从而提高评论识别的准确性。具体技术方案如下:
[0005]本公开实施例提供了一种模型训练方法,所述方法包括:
[0006]获取预设训练集,所述预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记,所述第一标记为:指示所述样本评论与所述样本对象相关的第一标识,或者指示所述样本评论与所述样本对象不相关的第二标识;
[0007]针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值,所述第一指标值用于指示所述分词的在所述多个样本评论中的重要程度;
[0008]基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记,所述第二标记为所述第一标识或所述第二标识;
[0009]利用所述多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。
[0010]可选的,所述针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值的步骤,包括:
[0011]针对每一样本评论,计算该样本评论中包括的每一分词在所述多个样本评论中出现的次数与所述多个样本评论中包括的该分词的数量的商,作为该分词的词频;
[0012]基于所述多个样本评论的数量和包括每一分词的样本评论的数量,计算该分词的权重;
[0013]计算每一分词对应的词频与权重的乘积,作为该分词的第一指标值。
[0014]可选的,所述基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记的步骤,包括:
[0015]利用自拓展(Bootstrapping)算法,对所述多个样本评论中包括的分词进行多次抽取,并根据抽取到的分词,每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记。
[0016]可选的,所述利用所述多个样本评论和每一样本评论对应的第二标记,对预设二
分类模型进行训练,得到用于评论识别的目标模型的步骤,包括:
[0017]针对每一样本评论,将该样本评论输入预设支持向量机(Support Vector Machine,SVM)分类模型,得到该样本评论对应的第三标记;
[0018]根据每一样本评论对应的第二标记和第三标记,计算所述预设SVM分类模型的损失值;
[0019]在所述预设SVM分类模型未收敛时,基于所述损失值调整所述预设SVM分类模型的参数,并返回执行所述针对每一样本评论,将该样本评论输入预设SVM分类模型,得到该样本评论对应的第三标记的步骤,直至所述预设SVM分类模型收敛时,将当前时刻的预设SVM分类模型确定为用于评论识别的目标模型。
[0020]本公开实施例提供了一种评论识别方法,所述方法还包括:
[0021]获取目标对象的至少一个待识别评论;
[0022]针对每一待识别评论,将该待识别评论输入预选训练好的目标模型,得到该待识别评论的第四标记,其中,所述目标模型为上述任一项所述的模型训练方法训练得到的用于评论识别的二分类模型。
[0023]可选的,所述方法还包括:
[0024]针对所述第四标记为所述第二标识的每一待识别评论,确定发表该待识别评论的目标用户;
[0025]获取所述目标用户在当前时间前第一时长内发表的评论,作为待分析评论;
[0026]基于所述待分析评论,计算该目标用户的第二指标值,所述第二指标值用于指示所述目标用户恶意发表评论的概率;
[0027]在所述第二指标值大于预设阈值时,将所述目标用户确定为恶意评论用户。
[0028]可选的,当所述目标对象为商品时,所述基于所述待分析评论,计算该目标用户的第二指标值,所述第二指标值用于指示所述目标用户恶意发表评论的概率的步骤,包括:
[0029]基于所述待分析评论,计算所述目标用户在所述第一时长内针对不同商品首次发表的评论数量与所述第一时长内发表的评论总数量间的比值,作为第一比值;
[0030]基于所述待分析评论,计算所述目标用户在所述第一时长内评论的商品数量与所述目标用户在所述第一时长内购买商品数量间的比值,作为第二比值;
[0031]基于所述待分析评论,计算所述目标用户在预设时间范围内发表的评论数量与该目标用户在所述第一时长内发表的评论总数量间的比值,作为第三比值;
[0032]基于所述待分析评论,计算该目标用户在当前时间前第二时长内发表的评论数量与所述第二时长的比值,作为第四比值,所述第二时长小于等于所述第一时长;
[0033]计算所述第一比值、所述第二比值、所述第三比值和所述第四比值的加权和,作为所述目标用户的第二指标值。
[0034]可选的,所述方法还包括:
[0035]针对所述恶意评论用户执行预设操作。
[0036]本公开实施例提供了一种模型训练装置,所述装置包括:
[0037]第一获取模块,用于获取预设训练集,所述预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记,所述第一标记为:指示所述样本评论与所述样本对象相关的第一标识,或者指示所述样本评论与所述样本对象不相关的第二标识;
[0038]第一计算模块,用于针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值,所述第一指标值用于指示所述分词的在所述多个样本评论中的重要程度;
[0039]第一确定模块,用于基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记,所述第二标记为所述第一标识或所述第二标识;
[0040]训练模块,用于利用所述多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。
[0041]可选的,所述第一计算模块,具体用于针对每一样本评论,计算该样本评论中包括的每一分词在所述多个样本评论中出现的次数与所述多个样本评论中包括的该分词的数量的商,作为该分词的词频;基于所述多个样本评论的数量和包括每一分词的样本评论的数量,计算该分词的权重;计算每一分词对应的词频与权重的乘积,作为该分词的第一指标值。
[0042]可选的,所述第一确定模块,具体用于利用Boot本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取预设训练集,所述预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记,所述第一标记为:指示所述样本评论与所述样本对象相关的第一标识,或者指示所述样本评论与所述样本对象不相关的第二标识;针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值,所述第一指标值用于指示所述分词的在所述多个样本评论中的重要程度;基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记,所述第二标记为所述第一标识或所述第二标识;利用所述多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。2.根据权利要求1所述的方法,其特征在于,所述针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值的步骤,包括:针对每一样本评论,计算该样本评论中包括的每一分词在所述多个样本评论中出现的次数与所述多个样本评论中包括的该分词的数量的商,作为该分词的词频;基于所述多个样本评论的数量和包括每一分词的样本评论的数量,计算该分词的权重;计算每一分词对应的词频与权重的乘积,作为该分词的第一指标值。3.根据权利要求1所述的方法,其特征在于,所述基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记的步骤,包括:利用自拓展Bootstrapping算法,对所述多个样本评论中包括的分词进行多次抽取,并根据抽取到的分词,每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记。4.根据权利要求1所述的方法,其特征在于,所述利用所述多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型的步骤,包括:针对每一样本评论,将该样本评论输入预设支持向量机SVM分类模型,得到该样本评论对应的第三标记;根据每一样本评论对应的第二标记和第三标记,计算所述预设SVM分类模型的损失值;在所述预设SVM分类模型未收敛时,基于所述损失值调整所述预设SVM分类模型的参数,并返回执行所述针对每一样本评论,将该样本评论输入预设SVM分类模型,得到该样本评论对应的第三标记的步骤,直至所述预设SVM分类模型收敛时,将当前时刻的预设SVM分类模型确定为用于评论识别的目标模型。5.一种评论识别方法,其特征在于,所述方法还包括:获取目标对象的至少一个待识别评论;针对每一待识别评论,将该待识别评论输入预选训练好的目标模型,得到该待识别评论的第四标记,其中,所述目标模型为权利要求1

4中任一项所述的方法训练得到的用于评论识别的二分类模型。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:针对所述第四标记为所述第二标识的每一待识别评论,确定发表该待识别评论的目标
用户;获取所述目标用户在当前时间前第一时长内发表的评论,作为待分析评论;基于所述待分析评论,计算该目标用户的第二指标值,所述第二指标值用于指示所述目标用户恶意发表评论的概率;在所述第二指标值大于预设阈值时,将所述目标用户确定为恶意评论用户。7.根据权利要求6所述的方法,其特征在于,当所述目标对象为商品时,所述基于所述待分析评论,计算该目标用户的第二指标值,所述第二指标值用于指示所述目标用户恶意发表评论的概率的步骤,包括:基于所述待分析评论,计算所述目标用户在所述第一时长内针对不同商品首次发表的评论数量与所述第一时长内发表的评论总数量间的比值,作为第一比值;基于所述待分析评论,计算所述目标用户在所述第一时长内评论的商品数量与所述目标用户在所述第一时长内购买商品数量间的比值,作为第二比值;基于所述待分析评论,计算所述目标用户在预设时间范围内发表的评论数量与该目标用户在所述第一时长内发表的评论总数量间的比值,作为第三比值;基于所述待分析评论,计算该目标用户在当前时间前第二时长内发表的评论数量与所述第二时长的比值,作为第四比值,所述第二时长小于等于所述第一时长;计算所述第一比值、所述第二比值、所述第三比值和所述第四比值的加权和,作为所述目标用户的第二指标值。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:针对所述恶意评论用户执行预设操作。9.一种模型训练装置,其特征在于,所述装置包括:第一获取模块,用于获取预设训练集,所述预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记,所述第一标记为:指示所述样本评论与所述样本对象相关的...

【专利技术属性】
技术研发人员:刘康李馨迟杨明川
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1