垃圾评论的识别方法、装置、设备及介质制造方法及图纸

技术编号:30826428 阅读:17 留言:0更新日期:2021-11-18 12:25
本发明专利技术实施例公开了垃圾评论的识别方法、装置、设备及介质。该方法包括:获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度;根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论;如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集;返回执行计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。本发明专利技术实施例的技术方案,能够实现对互联网评论信息中的垃圾评论进行自动识别,提高了垃圾评论的识别效果。提高了垃圾评论的识别效果。提高了垃圾评论的识别效果。

【技术实现步骤摘要】
垃圾评论的识别方法、装置、设备及介质


[0001]本专利技术实施例涉及大数据挖掘
,尤其涉及一种垃圾评论的识别方法、装置、设备及介质。

技术介绍

[0002]随着互联网技术的快速发展,互联网中的评论信息呈爆炸式趋势增长,如何对互联网中的评论信息进行过滤,识别出垃圾评论已成为亟待解决的问题。
[0003]现有技术中,对于网络垃圾评论,阻止和识别垃圾评论的方法主要分为人工识别的方法和自动识别的方法两大类。其中,自动识别的方法又可分为基于训练集的分类识别方法和基于相似度的识别方法。
[0004]然而,人工识别的方法只能对新发表的评论进行识别,过滤掉其中的垃圾评论,对已发表的垃圾评论却无能为力;同时,人工识别的方法需要不断地进行人工维护,不太方便;并且,垃圾制造者可以利用各种代理方法欺骗过滤机制。基于训练集的分类方法,由于网络的便利,评论更新的速度比较快,特征词的变化很大,所以为了使分类器能更准确的识别出垃圾评论,训练样本就要随着这种变化而改变,训练样本发生变化,特征项就要重新选择,就要重新对特征项进行权重的计算和抽取,这严重影响了系统运行的效率,同时带来了不便。

技术实现思路

[0005]本专利技术实施例提供一种垃圾评论的识别方法、装置、设备及介质,以实现对互联网评论信息中的垃圾评论进行自动识别。
[0006]第一方面,本专利技术实施例提供了一种垃圾评论的识别方法,包括:
[0007]获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度;
[0008]根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论;
[0009]如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集;
[0010]返回执行根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。
[0011]第二方面,本专利技术实施例还提供了一种垃圾评论的识别装置,该装置包括:
[0012]相似度计算模块,用于获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度;
[0013]评论识别模块,用于根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论;
[0014]主题词集更新模块,用于如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主
题词集;
[0015]评论成功识别模块,用于返回执行根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。
[0016]第三方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:
[0017]一个或多个处理器;
[0018]存储装置,用于存储一个或多个程序,
[0019]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任一实施例所述的垃圾评论的识别方法。
[0020]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本专利技术任一实施例所述的垃圾评论的识别方法。
[0021]本专利技术实施例的技术方案通过利用主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度,并根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论,如果确定存在未成功识别的待识别评论,则在对主题词集更新后再次对未成功识别的待识别评论进行识别,直至所有待识别评论均被识别出类别,能够实现对互联网评论信息中的垃圾评论进行自动识别,提高了垃圾评论的识别效果。
附图说明
[0022]图1是本专利技术实施例一中的一种垃圾评论的识别方法的流程图;
[0023]图2是本专利技术实施例二中的一种垃圾评论的识别方法的流程图;
[0024]图3a是本专利技术实施例三中的一种垃圾评论的识别方法的流程图;
[0025]图3b是本专利技术实施例三中的一种垃圾评论识别方法的总体框图;
[0026]图4是本专利技术实施例四中的一种垃圾评论的识别装置的结构示意图;
[0027]图5是本专利技术实施例五中的一种计算机设备的结构示意图。
具体实施方式
[0028]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0029]实施例一
[0030]图1为本专利技术实施例一提供的垃圾评论的识别方法的流程图,本实施例可适用于对互联网评论信息中的垃圾评论进行识别的情况,该方法可以由垃圾评论的识别装置来执行,该装置可采用硬件和/或软件的方式实现,并一般可以集成在具有垃圾评论识别功能的计算机设备中,例如,终端设备或服务器等,所述方法具体包括如下步骤:
[0031]S110、获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度。
[0032]其中,待识别评论指的是与目标文章对应的,要进行识别处理的互联网评论信息。主题词集指的是由与目标文章对应的各个主题词所组成的词集。
[0033]示例性的,各主题词的计算权重可以根据公式1+log10(1+n)进行计算,其中,n表
示主题词在目标文章中出现的次数。
[0034]S120、根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论。
[0035]其中,垃圾评论指的是与目标文章之间的相似度较低的评论,即与目标文章关联性不强的评论;备选垃圾评论指的是与目标文章之间的相似度初步判断较低的评论,需进行下一步的确认才能对其类别进行最终确定;正常评论指的是与目标文章之间的相似度较高的评论,即与目标文章关联性较强的评论;
[0036]具体的,根据各待识别评论与目标文章之间的相似度计算结果,可以将各待识别评论进行分类,以区分出备选垃圾评论和正常评论。
[0037]在本实施例的一个可选的实时方式中,可以将相似度计算结果大于或者等于预设阈值(例如,90%)的待识别评论,直接确定为正常评论,而将相似度计算结果小于或者等于预设阈值(例如,5%)的待识别评论,直接确定为备选垃圾评论,而将相似度计算结果处于预设的一个阈值范围内(例如:5%

90%)的待识别评论,确定为成功识别的待识别评论。
[0038]在实施例中,可以直接将备选垃圾评论确定为垃圾评论,也可以对该备选垃圾评论进行二次筛选过滤,本实施例对此并不进行限制。
[0039]S130、如果确定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种垃圾评论的识别方法,其特征在于,包括:获取与目标文章对应的多个待识别评论和主题词集,并根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度;根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论;如果确定存在未成功识别的待识别评论,则根据当前识别出的正常评论,对主题词集进行主题词扩充和/或对主题词计算权重的更新,得到新的主题词集;返回执行根据主题词集中各主题词的计算权重,计算各待识别评论与目标文章之间的相似度的操作,直至对全部待识别评论的成功识别。2.根据权利要求1所述的方法,其特征在于,获取与目标文章对应的多个待识别评论,包括:获取与目标文章对应的全部评论,并将各所述评论与网络常用语词库进行匹配;根据匹配结果得到备选垃圾评论,备选正常评论以及无法识别评论,并将所述备选正常评论和所述无法识别评论,确定为所述待识别评论。3.根据权利要求2所述的方法,其特征在于,在对全部待识别评论的成功识别之后,还包括:对各所述备选垃圾评论进行二次过滤处理,并根据过滤结果,将各所述备选垃圾评论识别为垃圾评论或者正常评论。4.根据权利要求1

3任一项所述的方法,其特征在于,根据相似度计算结果,在各待识别评论中识别出备选垃圾评论和正常评论,包括:获取与当前处理的目标待识别评论对应的相似度计算结果;如果确定所述相似度计算结果小于或者等于第一阈值,则确定所述目标待识别评论为备选垃圾评论;如果确定所述相似度计算结果大于或者等于第二阈值,则确定所述目标待识别评论为正常评论;如果确定所述相似度计算结果大于所述第一阈值且小于所述第二阈值,则确定未能对所述目标待识别评论进行成功识别。5.根据权利要求1

3任一项所述的方法,其特征在于,计算各待识别评论与目标文章P之间的相似度,包括:利用公式计算各待识别评论与目标文章之间的相似度;其中,C
k
表示第k条待识别评论的向量,P表示目标文章的向量,n为向量的维数,w
i
表示主题词i在目标文章中的权重,w
ik
表示主题词i在第k条评论中的权重,S
i
表示词语间的语义信息,在进行首轮待识别评论与目标文章之间的相似度计算时,S
i
为1,其余轮次中Sim(P
i
,C
i'k
)表示第k条评论中词语i与目标文
章中词语i的近义词i'之间的相似度分值,表示词形相似度,LenP是目标文章中主题词的个数,Same(P,C
k
)是第k条评论中出现的目标文章中...

【专利技术属性】
技术研发人员:邓冰娜谢永恒火一莽郭子剑
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1