垃圾评论的识别方法、装置、设备及介质制造方法及图纸

技术编号：30826428 阅读：17 留言：0更新日期：2021-11-18 12:25

本发明专利技术实施例公开了垃圾评论的识别方法、装置、设备及介质。该方法包括：获取与目标文章对应的多个待识别评论和主题词集，并根据主题词集中各主题词的计算权重，计算各待识别评论与目标文章之间的相似度；根据相似度计算结果，在各待识别评论中识别出备选垃圾评论和正常评论；如果确定存在未成功识别的待识别评论，则根据当前识别出的正常评论，对主题词集进行主题词扩充和/或对主题词计算权重的更新，得到新的主题词集；返回执行计算各待识别评论与目标文章之间的相似度的操作，直至对全部待识别评论的成功识别。本发明专利技术实施例的技术方案，能够实现对互联网评论信息中的垃圾评论进行自动识别，提高了垃圾评论的识别效果。提高了垃圾评论的识别效果。提高了垃圾评论的识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
垃圾评论的识别方法、装置、设备及介质

[0001]本专利技术实施例涉及大数据挖掘
，尤其涉及一种垃圾评论的识别方法、装置、设备及介质。

技术介绍

[0002]随着互联网技术的快速发展，互联网中的评论信息呈爆炸式趋势增长，如何对互联网中的评论信息进行过滤，识别出垃圾评论已成为亟待解决的问题。
[0003]现有技术中，对于网络垃圾评论，阻止和识别垃圾评论的方法主要分为人工识别的方法和自动识别的方法两大类。其中，自动识别的方法又可分为基于训练集的分类识别方法和基于相似度的识别方法。
[0004]然而，人工识别的方法只能对新发表的评论进行识别，过滤掉其中的垃圾评论，对已发表的垃圾评论却无能为力；同时，人工识别的方法需要不断地进行人工维护，不太方便；并且，垃圾制造者可以利用各种代理方法欺骗过滤机制。基于训练集的分类方法，由于网络的便利，评论更新的速度比较快，特征词的变化很大，所以为了使分类器能更准确的识别出垃圾评论，训练样本就要随着这种变化而改变，训练样本发生变化，特征项就要重新选择，就要重新对特征项进行权重的计算和抽取，这严重影响了系统运行的效率，同时带来了不便。

技术实现思路

[0005]本专利技术实施例提供一种垃圾评论的识别方法、装置、设备及介质，以实现对互联网评论信息中的垃圾评论进行自动识别。
[0006]第一方面，本专利技术实施例提供了一种垃圾评论的识别方法，包括：
[0007]获取与目标文章对应的多个待识别评论和主题词集，并根据主题词集中各主题词的计算权重，计算...

【技术保护点】

【技术特征摘要】
1.一种垃圾评论的识别方法，其特征在于，包括：获取与目标文章对应的多个待识别评论和主题词集，并根据主题词集中各主题词的计算权重，计算各待识别评论与目标文章之间的相似度；根据相似度计算结果，在各待识别评论中识别出备选垃圾评论和正常评论；如果确定存在未成功识别的待识别评论，则根据当前识别出的正常评论，对主题词集进行主题词扩充和/或对主题词计算权重的更新，得到新的主题词集；返回执行根据主题词集中各主题词的计算权重，计算各待识别评论与目标文章之间的相似度的操作，直至对全部待识别评论的成功识别。2.根据权利要求1所述的方法，其特征在于，获取与目标文章对应的多个待识别评论，包括：获取与目标文章对应的全部评论，并将各所述评论与网络常用语词库进行匹配；根据匹配结果得到备选垃圾评论，备选正常评论以及无法识别评论，并将所述备选正常评论和所述无法识别评论，确定为所述待识别评论。3.根据权利要求2所述的方法，其特征在于，在对全部待识别评论的成功识别之后，还包括：对各所述备选垃圾评论进行二次过滤处理，并根据过滤结果，将各所述备选垃圾评论识别为垃圾评论或者正常评论。4.根据权利要求1
‑
3任一项所述的方法，其特征在于，根据相似度计算结果，在各待识别评论中识别出备选垃圾评论和正常评论，包括：获取与当前处理的目标待识别评论对应的相似度计算结果；如果确定所述相似度计算结果小于或者等于第一阈值，则确定所述目标待识别评论为备选垃圾评论；如果确定所述相似度计算结果大于或者等于第二阈值，则确定所述目标待识别评论为正常评论；如果确定所述相似度计算结果大于所述第一阈值且小于所述第二阈值，则确定未能对所述目标待识别评论进行成功识别。5.根据权利要求1
‑
3任一项所述的方法，其特征在于，计算各待识别评论与目标文章P之间的相似度，包括：利用公式计算各待识别评论与目标文章之间的相似度；其中，C
k
表示第k条待识别评论的向量，P表示目标文章的向量，n为向量的维数，w
i
表示主题词i在目标文章中的权重，w
ik
表示主题词i在第k条评论中的权重，S
i
表示词语间的语义信息，在进行首轮待识别评论与目标文章之间的相似度计算时，S
i
为1，其余轮次中Sim(P
i
,C
i'k
)表示第k条评论中词语i与目标文
章中词语i的近义词i'之间的相似度分值，表示词形相似度，LenP是目标文章中主题词的个数，Same(P,C
k
)是第k条评论中出现的目标文章中...

【专利技术属性】
技术研发人员：邓冰娜，谢永恒，火一莽，郭子剑，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人