一种批量挖掘刷评用户的方法及系统技术方案

技术编号:26890903 阅读:55 留言:0更新日期:2020-12-29 16:07
本发明专利技术实施例提供一种批量挖掘刷评用户的方法及系统,包括:周期性获取前一周期内的各评论内容和相应的评论内容编号并形成第一弹性数据集;以第一弹性数据集内的评论内容编号作为排列基准形成第二弹性数据集;根据第二弹性数据集,计算每组排列数组中两评论内容之间的编辑距离,将各编辑距离形成第三弹性数据集;对第三弹性数据集内的各编辑距离进行聚类计算,根据各编辑距离得到以评论内容为统计标准的聚类结果;根据聚类结果判断前一周期内的各评论内容是否异常,根据前一周期内的各评论内容是否异常的判断结果挖掘刷评用户。通过聚类算法计算不同评论内容之间的编辑距离,容易的看出异常评论,使得对评论内容的鉴别的准确率更高。

【技术实现步骤摘要】
一种批量挖掘刷评用户的方法及系统
本专利技术涉及计算机领域,具体涉及一种批量挖掘刷评用户的方法及系统。
技术介绍
在现代的社交媒体的互联网社交平台中,用户账户是一种无形但是重要的资产。于是出现大量不法分子利用脚本批量的注册账户,或者批量的盗取正常用户的账户,这一批由不法分子控制的一部分异常账户会使用脚本来在一些内容下批量发表评论。这些评论几乎内容都一样,也对用户和平台都造成了较大的困扰。所以需要把这样一批在不同地点登录并评论相同或相近内容账号批量找出来。在实现本专利技术过程中,申请人发现现有技术中至少存在如下问题:在实际操作中,同一账号能通过略微修改评论内容来规避挖掘这批不良用户,但是容易漏挖或者将正常用户误认为不良用户,造成对正常用户的伤害。
技术实现思路
本专利技术实施例提供一种批量挖掘刷评用户的方法及系统,通过聚类算法计算不同评论内容之间的编辑距离,容易能够发现评论内容之间的相似和差异、容易的看出异常评论,使得对评论内容的鉴别的准确率更高,并且能找出更多的刷评论用户。为达上述目的,一方面,本专利技术实施本文档来自技高网...

【技术保护点】
1.一种批量挖掘刷评用户的方法,其特征在于,包括:/n周期性自数据库获取前一周期内的各评论内容和相应的评论内容编号,将各评论内容和相应的评论内容编号形成第一弹性数据集;以第一弹性数据集内的评论内容编号作为排列基准,将评论内容编号对应的评论内容进行两两排列,形成包含两个评论内容的排列数组,将排列得到的多组排列数组形成第二弹性数据集;/n根据第二弹性数据集,计算每组排列数组中两评论内容之间的编辑距离,将各编辑距离形成第三弹性数据集;/n对第三弹性数据集内的各编辑距离进行聚类计算,根据各编辑距离得到以评论内容为统计标准的聚类结果;/n根据聚类结果判断前一周期内的各评论内容是否异常,根据前一周期内的各...

【技术特征摘要】
1.一种批量挖掘刷评用户的方法,其特征在于,包括:
周期性自数据库获取前一周期内的各评论内容和相应的评论内容编号,将各评论内容和相应的评论内容编号形成第一弹性数据集;以第一弹性数据集内的评论内容编号作为排列基准,将评论内容编号对应的评论内容进行两两排列,形成包含两个评论内容的排列数组,将排列得到的多组排列数组形成第二弹性数据集;
根据第二弹性数据集,计算每组排列数组中两评论内容之间的编辑距离,将各编辑距离形成第三弹性数据集;
对第三弹性数据集内的各编辑距离进行聚类计算,根据各编辑距离得到以评论内容为统计标准的聚类结果;
根据聚类结果判断前一周期内的各评论内容是否异常,根据前一周期内的各评论内容是否异常的判断结果挖掘刷评用户。


2.根据权利要求1所述的批量挖掘刷评用户的方法,其特征在于,所述周期性自数据库获取前一周期内的评论内容和相应的评论内容编号,将评论内容和相应的评论内容编号形成第一弹性数据集,具体包括:
周期性自数据库获取前一周期内的评论内容和相应的评论内容编号,将获取的每一条评论内容和相应的评论内容编号形成二元组,所述二元组包括:评论内容编号mid、相应的评论内容;并将所有二元组以列表形式进行排列形成第一弹性数据集。


3.根据权利要求2所述的批量挖掘刷评用户的方法,其特征在于,所述以第一弹性数据集内的评论内容编号作为排列基准,将评论内容编号对应的评论内容进行两两排列,形成包含两个评论内容的排列数组,将排列得到的多组排列数组形成第二弹性数据集,具体包括:
对第一弹性数据集内的每两个二元组进行排列形成一组排列数组;其中,每组排列数组包括根据两个二元组得到的两个二元数组,前二元数组包括两个评论内容编号,后二元数组包括与前二元数组内的评论内容编号相对应、且顺序一致的评论内容;
将前二元数组中具有两个相同评论内容编号的排列数组过滤掉,将过滤之后剩余的排列数组进行排序形成第二弹性数据集。


4.根据权利要求3所述的批量挖掘刷评用户的方法,其特征在于,所述根据第二弹性数据集,计算每组排列数组中两评论内容之间的编辑距离,将各编辑距离形成第三弹性数据集,具体包括:
采用输入函数将第二弹性数据集内的每组排列数组输入到mapToPair函数内,根据输入的后二元数组,mapToPair函数对后二元数组内的评论内容进行计算,得到每组排列数组中的两评论内容之间的编辑距离,形成相应的编辑距离数组,将编辑距离数组依次排序形成第三弹性数据集;其中,所述编辑距离数组包括:两个评论内容编号、两评论内容之间的编辑距离。


5.根据权利要求4所述的批量挖掘刷评用户的方法,其特征在于,所述对第三弹性数据集内的各编辑距离进行聚类计算,根据各编辑距离得到以评论内容为统计标准的聚类结果,具体包括:
将第三弹性数据输入到预设的聚类算法内,通过聚类算法对第三弹性数据内的所有编辑距离进行计算形成多个聚簇,根据所形成的聚簇,转化为以每个评论内容为统计标准的形式,每个评论内容对应一个聚类结果,每个聚类结果包括:评论内容编号、该评论内容所属聚簇编号、所述聚簇内评论内容的平均编辑距离、所述聚簇内评论内容数量。


6.根据权利要求5所述的批量挖掘刷评用户的方法,其特征在于,根据聚类结果判断前一周期内的评论内容是否异常,根据前一周期内的各评论内容是否异常的判断结果挖掘刷评用户,具体包括:
针对任一聚类结果,当聚簇内评论内容数量大于预设第一数量阈值、且该聚簇内评论内容的平均编辑距离小于预设编辑距离阈值时,则判定该聚类结果中评论内容编号所对应的评论内容异常;否则,判定该聚类结果中评论内容编号所对应的评论内容正常;
当某用户所对应的异常评论内容数量大于预设第二数量阈值...

【专利技术属性】
技术研发人员:王嘉伟
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1