恶意用户评论刷量行为识别方法及系统技术方案

技术编号：27745522 阅读：8 留言：0更新日期：2021-03-19 13:40

本发明专利技术涉及互联网的技术领域，特别是涉及恶意用户评论刷量行为识别方法及系统，用机器代替人工，可以全量覆盖所有评论，及时发现问题，不需要设置用户评论的上限，不影响正常用户的体验，对于多条评论只有部分内容重复的情况也可以精准的找出来；包括以下步骤：S1、获取数据：S2、判断每个句子对是否涉嫌重复：S3、通过重复评论次数阈值判定是否为恶意用户。

全部详细技术资料下载

【技术实现步骤摘要】
恶意用户评论刷量行为识别方法及系统
本专利技术涉及互联网的
，特别是涉及恶意用户评论刷量行为识别方法及系统。
技术介绍
对于互联网公司、客户可以在评论区发表评论，恶意用户会在评论区重复发表一些内容、形式相近评论，如重复发表恶意差评、虚假广告，诈骗信息等，造成网站用户体验下降、网站信誉受损等问题。现有技术中，大多采用运营人员人工监控以及直接限制用户一段时间内的评论条数的方式，由于时间和精力有限，运营人员无法全量来进行监控，直接限制用户一段时间内的评论条数也会影响正常用户的体验，并且如果多条评论间只有部分内容重复难以发现，因此提出一种恶意用户评论刷量行为识别方法及系统来解决上述问题。
技术实现思路
为解决上述技术问题，本专利技术的一个目的在于提供一种恶意用户评论刷量行为识别方法，用机器代替人工，可以全量覆盖所有评论，及时发现问题，不需要设置用户评论的上限，不影响正常用户的体验，对于多条评论只有部分内容重复的情况也可以精准的找出来。本专利技术的另一个目的在于提供一种恶意用户评论刷量行为识别系统。本专利技术的恶意用户评论刷量行为识别方法，包括以下步骤：S1、获取数据：S101：获取用户的待发表评论，并在数据库中获取同一用户，一时间段内的已发表评论，时间为多久，由经验而定；S102：获取的所有的句子，两两拼接成待比较的句子对；S2、判断每个句子对是否涉嫌重复：对于每个句子对进行以下操作：S201：比较两个文本的长短，如果两个文本一...

【技术保护点】
1.一种恶意用户评论刷量行为识别方法，其特征在于，包括以下步骤：/nS1、获取数据：/nS101：获取用户的待发表评论，并在数据库中获取同一用户，一时间段内的已发表评论，时间为多久，由经验而定；/nS102：获取的所有的句子，两两拼接成待比较的句子对；/nS2、判断每个句子对是否涉嫌重复：/n对于每个句子对进行以下操作：/nS201：比较两个文本的长短，如果两个文本一样长，认定第一句为短文本，第二句为长文本；/nS202：将其中较短的文本按照滑动窗口的形式切割成多个短句，步长为1，窗口大小由经验；/nS203：S202中的结果依次采用滑动窗口的方式和S201中较长的文本进行重复度比较；/nS204：返回最大的重复度评分；/nS3、通过重复评论次数阈值判定是否为恶意用户：/n如果同一用户一段时间内的重复句子对超过预先设定的阈值，判定用户为恶意刷量用户。/n

【技术特征摘要】
1.一种恶意用户评论刷量行为识别方法，其特征在于，包括以下步骤：
S1、获取数据：
S101：获取用户的待发表评论，并在数据库中获取同一用户，一时间段内的已发表评论，时间为多久，由经验而定；
S102：获取的所有的句子，两两拼接成待比较的句子对；
S2、判断每个句子对是否涉嫌重复：
对于每个句子对进行以下操作：
S201：比较两个文本的长短，如果两个文本一样长，认定第一句为短文本，第二句为长文本；
S202：将其中较短的文本按照滑动窗口的形式切割成多个短句，步长为1，窗口大小由经验；
S203：S202中的结果依次采用滑动窗口的方式和S201中较长的文本进行重复度比较；
S204：返回最大的重复度评分；
S3、通过重复评论次数阈值判定是否为恶意用户：
如果同一用户一段时间内的重复句子对超过预先设定的阈值，判定用户为恶意刷量用户。

2.如权利要求1所述的恶意用户评论刷量行为识别方法，其特征在于，所述重复度计算方法包括以下两种：
第一种：使用编辑距离的方式，计算两个文本的编辑距离，求得重复度为：<...

【专利技术属性】
技术研发人员：李国库，徐鹏，张惟师，罗海斌，王鹏，
申请(专利权)人：北京居理科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人