【技术实现步骤摘要】
一种基于RPA的网络评论违禁词检索处理方法
[0001]本专利技术涉及网络信息
,尤其涉及一种基于
RPA
的网络评论违禁词检索处理方法
。
技术介绍
[0002]在现在的网络时代,在网络上发言的门槛逐渐降低,网络发言良莠不齐,导致网络出现不良风气
。
虚假信息泛滥,谣言
、
假新闻在社交媒体和论坛上迅速传播,误导大众,影响舆论
。
网络暴力问题严重,人身攻击
、
辱骂等恶劣言行泛滥,严重损害了网络空间的和谐氛围
。
因此,各网络平台采用检索违禁词的方式抵制不良评论
。
[0003]然而,目前已有的网络评论检索和处理方式并不完善,人们可以通过符号分隔
、
同音字替代等方法躲避违禁词的检索,另外,现在除文字评论外,又新推出了图片
、
语音的评论方式,传统的违禁词检索方式更加难以生效
。
对于此类评论,若用人工的方法对评论进行逐条检查判断其是否含有违禁词将耗费大量的人力
。
[0004]目前网络各大社交平台的评论区虽然很少直接见到违禁词,但是我们依旧可以见到明确表达违禁意义的词,这些词通过分隔符分隔
、
同音字替换等方法躲避了传统的违禁词检索
。
如果这种传统的检索方式不做出改变,将会对网络环境造成恶劣影响
。
技术实现思路
[0005]为了解决现有技术的不足,本专利技术提供了一 ...
【技术保护点】
【技术特征摘要】
1.
一种基于
RPA
的网络评论违禁词检索处理方法,其特征在于包括以下步骤:
S1、
构建网络违禁词库,对于每一条违禁词赋予分类编号
、
分类名称和分类积分;
S2、
对网路评论区进行扫描,获取评论内容以及对应的用户
UID
;
S3、
对非文字类的评论内容转换为评论文本;
S4、
基于网络违禁词库对评论文本进行违禁词检索并计算违禁积分;
S5、
基于违禁积分进一步计算得到不文明评分,根据预设处理方式对用户进行处理
。2.
根据权利要求1所述的基于
RPA
的网络评论违禁词检索处理方法,其特征在于:步骤
S2
针对展开评论和回复评论做出不同扫描处理
。3.
根据权利要求2所述的基于
RPA
的网络评论违禁词检索处理方法,其特征在于:对于展开评论,利用
RPA
机器人模拟鼠标滚轮进行自动页面翻滚,对页面进行扫描,根据评论区的分区设计格式,若扫描到展开按钮,则
RPA
机器人模拟鼠标点击展开按钮,使展开评论展开,再次扫描页面,获取展开评论的评论内容
、
点赞数和评论数,
RPA
机器人模拟鼠标点击用户头像,进入该用户主页并获取该用户的
UID。4.
根据权利要求2所述的基于
RPA
的网络评论违禁词检索处理方法,其特征在于:对于回复评论,利用
RPA
机器人模拟鼠标滚轮进行自动的页面翻滚,对页面进行扫描,根据评论区的分区设计格式,若扫描到展开评论按钮,则
RPA
机器人模拟鼠标点击展开回复按钮,使回复评论显露,再次扫描页面,若扫描到展开按钮,说明有回复评论的内容被折叠,则
RPA
机器人模拟鼠标点击展开按钮,使回复评论展开,再次扫描界面,获取回复评论的评论内容
、
点赞数和评论数,
RPA
机器人模拟鼠标点击用户头像,进入该用户主页并获取该用户的
UID。5.
根据权利要求4所述的基于
RPA
的网络评论违禁词检索处理方法,其特征在于:遍历某回复评论所在的展开评论下的所有回复评论,记录回复该回复评论的评论数,得到基于此回复评论的回复评论数
。6.
根据权利要求1所述的基于
RPA
的网络评论违禁词检索处理方法,其特征在于:步骤
S3
中,非文字类的评论内容包括图片评论
、
视频评论和语音评论:对于图片评论,获取下载图片的尺寸的大小,若图片高度大于
2000dpi
,则横向切割图片将图片等比切割,生成图片列表,再依次通过
OCR
技术识别图片文本内容,否则直接通过
OCR
技术识别图片文本内容,得到评论文本;对于视频评论,
RPA
机器人模拟鼠标点击视频,播放视频,每隔时间
t
对视频进行截图,将视频转换成图片,再依照对图片的操作得到评论文本;对于语音评论,
RPA
机器人模拟鼠标点击语音,播放语音,调用智能语音交互平台
api
,使用语音转换文字功能,得到评论文本
。7.
根据权利要求1所述的基于
RPA
的网络评论违禁词检索处理方法,其特征在于:步骤
S4
具体包括以下过程:
S4.1、
对评论文本进行扫描,与网络违禁词库中的词汇进行对比,检测是否有违禁词
。
对每一类违禁词
Wi
出现的次数进行计数,将违禁词出现的次数记为
N
i...
【专利技术属性】
技术研发人员:李纲,毛进,魏泉,詹璐鸣,
申请(专利权)人:武汉数据智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。