一种基于制造技术

技术编号:39651256 阅读:9 留言:0更新日期:2023-12-09 11:19
本发明专利技术提供了提供了一种基于

【技术实现步骤摘要】
一种基于RPA的网络评论违禁词检索处理方法


[0001]本专利技术涉及网络信息
,尤其涉及一种基于
RPA
的网络评论违禁词检索处理方法


技术介绍

[0002]在现在的网络时代,在网络上发言的门槛逐渐降低,网络发言良莠不齐,导致网络出现不良风气

虚假信息泛滥,谣言

假新闻在社交媒体和论坛上迅速传播,误导大众,影响舆论

网络暴力问题严重,人身攻击

辱骂等恶劣言行泛滥,严重损害了网络空间的和谐氛围

因此,各网络平台采用检索违禁词的方式抵制不良评论

[0003]然而,目前已有的网络评论检索和处理方式并不完善,人们可以通过符号分隔

同音字替代等方法躲避违禁词的检索,另外,现在除文字评论外,又新推出了图片

语音的评论方式,传统的违禁词检索方式更加难以生效

对于此类评论,若用人工的方法对评论进行逐条检查判断其是否含有违禁词将耗费大量的人力

[0004]目前网络各大社交平台的评论区虽然很少直接见到违禁词,但是我们依旧可以见到明确表达违禁意义的词,这些词通过分隔符分隔

同音字替换等方法躲避了传统的违禁词检索

如果这种传统的检索方式不做出改变,将会对网络环境造成恶劣影响


技术实现思路

[0005]为了解决现有技术的不足,本专利技术提供了一种基于
RPA
的网络评论违禁词检索处理方法,可以代替人工对难以检测的违禁词进行检测,并且自动对发表违禁词的用户进行相应的处罚

[0006]本专利技术为解决其技术问题所采用的技术方案是:提供了一种基于
RPA
的网络评论违禁词检索处理方法,包括以下步骤:
[0007]S1、
构建网络违禁词库,对于每一条违禁词赋予分类编号

分类名称和分类积分;
[0008]S2、
对网路评论区进行扫描,获取评论内容以及对应的用户
UID

[0009]S3、
对非文字类的评论内容转换为评论文本;
[0010]S4、
基于网络违禁词库对评论文本进行违禁词检索并计算违禁积分;
[0011]S5、
基于违禁积分进一步计算得到不文明评分,根据预设处理方式对用户进行处理

[0012]步骤
S2
针对展开评论和回复评论做出不同扫描处理

[0013]对于展开评论,利用
RPA
机器人模拟鼠标滚轮进行自动页面翻滚,对页面进行扫描,根据评论区的分区设计格式,若扫描到展开按钮,则
RPA
机器人模拟鼠标点击展开按钮,使展开评论展开,再次扫描页面,获取展开评论的评论内容

点赞数和评论数,
RPA
机器人模拟鼠标点击用户头像,进入该用户主页并获取该用户的
UID。
[0014]对于回复评论,利用
RPA
机器人模拟鼠标滚轮进行自动的页面翻滚,对页面进行扫描,根据评论区的分区设计格式,若扫描到展开评论按钮,则
RPA
机器人模拟鼠标点击展开
回复按钮,使回复评论显露,再次扫描页面,若扫描到展开按钮,说明有回复评论的内容被折叠,则
RPA
机器人模拟鼠标点击展开按钮,使回复评论展开,再次扫描界面,获取回复评论的评论内容

点赞数和评论数,
RPA
机器人模拟鼠标点击用户头像,进入该用户主页并获取该用户的
UID。
[0015]遍历某回复评论所在的展开评论下的所有回复评论,记录回复该回复评论的评论数,得到基于此回复评论的回复评论数

[0016]步骤
S3
中,非文字类的评论内容包括图片评论

视频评论和语音评论:对于图片评论,获取下载图片的尺寸的大小,若图片高度大于
2000dpi
,则横向切割图片将图片等比切割,生成图片列表,再依次通过
OCR
技术识别图片文本内容,否则直接通过
OCR
技术识别图片文本内容,得到评论文本;对于视频评论,
RPA
机器人模拟鼠标点击视频,播放视频,每隔时间
t
对视频进行截图,将视频转换成图片,再依照对图片的操作得到评论文本;对于语音评论,
RPA
机器人模拟鼠标点击语音,播放语音,调用智能语音交互平台
api
,使用语音转换文字功能,得到评论文本

[0017]步骤
S4
具体包括以下过程:
[0018]S4.1、
对评论文本进行扫描,与网络违禁词库中的词汇进行对比,检测是否有违禁词

对每一类违禁词
Wi
出现的次数进行计数,将违禁词出现的次数记为
N
i

N
i
初值为0,若检测到
Wi
类的违禁词,则将其对应的
N
i
值更改为
N
i
+1

[0019]S4.2、
使用
spaCy
库,对评论文本进行分词,在分词后的文本中,循环遍历每个分词,并检查每个分词是否与网络违禁词库中的词语相匹配,若找到相匹配的分词,将分词在原文本中的位置记录在一个列表中,列表的下标用于定位疑似违禁词在原文本中的位置,在此位置向前向后分别检索到第一个分隔符号,则两分隔符号之间的字符串则为疑似违禁词首字所在的分句;
[0020]S4.3、
调用大模型算力平台
api
,对该分句进行语意检测,若该分句语意通顺,则所检测到的违禁词位置之后的符号是正常的断句符号,并非用于分隔违禁词;若该分句语意不通顺,则所检测到的违禁词位置之后的符号不是正常的断句符号,是通过分隔违禁词的方法躲避违禁词的检索;若检测出确实存在违禁词,则继续对违禁词进行计数;
[0021]S4.4、
重复步骤
S4.1

S4.3
遍历评论文本,得到每一类违禁词
W
i
的违禁词出现次数
N
i
,再根据
W
i
对应的
M
i
来计算一条评论中因为触发违禁词而得到的违禁积分
W

W

N1*M1+N2*M2+N3*M3……
,其中
M
i
为第
i
类违禁词特定的积分,
N
i
为第
i
类违禁词出现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
RPA
的网络评论违禁词检索处理方法,其特征在于包括以下步骤:
S1、
构建网络违禁词库,对于每一条违禁词赋予分类编号

分类名称和分类积分;
S2、
对网路评论区进行扫描,获取评论内容以及对应的用户
UID

S3、
对非文字类的评论内容转换为评论文本;
S4、
基于网络违禁词库对评论文本进行违禁词检索并计算违禁积分;
S5、
基于违禁积分进一步计算得到不文明评分,根据预设处理方式对用户进行处理
。2.
根据权利要求1所述的基于
RPA
的网络评论违禁词检索处理方法,其特征在于:步骤
S2
针对展开评论和回复评论做出不同扫描处理
。3.
根据权利要求2所述的基于
RPA
的网络评论违禁词检索处理方法,其特征在于:对于展开评论,利用
RPA
机器人模拟鼠标滚轮进行自动页面翻滚,对页面进行扫描,根据评论区的分区设计格式,若扫描到展开按钮,则
RPA
机器人模拟鼠标点击展开按钮,使展开评论展开,再次扫描页面,获取展开评论的评论内容

点赞数和评论数,
RPA
机器人模拟鼠标点击用户头像,进入该用户主页并获取该用户的
UID。4.
根据权利要求2所述的基于
RPA
的网络评论违禁词检索处理方法,其特征在于:对于回复评论,利用
RPA
机器人模拟鼠标滚轮进行自动的页面翻滚,对页面进行扫描,根据评论区的分区设计格式,若扫描到展开评论按钮,则
RPA
机器人模拟鼠标点击展开回复按钮,使回复评论显露,再次扫描页面,若扫描到展开按钮,说明有回复评论的内容被折叠,则
RPA
机器人模拟鼠标点击展开按钮,使回复评论展开,再次扫描界面,获取回复评论的评论内容

点赞数和评论数,
RPA
机器人模拟鼠标点击用户头像,进入该用户主页并获取该用户的
UID。5.
根据权利要求4所述的基于
RPA
的网络评论违禁词检索处理方法,其特征在于:遍历某回复评论所在的展开评论下的所有回复评论,记录回复该回复评论的评论数,得到基于此回复评论的回复评论数
。6.
根据权利要求1所述的基于
RPA
的网络评论违禁词检索处理方法,其特征在于:步骤
S3
中,非文字类的评论内容包括图片评论

视频评论和语音评论:对于图片评论,获取下载图片的尺寸的大小,若图片高度大于
2000dpi
,则横向切割图片将图片等比切割,生成图片列表,再依次通过
OCR
技术识别图片文本内容,否则直接通过
OCR
技术识别图片文本内容,得到评论文本;对于视频评论,
RPA
机器人模拟鼠标点击视频,播放视频,每隔时间
t
对视频进行截图,将视频转换成图片,再依照对图片的操作得到评论文本;对于语音评论,
RPA
机器人模拟鼠标点击语音,播放语音,调用智能语音交互平台
api
,使用语音转换文字功能,得到评论文本
。7.
根据权利要求1所述的基于
RPA
的网络评论违禁词检索处理方法,其特征在于:步骤
S4
具体包括以下过程:
S4.1、
对评论文本进行扫描,与网络违禁词库中的词汇进行对比,检测是否有违禁词

对每一类违禁词
Wi
出现的次数进行计数,将违禁词出现的次数记为
N
i...

【专利技术属性】
技术研发人员:李纲毛进魏泉詹璐鸣
申请(专利权)人:武汉数据智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1