一种社交信息违规检测方法、系统及存储介质技术方案

技术编号:39000346 阅读:9 留言:0更新日期:2023-10-07 10:32
一种社交信息违规检测方法、系统及存储介质,包括S1、获取待检测信息,并对其进行第一信息处理,分别得到待检测信息对应的上下文信息、拼音信息、标准形式信息;S2、将待检测信息以及S1得到的信息分别进行预设违规检测匹配,判断是否为可疑违规内容,若是,则执行S3;S3、对可疑违规内容进行第二信息处理,并判断可疑违规内容是否为违规内容,若是,则执行S4;S4、获取违规内容发布者的用户特征与预设违规用户特征,并将二者进行对比,判断用户特征是否符合预设违规用户特征,若是,则执行预设违规处理方式,若否,则生成并下发待复核通知。本发明专利技术摈弃了单一检测方式,并且能够提高检测效率与检测准确率。与检测准确率。与检测准确率。

【技术实现步骤摘要】
一种社交信息违规检测方法、系统及存储介质


[0001]本专利技术涉及信息检测
,特别是一种社交信息违规检测方法、系统及存储介质。

技术介绍

[0002]随着现代社会的发展,网络在不断进步,并且公共社交平台也在不断地扩大和规范化。同时,由于智能手机的普遍应用,使得现在的大多数人都可以使用自己的手机或其他通讯工具在网络上浏览信息。当然,也有很多用户在网络上发布着属于自己的信息,分享着属于自己的点滴。
[0003]随着社交平台的发展,社交内容呈现数量大、种类多、形态丰富、内容多元等特点。但是,也有一些人会在网络上发布一些内容不当的信息,例如发布违法的信息、私自公布他人的隐私信息、发布危害社会的信息等等,这些都属于内容不当的违规内容。
[0004]网络与社交平台的不断发展,加大了对违规信息监测的人力监管成本,并且人力监管的时效性较低,无法有效保障平台的内容及生态的安全健康。传统的敏感词及规则匹配方式检测,刚开始的检测效果良好,但随着违规用户经验的积累,缺陷日渐显著。单一的敏感词及规则匹配方式,误召回率大,无法准确识别;而复杂的敏感词及规则容易漏召回,被违规用户绕过。
[0005]同时,违规内容话术变种多,例如同义词、中文和拼音英文组合、特殊字符、藏头诗、拆字、拆词等方式,导致单一检测方式难以全面覆盖和挖掘。若使用传统离线计算结合算法的方式,则检测时效性又较低,且无法应对灵活的话术变种。还有部分违规内容无法从单句话中发现违规特征,需要结合上下文内容综合研判。并且,内容形态的多元性,还会导致一些违规内容通过图片、音频传播,难以被直观发现,例如:在图片上编辑不起眼的违规信息,通过文字方式提示用户放大图片查看等。
[0006]综上,现有技术中存在检测方式较为单一,导致检测效率与准确率都较低的问题。

技术实现思路

[0007]本专利技术的主要目的在于提供了一种社交信息违规检测方法系统及存储介质,旨在解决现有的社交信息违规检测方法较为单一,导致检测效率与准确率都较低的技术问题。
[0008]为实现上述目的,本专利技术提供了一种社交信息违规检测方法,其包括以下步骤:S1、获取待检测信息,并对其进行第一信息处理,第一信息处理至少包括构建上下文、拼音转换与形式转换,分别得到待检测信息对应的上下文信息、拼音信息、标准形式信息;S2、将待检测信息以及其对应的上下文信息、拼音信息、标准形式信息分别进行预设违规检测匹配,判断是否为可疑违规内容,若是,则执行步骤S3;S3、对可疑违规内容进行第二信息处理,并判断可疑违规内容是否为违规内容,若是,则执行步骤S4;S4、获取违规内容发布者的用户特征与预设违规用户特征,并将二者进行对比,判断违规内容发布者的用户特征是否符合预设违规用户特征,若是,则执行预设违规处理方式,若否,则生成并下发待复核通知。
[0009]可选的,步骤S1至少包括:获取待检测信息,并判断待检测信息的类型;若待检测信息为文本信息,则直接进行第一信息处理;若待检测信息为图片信息,则对其进行OCR识别处理,将图片信息转换为文本信息后再进行第一信息处理;若待检测信息为音频信息,则对其进行ASR识别处理,将音频信息转换为文本信息后再进行第一信息处理。
[0010]可选的,上下文构建具体为:从待检测信息的会话上文的有序集合中计算得到预设时间段内的上文内容或预设数量的上文内容,再与待检测信息进行拼接,得到上下文信息;会话上文的有序集合是通过获取会话id、时间戳,以会话id为key,以时间戳为score,以会话内容为value,将会话内容记录在Redis缓存中间件,并为每个会话建立有一个会话上文的有序集合;拼音转换具体为:将文本信息转换为拼音,得到拼音信息;形式转换具体为:将文本信息的形式转换为标准形式,得到标准形式信息。
[0011]可选的,步骤S2中,预设违规检测匹配至少包括词组匹配、正则匹配与信息特征匹配其中之一;词组匹配具体为:通过字典树判断待检测信息中是否存在敏感词,若是,再将待检测信息与第一预设表达式进行匹配,判断待检测信息是否命中第一预设表达式,若是,则为可疑违规内容,若否,则并非可疑违规内容;正则匹配具体为:通过正则匹配判断待检测信息是否命中预设校验表达式,若是,则为可疑违规内容,若否,则并非可疑违规内容;信息特征匹配具体为:获取待检测信息的发布者在指定时间段内的信息特征,并判断其是否超过预设信息特征阈值;若是,则为可疑违规内容,若否,则并非可疑违规内容。
[0012]可选的,第一预设表达式是根据敏感词的组合方式形成的;信息特征至少包括信息发布频率、所发布信息之间的信息相似度其中之一,预设信息特征阈值至少包括信息发布频率阈值与信息相似度阈值其中之一。
[0013]可选的,步骤S3中,第二信息处理至少包括词组排除处理、词间距判断处理、拆分处理其中一种或两种以上;预设词组排除处理具体为:获取预设排除词组,判断可疑违规内容中是否存在预设排除词组,若是,则并非违规内容,若否,则为违规内容;词间距判断处理具体为:通过字典树判断可疑违规内容中是否存在敏感词,若是,则进一步计算敏感词的位置信息;进行后缀表达式匹配,判断是否命中第二预设表达式,以及位置信息是否满足预设词间距,若是,则为违规内容,若否,则并非违规内容;拆分处理具体为:对可疑违规内容进行拆分,得到拆分结果;将拆分结果进行重组,得到重组结果;判断重组结果中是否存在敏感词,若是,则为违规内容,若否,则并非违规内容。
[0014]可选的,步骤S3中判断可疑违规内容是否为违规内容,具体为根据第二信息处理直接判断是否为违规内容,或者通过第二信息处理与特殊判断相结合,判断是否为违规内容;特殊判断至少包括命中率判断、会话长度判断其中一种或两种;命中率判断具体为:获取待检测信息的发布者的违规记录,违规记录至少包括违规次数与违规频率;判断违规次数与违规频率是否大于预设违规次数阈值与预设违规频率阈值,若是,则为违规内容,若否,则并非违规内容;会话长度判断具体为:获取待检测信息对应的会话长度,判断会话长度是否小于预设会话长度阈值,若是,则为违规内容,若否,则并非违规内容。
[0015]可选的,步骤S4中的用户特征至少包括用户注册时间、历史处罚记录、性别、认证状态其中一种或两种以上;预设违规处理方式为自动处罚,生成并下发待复核通知后,进入人工复核;所述方法还包括步骤S5、记录违规检测结果与对应的处理结果,并进行归纳处理得到归纳信息,用于更新可疑违规内容与违规内容的判断方式。
[0016]与所述社交信息违规检测方法相对应的,本专利技术提供一种社交信息违规检测系统,其包括:第一信息处理模块,用于获取待检测信息,并对其进行第一信息处理,第一信息处理至少包括上下文构建、拼音转换与形式转换,分别得到待检测信息对应的上下文信息、拼音信息、标准形式信息;可疑违规内容检测模块,用于将待检测信息以及其对应的上下文信息、拼音信息、标准形式信息分别进行预设违规检测匹配,判断是否为可疑违规内容;违规内容检测模块,用于对可疑违规内容进行第二信息处理,并判断可疑违本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种社交信息违规检测方法,其特征在于,包括以下步骤:S1、获取待检测信息,并对其进行第一信息处理,第一信息处理至少包括构建上下文、拼音转换与形式转换,分别得到待检测信息对应的上下文信息、拼音信息、标准形式信息;S2、将待检测信息以及其对应的上下文信息、拼音信息、标准形式信息分别进行预设违规检测匹配,判断是否为可疑违规内容,若是,则执行步骤S3;S3、对可疑违规内容进行第二信息处理,并判断可疑违规内容是否为违规内容,若是,则执行步骤S4;S4、获取违规内容发布者的用户特征与预设违规用户特征,并将二者进行对比,判断违规内容发布者的用户特征是否符合预设违规用户特征,若是,则执行预设违规处理方式,若否,则生成并下发待复核通知。2.根据权利要求1所述的社交信息违规检测方法,其特征在于:步骤S1至少包括:获取待检测信息,并判断待检测信息的类型;若待检测信息为文本信息,则直接进行第一信息处理;若待检测信息为图片信息,则对其进行OCR识别处理,将图片信息转换为文本信息后再进行第一信息处理;若待检测信息为音频信息,则对其进行ASR识别处理,将音频信息转换为文本信息后再进行第一信息处理。3.根据权利要求2所述的社交信息违规检测方法,其特征在于:上下文构建具体为:从待检测信息的会话上文的有序集合中计算得到预设时间段内的上文内容或预设数量的上文内容,再与待检测信息进行拼接,得到上下文信息;会话上文的有序集合是通过获取会话id、时间戳,以会话id为key,以时间戳为score,以会话内容为value,将会话内容记录在Redis缓存中间件,并为每个会话建立有一个会话上文的有序集合;拼音转换具体为:将文本信息转换为拼音,得到拼音信息;形式转换具体为:将文本信息的形式转换为标准形式,得到标准形式信息。4.根据权利要求1所述的社交信息违规检测方法,其特征在于:步骤S2中,预设违规检测匹配至少包括词组匹配、正则匹配与信息特征匹配其中之一;词组匹配具体为:通过字典树判断待检测信息中是否存在敏感词,若是,再将待检测信息与第一预设表达式进行匹配,判断待检测信息是否命中第一预设表达式,若是,则为可疑违规内容,若否,则并非可疑违规内容;正则匹配具体为:通过正则匹配判断待检测信息是否命中预设校验表达式,若是,则为可疑违规内容,若否,则并非可疑违规内容;信息特征匹配具体为:获取待检测信息的发布者在指定时间段内的信息特征,并判断其是否超过预设信息特征阈值;若是,则为可疑违规内容,若否,则并非可疑违规内容。5.根据权利要求4所述的社交信息违规检测方法,其特征在于:第一预设表达式是根据敏感词的组合方式形成的;信息特征至少包括信息发布频率、所发布信息之间的信息相似度其中之一,预设信息特征阈值至少包括信息发布频率阈值与信息相似度阈值其中之一。6.根据权利要求1所述的社交信息违规检测方法,其特征在于:步骤S...

【专利技术属性】
技术研发人员:黄天财黄海波黄俊杰吕金松杨艺聪陈镇国
申请(专利权)人:厦门她趣信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1