一种社交信息违规检测方法、系统及存储介质技术方案

技术编号：39000346 阅读：9 留言：0更新日期：2023-10-07 10:32

一种社交信息违规检测方法、系统及存储介质，包括S1、获取待检测信息，并对其进行第一信息处理，分别得到待检测信息对应的上下文信息、拼音信息、标准形式信息；S2、将待检测信息以及S1得到的信息分别进行预设违规检测匹配，判断是否为可疑违规内容，若是，则执行S3；S3、对可疑违规内容进行第二信息处理，并判断可疑违规内容是否为违规内容，若是，则执行S4；S4、获取违规内容发布者的用户特征与预设违规用户特征，并将二者进行对比，判断用户特征是否符合预设违规用户特征，若是，则执行预设违规处理方式，若否，则生成并下发待复核通知。本发明专利技术摈弃了单一检测方式，并且能够提高检测效率与检测准确率。与检测准确率。与检测准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种社交信息违规检测方法、系统及存储介质

[0001]本专利技术涉及信息检测
，特别是一种社交信息违规检测方法、系统及存储介质。

技术介绍

[0002]随着现代社会的发展，网络在不断进步，并且公共社交平台也在不断地扩大和规范化。同时，由于智能手机的普遍应用，使得现在的大多数人都可以使用自己的手机或其他通讯工具在网络上浏览信息。当然，也有很多用户在网络上发布着属于自己的信息，分享着属于自己的点滴。
[0003]随着社交平台的发展，社交内容呈现数量大、种类多、形态丰富、内容多元等特点。但是，也有一些人会在网络上发布一些内容不当的信息，例如发布违法的信息、私自公布他人的隐私信息、发布危害社会的信息等等，这些都属于内容不当的违规内容。
[0004]网络与社交平台的不断发展，加大了对违规信息监测的人力监管成本，并且人力监管的时效性较低，无法有效保障平台的内容及生态的安全健康。传统的敏感词及规则匹配方式检测，刚开始的检测效果良好，但随着违规用户经验的积累，缺陷日渐显著。单一的敏感词及规则匹配方式，误召回率大，无法准确识别；而复杂的敏感词及规则容易漏召回，被违规用户绕过。
[0005]同时，违规内容话术变种多，例如同义词、中文和拼音英文组合、特殊字符、藏头诗、拆字、拆词等方式，导致单一检测方式难以全面覆盖和挖掘。若使用传统离线计算结合算法的方式，则检测时效性又较低，且无法应对灵活的话术变种。还有部分违规内容无法从单句话中发现违规特征，需要结合上下文内容综合研判。并且，内容形态的多元性，还会导致一些违规...

【技术保护点】

【技术特征摘要】
1.一种社交信息违规检测方法，其特征在于，包括以下步骤：S1、获取待检测信息，并对其进行第一信息处理，第一信息处理至少包括构建上下文、拼音转换与形式转换，分别得到待检测信息对应的上下文信息、拼音信息、标准形式信息；S2、将待检测信息以及其对应的上下文信息、拼音信息、标准形式信息分别进行预设违规检测匹配，判断是否为可疑违规内容，若是，则执行步骤S3；S3、对可疑违规内容进行第二信息处理，并判断可疑违规内容是否为违规内容，若是，则执行步骤S4；S4、获取违规内容发布者的用户特征与预设违规用户特征，并将二者进行对比，判断违规内容发布者的用户特征是否符合预设违规用户特征，若是，则执行预设违规处理方式，若否，则生成并下发待复核通知。2.根据权利要求1所述的社交信息违规检测方法，其特征在于：步骤S1至少包括：获取待检测信息，并判断待检测信息的类型；若待检测信息为文本信息，则直接进行第一信息处理；若待检测信息为图片信息，则对其进行OCR识别处理，将图片信息转换为文本信息后再进行第一信息处理；若待检测信息为音频信息，则对其进行ASR识别处理，将音频信息转换为文本信息后再进行第一信息处理。3.根据权利要求2所述的社交信息违规检测方法，其特征在于：上下文构建具体为：从待检测信息的会话上文的有序集合中计算得到预设时间段内的上文内容或预设数量的上文内容，再与待检测信息进行拼接，得到上下文信息；会话上文的有序集合是通过获取会话id、时间戳，以会话id为key,以时间戳为score,以会话内容为value,将会话内容记录在Redis缓存中间件，并为每个会话建立有一个会话上文的有序集合；拼音转换具体为：将文本信息转换为拼音，得到拼音信息；形式转换具体为：将文本信息的形式转换为标准形式，得到标准形式信息。4.根据权利要求1所述的社交信息违规检测方法，其特征在于：步骤S2中，预设违规检测匹配至少包括词组匹配、正则匹配与信息特征匹配其中之一；词组匹配具体为：通过字典树判断待检测信息中是否存在敏感词，若是，再将待检测信息与第一预设表达式进行匹配，判断待检测信息是否命中第一预设表达式，若是，则为可疑违规内容，若否，则并非可疑违规内容；正则匹配具体为：通过正则匹配判断待检测信息是否命中预设校验表达式，若是，则为可疑违规内容，若否，则并非可疑违规内容；信息特征匹配具体为：获取待检测信息的发布者在指定时间段内的信息特征，并判断其是否超过预设信息特征阈值；若是，则为可疑违规内容，若否，则并非可疑违规内容。5.根据权利要求4所述的社交信息违规检测方法，其特征在于：第一预设表达式是根据敏感词的组合方式形成的；信息特征至少包括信息发布频率、所发布信息之间的信息相似度其中之一，预设信息特征阈值至少包括信息发布频率阈值与信息相似度阈值其中之一。6.根据权利要求1所述的社交信息违规检测方法，其特征在于：步骤S...

【专利技术属性】
技术研发人员：黄天财，黄海波，黄俊杰，吕金松，杨艺聪，陈镇国，
申请(专利权)人：厦门她趣信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人