一种稿件内容安全审核方法技术

技术编号:39408218 阅读:6 留言:0更新日期:2023-11-19 16:00
本发明专利技术涉及一种稿件内容安全审核方法

【技术实现步骤摘要】
一种稿件内容安全审核方法、装置、电子设备及介质


[0001]本专利技术属于数据审核
,特别涉及一种稿件内容安全审核方法

装置

电子设备及介质


技术介绍

[0002]随着移动互联网行业发展,全网内容资源爆发式增长,包括信息流内容

短视频

图片等内容,同时,对各类平台的内容监管要求也越来越严,为此带来的是海量内容资源管控风险及审核难度的增加

因此,内容安全审核成为以短视频

新闻资讯媒资平台优先级最高的运营需求

[0003]现有技术中,通过人工审核或者以系统性的机器审核

[0004]然而现有技术中,没有对审核内容进行细致的分类,在内容审核过程中,存在识别误判情况


技术实现思路

[0005]本专利技术提供了一种稿件内容安全审核方法

装置

设备及介质,旨在解决上述现有技术中存在的没有对审核内容进行细致的分类,在内容审核过程中,存在识别误判情况的技术问题

[0006]本专利技术解决上述技术问题的技术方案如下:一种稿件内容安全审核方法,该方法包括:
[0007]S1
,基于不同部门的不同领域分类获取待检测数据并进行处理,生成文本检测数据;
[0008]S2
,调用安全审核接口,基于本地敏感词数据库对所述文本检测数据进行安全审核,得到敏感词数据结果,所述敏感词数据结果存储着安全审核得到的敏感词;
[0009]S3
,对所述敏感词数据结果匹配本地白名单表,得到第一敏感词数据和第二敏感词数据,所述第一敏感词数据是敏感词数据结果中与本地白名单表匹配成功的敏感词,所述第二敏感词数据是敏感词数据结果中与本地白名单表匹配不成功的敏感词;
[0010]S4
,将所述第一敏感词数据添加到本地白名单表中,将所述第二敏感词数据添加到本地黑名单表中

[0011]本专利技术的有益效果是:通过各个部门分类获取到符合自己部门领域的待检测数据,再进行内容审核,能够减少审核过程中出现误判的概率,且各个部门结合自己的本地敏感词数据库,使敏感词判断更加精准

[0012]在上述技术方案的基础上,本专利技术还可以做如下改进

[0013]进一步,上述待检测数据包括文本数据

图片数据和视频数据,生成文本检测数据的具体过程为:
[0014]将所述视频数据分解为图像数据和音频数据;
[0015]对图片数据和图像数据进行文本识别处理,得到图源文本;
[0016]对所述音频数据进行文本识别处理,得到音频文本;
[0017]通过自然语言处理方法对所述文本数据

图源文本和音频文本进行处理,得到文本检测数据

[0018]采用上述进一步方案的有益效果是:通过将文本数据

图片数据和视频数据生成文本检测数据,可以实现文章

短视频和图片的多种检测,使检索内容更加全面

[0019]进一步,上述对图片数据和图像数据进行文本识别处理之前,通过基于全卷积神经网络的图像处理方法对图像数据和图片数据进行预处理,然后基于光学字符识别方法对预处理后的图片数据和图像数据进行分析处理,得到图源文本

[0020]采用上述进一步方案的有益效果是:全卷积网络
(Fully Convolutional Networks

FCN)
用于图像语义分割的一种框架,
FCN
将传统
CNN
后面的全连接层换成了卷积层,这样网络的输出将是热力图而非类别;同时,为解决卷积和池化导致图像尺寸的变小,使用上采样方式对图像尺寸进行恢复,可适应任意尺寸输入,反卷积层增大图像尺寸,输出精细结果,结合不同深度层结果的跳级结构,确保鲁棒性和精确性

图像处理:图像质量的好坏直接影响识别算法的设计与效果的精度,因此在图像分析
(
特征提取

分割

匹配和识别等
)
前,需要进行预处理

图像预处理的主要目的是消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性

最大限度地简化数据,从而改进特征提取

图像分割

匹配和识别的可靠性

一般的预处理流程为:灰度化

几何变换

图像增强

光学字符识别方法可以使用
CTPN、SegLink、DMPNet
等算法模型实现

[0021]进一步,上述基于
Word2Vec
,对所述文本数据

图片文本和音频文本进行处理,得到文本检测数据

[0022]采用上述进一步方案的有益效果是:
Word2Vec
:是用来产生词向量的相关模型

这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本

网络以词表现,并且需猜测相邻位置的输入词,在
word2vec
中词袋模型假设下,词的顺序是不重要的

训练完成之后,
word2vec
模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层

[0023]进一步,上述基于不同部门的不同领域,通过本地黑名单表配置不同部门的本地敏感词数据库中的敏感词,实现不同部门的本地敏感词数据库的不同

[0024]采用上述进一步方案的有益效果是:通过不同部门配置个性化的审核策略,实现不同部门对应稿件的敏感词审核

[0025]进一步,上述得到第一敏感词数据和第二敏感词数据后还包括以下步骤,判断所述第一敏感词数据或
/
和第二敏感词数据是否为误纠,若第一敏感词数据中的敏感词存在误纠,则将第一敏感词数据中存在误纠的敏感词添加到第二敏感词数据中;或
/
和,若第二敏感词数据中的敏感词存在误纠,则将第二敏感词数据中存在误纠的敏感词添加到第一敏感词数据中

[0026]采用上述进一步方案的有益效果是:进行误纠处理,可以将匹配错误的敏感词进行纠正,避免了审核的误判

[0027]进一步,上述得到敏感词数据结果后,对所述文本检测数据进行漏纠判断,若存在漏纠敏感词,则将漏纠敏感词加入敏感词数据结果中

[0028]采用上述进一步方案的有益效果是:本专利技术的纠错处理包括误纠和漏纠,可以通
过机器和人工进行纠错,机器漏纠和误纠后保存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种稿件内容安全审核方法
,
其特征在于,包括:
S1
,基于不同部门的不同领域分类获取待检测数据并进行处理,生成文本检测数据;
S2
,调用安全审核接口,基于本地敏感词数据库对所述文本检测数据进行安全审核,得到敏感词数据结果,所述敏感词数据结果存储着安全审核得到的敏感词;
S3
,对所述敏感词数据结果匹配本地白名单表,得到第一敏感词数据和第二敏感词数据,所述第一敏感词数据是敏感词数据结果中与本地白名单表匹配成功的敏感词,所述第二敏感词数据是敏感词数据结果中与本地白名单表匹配不成功的敏感词;
S4
,将所述第一敏感词数据添加到本地白名单表中,将所述第二敏感词数据添加到本地黑名单表中
。2.
根据权利要求1所述的一种稿件内容安全审核方法,其特征在于,所述待检测数据包括文本数据

图片数据和视频数据,生成文本检测数据的具体过程为:将所述视频数据分解为图像数据和音频数据;对所述图片数据和所述图像数据进行文本识别处理,得到图源文本;对所述音频数据进行文本识别处理,得到音频文本;通过自然语言处理方法对所述文本数据

所述图源文本和所述音频文本进行处理,得到文本检测数据
。3.
根据权利要求2所述的一种稿件内容安全审核方法,其特征在于,对所述图片数据和所述图像数据进行文本识别处理具体为,通过基于全卷积神经网络的图像处理方法对所述图像数据和所述图片数据进行预处理,基于光学字符识别方法对预处理后的所述图片数据和所述图像数据进行分析处理,得到图源文本
。4.
根据权利要求2所述的一种稿件内容安全审核方法,其特征在于,基于
Word2Vec
,对所述文本数据

图片文本和音频文本进行处理,得到文本检测数据
。5.
根据权利要求1所述的一种稿件内容安全审核方法,其特征在于,基于不同部门的不同领域,通过本地黑...

【专利技术属性】
技术研发人员:赵永飞史峰霖郑妍
申请(专利权)人:中国经济信息社有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1