一种无人值守内容审计的方法技术

技术编号:36602945 阅读:18 留言:0更新日期:2023-02-04 18:20
本发明专利技术公开了一种无人值守内容审计的方法,包括以下步骤:S1前端通过人工智能模型鉴定媒体资源是否违规;S2将鉴定分数上传到后端;S4运营人员可以查看违规内容进行标注、对误判可以进行反馈;本发明专利技术主要基于人工智能鉴定媒体资源,采用深入学习推理算法识别黄色图片,敏感文字采用DFA算法,用户每次输入都是状态的切换,如果出现敏感词,既是终态,就可以结束判断,快速定位敏感词,采取全序列采样识别,支持轨迹流跟踪,有效提升视频抽帧的质量和检测效率,该技术能对涉及敏感话题的内容进行识别审核,大幅度降低内容风险,可减少90%以上人工审核成本,实现低成本、高效率、高精准度的内容合规性保障。内容合规性保障。内容合规性保障。

【技术实现步骤摘要】
一种无人值守内容审计的方法


[0001]本专利技术涉及电子信息
,具体为一种无人值守内容审计的方法。

技术介绍

[0002]随着互联网的迅速发展、5G商用、人工智能、大数据等的出现,网络内容和流量呈爆炸式增长,短视频、直播等新媒体技术也愈发成熟,大幅度突破传统媒介范围,使得常规内容审核和质检难度攀升。另一方面,内容的激增、延伸、交互伴随的内容安全问题日益凸显。海量的互联网数据产生了大量的音、视频信息,这些信息中可能包含了大量的不良信息。依靠传统人工审核方式来应对互联网海量内容的审核需求,会面临巨大的挑战,例如:审核成本高:需要多个审核岗位,每个岗位至少2班轮换,审核人力成本高;审核效率低:人工审核的效率不可能达到实时,而且从成本考虑也很难施行7*24小时值守审核及时响应;审核准确性不可控:审核人员知识水平参差不齐,对审核内容的理解也会不同,特别是一些敏感人物很难通过人眼能准确识别,因此对审核结果的准确率不能有效控制,漏检、错检的概率较大。当遇到一些不法分子采用多种狡猾的变异手段恶意隐藏违规内容来对抗审核时,更是为审核人员增添了很大的工作难度;为了解决海量互联网内容产生的审核困境,需要引入人工智能作为辅助提供智能审核能力,采用多模态(视频、音频、图片、文字)分析技术,对互联网用户产生内容进行全面风险检测,实现低成本、高效率、高精准度的内容合规性保障。

技术实现思路

[0003]为了解决上述问题,本专利技术的目的在于提供一种无人值守内容审计的方法。
[0004]为实现上述目的,本专利技术提供如下技术方案:一种无人值守内容审计的方法,包括以下步骤:
[0005](1)前端通过人工智能模型鉴定媒体资源是否违规(图片、视频、音频、文字)
[0006](2)将鉴定分数上传到后端;
[0007](3)后端通过上传的分数自动将违规的内容进行替换,防止违规内容的扩散、可以定位到发布人员账号对其进行处理;
[0008](4)运营人员可以查看违规内容进行标注、对误判可以进行反馈;
[0009]进一步地,所述步骤(1)中前端通过人工智能模型鉴定媒体资源是否违规的方法包括以下步骤;
[0010](1)将违规的资源进行分类,对数据和政策法规进行研究,根据实际情况积累了众多的分类定义和标准;
[0011](2)收集样本数据,将大量的图片数据作为训练的数据,把训练数据做进一步的筛选;
[0012](3)训练模型,定义数学模型y=f(x),训练模型的目的就是为了得到f,通过前面的两步得到了标注好的图片样本集,把标注的结果定义为y*,图片为x,对样本集中所有的
图片计算得到的y跟y*最接近,也就是得到使|y

y*|的值最小的f,把|y

y*|定义为损失函数,采用梯度下降法去寻找合适的f;
[0013](4)经过前面3步运算我们得到了f,其实是n层神经网络的参数;
[0014](5)经过不断调试和调整,得到精准的f(模型);
[0015](6)采用DFA算法过滤敏感词,用户每次输入都是状态的切换,如果出现敏感词,既是终态,就可以结束判断,快速定位敏感词;
[0016]进一步地,所述步骤(1)中步骤(3)获取f的方法可优化包括以下步骤:
[0017](1)选用CNN(卷积神经网络)、GoogLeNet、ResNet(残差网络)三种深度网络模型结构作为研究的基础,通过这些模型,我们就可以更加高效地把图片数据转变成了可以运算的数学模型,使我们可以更快更好地得到f;
[0018](2)实际情况下f是一个非常复杂的函数,为了简化运算,我们把f拆分成了 fn(fn

1(fn

2(f

(f2(f0))

)),每一个f可以理解为神经网络的一层,n个f就是n层,这种层层递进的关系就是算法名称中“深度”的由来,理论上可以搭建任意深度(层次) 的神经网络模型,把f拆分之后,我们用倒推的办法就能得到每一层的f;
[0019]进一步地,所述所述步骤(1)中步骤(4)神经网络参数包括以下重要参数:
[0020](1)图像大小

更高质量的图像为模型提供了更多信息;
[0021](2)图像数量

你向模型提供的数据越多,它将越精确;
[0022](3)通道数

灰度图像具有2个通道(黑白),彩色图像通常具有3个颜色通道(红色,绿色,蓝色/RGB),其颜色表示为[0,255];
[0023](4)高宽比

确保图像具有相同的高宽比和尺寸;
[0024](5)图像缩放

一旦所有图像都经过平方处理,就可以缩放每个图像;
[0025](6)输入数据的均值,标准差

在所有训练示例中,可以通过计算每个像素的平均值来查看“均值图像”,以获得有关图像中基础结构的信息;
[0026](7)标准化图像输入

确保所有输入参数(在这种情况下为像素)均具有均匀的数据分布,训练网络时,这将加快融合速度,可以通过从每个像素中减去平均值,然后将结果除以标准偏差来进行数据归一化;
[0027](8)降维

可以决定将RGB通道折叠为灰度通道;
[0028](9)数据扩充

涉及通过扰动当前图像的类型(包括缩放和旋转)来扩充现有数据集;
[0029]进一步地,所述步骤(3)违规内容进行替换的方法包括以下步骤:
[0030](1)对检测出的违规内容位置进行标注;
[0031](2)判断所述同一位置对应的数据中是否存在与当前待替换数据一致的待替换数据;
[0032](3)确定当前待替换数据为对应所述同一位置的目标待替换数据,根据终端地址,从配置数据中获取对应所述目标待替换数据的目标更新数据;
[0033](4)再次执行检测流程;
[0034]与现有技术相比,本专利技术的有益效果如下:
[0035]本专利技术主要基于人工智能鉴定媒体资源,采用深入学习推理算法识别黄色图片,敏感文字采用DFA算法,用户每次输入都是状态的切换,如果出现敏感词,既是终态,就可以
结束判断,快速定位敏感词,人工智能系统基于海量特征样本的多维度内容识别技术,采取全序列采样识别,支持轨迹流跟踪,有效提升视频抽帧的质量和检测效率,该技术能为视频、图片、文本等场景提供强大的深度学习算法和算力保证,对涉及敏感话题的内容进行识别审核,大幅度降低内容风险,可减少90%以上人工审核成本,实现低成本、高效率、高精准度的内容合规性保障。
[0036]参照后文的说明和附图,详细公开了本专利技术的特定实施方式,指明了本专利技术的原理可以被采用的方式。应该理解,本专利技术的实施方式在范围上并不因而受到限制。
[0037]针对一种实施方式描述和/或示出的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无人值守内容审计的方法,包括以下步骤:(1)前端通过人工智能模型鉴定媒体资源是否违规(图片、视频、音频、文字)(2)将鉴定分数上传到后端;(3)后端通过上传的分数自动将违规的内容进行替换,防止违规内容的扩散、可以定位到发布人员账号对其进行处理;(4)运营人员可以查看违规内容进行标注、对误判可以进行反馈。2.根据权利要求1所述的一种无人值守内容审计的方法,其特征在于:所述步骤(1)中前端通过人工智能模型鉴定媒体资源是否违规的方法包括以下步骤;(1)将违规的资源进行分类,对数据和政策法规进行研究,根据实际情况积累了众多的分类定义和标准;(2)收集样本数据,将大量的图片数据作为训练的数据,把训练数据做进一步的筛选;(3)训练模型,定义数学模型y=f(x),训练模型的目的就是为了得到f,通过前面的两步得到了标注好的图片样本集,把标注的结果定义为y*,图片为x,对样本集中所有的图片计算得到的y跟y*最接近,也就是得到使|y
‑ꢀ
y*|的值最小的f,把|y
‑ꢀ
y*|定义为损失函数,采用梯度下降法去寻找合适的f;(4)经过前面3步运算我们得到了f,其实是n层神经网络的参数;(5)经过不断调试和调整,得到精准的f(模型);(6)采用DFA算法过滤敏感词,用户每次输入都是状态的切换,如果出现敏感词,既是终态,就可以结束判断,快速定位敏感词。3.根据权利要求1所述的一种无人值守内容审计的方法,其特征在于,所述步骤(1)中步骤(3)获取f的方法可优化包括以下步骤:(1)选用CNN(卷积神经网络)、GoogLeNet、ResNet(残差网络)三种深度网络模型结构作为研究的基础,通过这些模型,我们就可以更加高效地把图片数据转变成了可以运算的数学模型,使我们可以更快更好地得到f;(2)实际情况下f是一个非常复杂的函数,为了简化运算,我们把f拆分成了fn(fn

1(fn

2(f

(f2(f0))

...

【专利技术属性】
技术研发人员:吴海霖
申请(专利权)人:泉州砾鹰石科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1