智能采编系统技术方案

技术编号:32209254 阅读:13 留言:0更新日期:2022-02-09 17:15
本发明专利技术提供了智能采编系统,包括:人脸检测与识别模块,用于检测图像中是否存在公众人物;图像鉴黄模块,用于检测令人反感的色情图像;OCR+敏感词识别模块,用于检测敏感内容;语音识别模块,用于识别音视频中的敏感内容;文本比对模块,用于发现文本中的敏感内容;图像比对模块,用于发现图像中的敏感内容。该种智能采编系统,可以起到提升审核效率,有效减少违规图像或视频大量污染互联网,从而达到一种“净网”的目的;减少人工审核图像、视频的工作量,减少审核人员因过多浏览不良图像、视频内容对自身造成的负面影响;有效减轻人工审核图像、视频的工作量,能使人们从枯燥乏味的审核工作解放出来的作用。工作解放出来的作用。工作解放出来的作用。

【技术实现步骤摘要】
智能采编系统


[0001]本专利技术涉及人工智能、图像
,更具体地说,涉及智能采编系统。

技术介绍

[0002]目前融媒体的发展仍然处于不断探索的起步阶段,也存在着种种问题,例如:1、机构间更多呈现协作关系,而非融合关系,人员老化、编制不足等;2、各类新媒体产品冗余,技术提供商缺乏标准,有待进一步融合;3、内容缺乏丰富性和吸引力,缺少新媒体的特征;4、没有建立真正的新媒体传播矩阵,缺乏有影响力的信息出口。
[0003]针对上述问题,关于现有融媒体在发展过程中存在的机构间协作多、融合少等的技术问题而言,经过大量的检索,查询到专利号为CN202110316806.1的一种融媒体智能控制系统,采用融媒体智库、媒体人才培养平台、融媒体指挥管理平台、融媒体数据监测平台、融媒体数据调度平台和传播推送平台,通过融媒体智库存储融媒体的相关资源信息;媒体人才培养平台培养相关融媒体人才;融媒体指挥管理平台发布和管理融媒体的相关资源信息;融媒体数据监测平台监测融媒体的相关资源信息;传播推送平台传播和推送融媒体的相关资源信息;该专利技术通过技术融合、数据融合、业务融合,实现区域媒体平台互融互通,统一办公,统一指挥调度,统一宣传发动,对党政资源与宣传内容进行高效管理,构建真正意义上的融媒体传播体系;构建融媒体中心新闻信息有效的传播矩阵;解决了融媒体中心内容生产的难题。
[0004]但是该专利所提供的技术方案对于融媒体智能控制系统存在以下问题:1、无法对文稿进行分类、纠错、敏感词预警和全网查重;2、无法对图像/视频/音频进行分类、全网查重,无法识别敏感人物、图像鉴黄、文字提取和敏感词检测等,降低了信息采编结构化的编、审、发的效率。

技术实现思路

[0005]本专利技术旨在于解决上述
技术介绍
提出的技术问题,提供智能采编系统。
[0006]为实现上述目的,本专利技术提供如下技术方案:智能采编系统,包括:人脸检测与识别模块,用于检测图像中是否存在公众人物;图像鉴黄模块,用于检测令人反感的色情图像;OCR+敏感词识别模块,用于检测敏感内容;语音识别模块,用于识别音视频中的敏感内容;文本比对模块,用于发现文本中的敏感内容;图像比对模块,用于发现图像中的敏感内容。
[0007]进一步的优选方案:所述人脸检测与识别模块包括如下步骤:S1:检测图像中的人脸,通过Dlib提取人脸特征,并使用GPU对其加速;S2:对比事先录入好的人脸特征库,计算当前人脸特征向量与人脸特征库中的人脸特征的距离;
S3:通过设置阈值的方式,判断该人脸是否属于已知人脸。
[0008]进一步的优选方案:所述图像鉴黄模块包括如下步骤:S1:使用ImageNet1000数据集,并通过数据增强的方式对ImageNet1000数据集进行增强;S2:使用增强后的数据对模型进行训练,得到预训练模型;S3:对预训练模型进行微调,并不断调整超参数和在特殊数据集上进行训练和测试;S4:得到可用的图像分类模型,预测出目标图像属于色情图像和常规图像的概率;S5:通过设置阈值的方式来判断目标图像是否为色情图像。
[0009]进一步的优选方案:所述ImageNet1000数据集包含生活中常见的1000种动物和物体的一百多万张图像,所述数据增强的方式是对原图进行随机旋转、平移、色彩变换、加入噪音等并结合GAN,所述特殊数据集用于训练图像鉴黄模型的数据集。
[0010]进一步的优选方案:所述OCR+敏感词识别模块包括如下步骤:S1:参考CNN+RNN的方案实现对图像中的文字进行定位和识别;S2:将识别到的文本通过Jieba工具进行分词;S3:对分词结果进行临近组合并判断文本中是否存在敏感词汇。
[0011]进一步的优选方案:所述语音识别模块包括如下步骤:S1:采用卷积神经网络(CNN)和连接性时序分类(CTC)方法;S2:使用大量中文语音数据集进行训练,将声音转录为中文拼音;S3:通过语言模型,将拼音序列转换为中文文本。
[0012]进一步的优选方案:所述文本比对模块包括如下步骤:S1:采用局部敏感哈希(Locality

Sensitive Hashing,LSH)算法;S2:把文档降维到hash数字,数字两两计算。
[0013]进一步的优选方案:所述图像比对模块包括如下步骤:S1:缩小图片,把缩放后的图片转化为256阶的灰度图;S2:计算DCT,缩小DCT,计算缩小DCT后的所有像素点的平均值;S3:进一步减小DCT,得到信息指纹;S4:比对两张图片的指纹,获得汉明距离。
[0014]进一步的优选方案:所述图像比对模块采用感知哈希算法(pHash)中的DCT(离散余弦变换)来降低频率的方法。
[0015]进一步的优选方案:所述图像比对模块还用于在检测到当前图像与数据库中的敏感图像样本相符时,启动屏蔽该图像操作。
[0016]有益效果:1、该智能采编系统,能提升审核效率,有效减少违规图像或视频大量污染互联网,从而达到一种“净网”的目的;该系统能够减少人工审核图像、视频的工作量,减少审核人员因过多浏览不良图像、视频内容对自身造成的负面影响;从个人角度讲,该系统能够有效减轻人工审核图像、视频的工作量,能使人们从枯燥乏味的审核工作解放出来;从企业角度讲,该系统能极大地提升工作效率,又能减少人工审核的成本,减少相关开销;2、该智能采编系统,结合领先的AI技术和云计算能力,助力新闻生产的策划、采
编、审校、发布等全流程;智能化、网络化的信息采编系统包含采、编、审、发全部应用,从信息的上报,信息的选用、信息的分类到信息的纳用、合文全功能;基于全网文本、视频、图片、语音等海量信息,使得AI关键技术中的自然语言、机器学习、计算机视觉领域等有效应用到融媒体行业。可分别对文稿进行分类、纠错、敏感词预警、全网查重;对图像/视频/音频进行分类、全网查重、敏感人物识别、图像鉴黄、文字提取和敏感词检测等,根本上提高信息采编结构化的编、审、发的效率,防止由于工作人员的疏漏,对个人或企业造成不良影响;在社交、论坛、互动等平台,该系统能自动过滤敏感、违规的图像,助力营造和谐、干净的互联网平台;该系统对资讯采集、加工工作提供了有力支持,大幅提高编辑的工作效率,有效降低新媒体运营成本,明显提高公司业绩。
附图说明
[0017]图1为本专利技术的系统功能模块示意图;图2为本专利技术的人脸检测与识别模块的流程示意图;图3为本专利技术的图像鉴黄模块的流程示意图;图4为本专利技术的OCR+敏感词识别模块的流程示意图;图5为本专利技术的语音识别模块的流程示意图;图6为本专利技术的文本比对模块的流程示意图;图7为本专利技术的图像比对模块的流程示意图;图8为本专利技术的文本监测的流程示意图;图9为本专利技术的图片监测的流程示意图;图10为本专利技术的音频监测的流程示意图;图11为本专利技术的视频监测的流程示意图;图12为本专利技术的直播监测的流程示意图;图13为本专利技术的文本、图片、音频监测示例图;图14为本专利技术的视频监测示例图;图15为本专利技术的数据应用与数据服务体系的系统架构图;图16为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.智能采编系统,其特征在于:包括:人脸检测与识别模块,用于检测图像中是否存在公众人物;图像鉴黄模块,用于检测令人反感的色情图像;OCR+敏感词识别模块,用于检测敏感内容;语音识别模块,用于识别音视频中的敏感内容;文本比对模块,用于发现文本中的敏感内容;图像比对模块,用于发现图像中的敏感内容。2.根据权利要求1所述的智能采编系统,其特征在于:所述人脸检测与识别模块包括如下步骤:S1:检测图像中的人脸,通过Dlib提取人脸特征,并使用GPU对其加速;S2:对比事先录入好的人脸特征库,计算当前人脸特征向量与人脸特征库中的人脸特征的距离;S3:通过设置阈值的方式,判断该人脸是否属于已知人脸。3.根据权利要求1所述的智能采编系统,其特征在于:所述图像鉴黄模块包括如下步骤:S1:使用ImageNet1000数据集,并通过数据增强的方式对ImageNet1000数据集进行增强;S2:使用增强后的数据对模型进行训练,得到预训练模型;S3:对预训练模型进行微调,并不断调整超参数和在特殊数据集上进行训练和测试;S4:得到可用的图像分类模型,预测出目标图像属于色情图像和常规图像的概率;S5:通过设置阈值的方式来判断目标图像是否为色情图像。4.根据权利要求2所述的智能采编系统,其特征在于:所述ImageNet1000数据集包含生活中常见的1000种动物和物体的一百多万张图像,所述数据增强的方式是对原图进行随机旋转、平移、色彩变换、加入噪音等并结合GAN,所述特殊数据集用于训练图像鉴黄模型的数据集。5.根据权利要求1所述的...

【专利技术属性】
技术研发人员:陆建德许文明王必江谢宗霖刘永鑫耿允殷福权陈儒智肖亮
申请(专利权)人:云南开屏信息技术有限责任公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1