一种检测自媒体音视频内容中的违规信息的方法技术

技术编号:16458612 阅读:50 留言:0更新日期:2017-10-25 23:20
本发明专利技术公开了一种检测自媒体音视频内容中的违规信息的方法,包括:步骤一、检测用户上传的自媒体文件使用的格式和编码;步骤二、扫描字幕文件的内容,查看是否存在敏感词汇;步骤三、对自媒体进行解码,输出相应的数据流;步骤四、对数据流进行实时检测,检测是否存在异常声音的音频时间点;步骤五、从音频时间点开始截取一段时间的音频内容,并生成一个音频文件;步骤六、对音频文件进行语音识别,转为相应的文字信息;步骤七、对文字信息进行检查,看是否存在敏感词汇;步骤八、返回自媒体内容合法的结果;步骤九、返回检测结果。本发明专利技术可以智能地解决检测自媒体音视频内容中的违规信息的工作,节省了大量人力劳动,并有利于净化网络环境。

Method for detecting illegal information in self media audio and video content

Including the method, the invention discloses a detection of illegal information from the media audio and video content in the media: files using the format and encoding steps, detecting user upload; step two, scan subtitle file, check whether there is a sensitive vocabulary; step three, to decode the output from the media, the corresponding data stream; real-time detection of step four, the data stream and audio time points to detect the presence of abnormal sound; step five, from the time point to audio audio content interception for a period of time, and generates an audio file; step six, the audio file of voice recognition into the corresponding text information; step seven the text message and check to see if there is sensitive words; step eight, return to the media content from a legal result; step nine, return the test results. The invention can intelligently detect the illegal information in the audio and video content of the self media, save a large amount of human labor, and is beneficial to purify the network environment.

【技术实现步骤摘要】
一种检测自媒体音视频内容中的违规信息的方法
本专利技术涉及数字电视
,具体涉及一种检测自媒体音视频内容中的违规信息的方法。
技术介绍
自媒体是近几年产生的新生事物,自媒体又称“公民媒体”或“个人媒体”,是指私人化、平民化、普泛化、自主化的传播者,以现代化、电子化的手段,向不特定的大多数或者特定的单个人传递规范性及非规范性信息的新媒体的总称。目前的自媒体平台有很多,包括各种博客平台、微博、微信、贴吧、短视频平台、直播平台等网络社区。由于自媒体来自于广大人民群众自行制作的内容,一些人在制作自媒体的同时,出于某些别有用心的动机,往往会在自媒体内容中加入不符合广电总局要求的文字或音频内容信息。而对于各个自媒体平台而言,通过人工审核用户上传的自媒体信息,往往工作量较大,尤其是对于用户基数庞大的自媒体平台而言,人工审核的工作量非常大。有鉴于此,我们设计并实现了一种检测自媒体音视频内容中的违规信息的方法,可以利用计算机的计算能力,智能地解决检测自媒体音视频内容中的违规信息的工作,节省了大量人力劳动,并有利于净化网络环境。
技术实现思路
本专利技术克服了现有技术的不足,提供了一种检测自媒体音视频内容中的违规信息的方法。为解决上述的技术问题,本专利技术以下技术方案:一种检测自媒体音视频内容中的违规信息的方法,包括如下步骤:步骤一、检测用户上传的自媒体文件使用的格式和编码;步骤二、扫描字幕文件的内容,查看是否存在敏感词汇;对字幕文件的内容进行全文扫描,查看内容中是否存在敏感词汇;如果存在敏感词汇,检测结束,返回检测的结果,即步骤九;如果不存在敏感词汇,继续下一步骤;步骤三、调用音视频解码器对自媒体进行解码,输出相应的数据流;步骤四、对数据流进行实时检测,检测是否存在异常声音的音频时间点;步骤五、从步骤四的音频时间点开始截取一段时间的音频内容,并生成一个音频文件,并进行临时存储;步骤六、对音频文件进行语音识别,转为相应的文字信息;步骤七、对文字信息进行检查,看是否存在敏感词汇;如果存在敏感词汇,检测结束,返回检测的结果,即步骤九;如果不存在敏感词汇,继续步骤八;步骤八、返回自媒体内容合法的结果;表示自媒体内容已经通过平台机器人的智能审查,初审通过;步骤九、返回检测结果;此步骤为返回检测到违规内容的结果。更进一步的方案是:步骤一中,检测是指以数据流的方式,读取用户上传的自媒体文件的内容,并根据各种视频、音频、字幕的格式标准定义进行比对,获得用户上传的自媒体文件使用的格式和编码。更进一步的方案是:步骤二所述敏感词汇的判定来源于预先构建的敏感词库,且这个敏感词库能够根据国家和广电总局的要求实时更新和扩展。更进一步的方案是:步骤三中,解码,是根据检测获得的自媒体格式和编码,调用相应的音视频解码器,对自媒体的内容进行解码,输出相应的数据流。更进一步的方案是:步骤四中,检测是否存在异常声音,是实时检测音频的采样频率,找出变化的音频的时间点;或者实时检测声音的频谱,找出频谱突发性显著变化的音频的时间点。更进一步的方案是:步骤五中,音频文件的编码格式为MP3、WAV、OGG、PCM编码格式,音频采样率不低于44.1KHz。更进一步的方案是:步骤五中,临时存储的音频临时文件的文件名的编码规则,是以下字段的组合,包括:节目内容名、编码顺序号、时间长度、随机数的字段信息。更进一步的方案是:步骤六中,是通过语音识别引擎对音频文件的语音内容进行识别,以此获得语音内容的文字信息。更进一步的方案是:语音识别引擎可以是厂家自建的语音识别服务,也可以调用开放的第三方的语音识别引擎API来实现,比如科大讯飞的语音识别开放平台、微软的语音识别引擎服务等等。本专利技术可以利用计算机的计算能力,智能地解决检测自媒体音视频内容中的违规信息的工作,节省了大量人力劳动,并有利于净化网络环境。附图说明图1是一种检测自媒体音视频内容中的违规信息方法的流程示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术做进一步地详细描述。如图1所示,为本专利技术实施例提供的一种检测自媒体音视频内容中的违规信息方法的流程示意图,该方法主要包括以下步骤:一种检测自媒体音视频内容中的违规信息的方法,其步骤依次为:步骤101,检测用户上传的自媒体文件使用的格式和编码。所述的检测是指以数据流的方式,读取用户上传的自媒体文件的内容,并根据各种视频、音频、字幕的格式标准定义进行比对,获得用户上传的自媒体文件使用的格式和编码。常见的视频格式包括:MKV、OGM、AVI、DivX、WMV、QuickTime、Real、MPEG-1、MPEG-2、MPEG-4、DVD(VOB)等格式。常见的编码器包括:DivX、XviD、MSMPEG4、ASP、H.264、AVC等。常见的音频格式包括:OGG、MP3、WAV、RA、AC3、DTS、AAC、M4A、AU、AIFF等格式。常见的字幕格式包括:SRT、SSA、ASS、SAMI等。步骤102,扫描字幕文件的内容,查看是否存在敏感词汇。对字幕文件的内容进行全文扫描,查看内容中是否存在敏感词汇。如果存在敏感词汇,检测结束,返回检测的结果,即步骤109。如果不存在敏感词汇,继续步骤103。其实施例需要预先构建一个敏感词库,且这个敏感词库应该能够根据国家和广电总局的要求实时更新和扩展。步骤103,调用音视频解码器对自媒体进行解码,输出相应的数据流。根据步骤101的结果,调用相应的音视频解码器,对自媒体的内容进行解码,输出相应的数据流。步骤104,对数据流进行实时检测,检测是否存在异常声音的音频时间点。异常声音通常是自媒体作者另行插入的语音信息,它与自媒体本身的内容在声音的采样频率、声音大小等方面存在显著不同。故检测是否存在异常声音的实施例可以是实时检测音频的采样频率,找出变化的音频的时间点;其实施例还可以是实时检测声音的频谱,找出频谱突发性显著变化的音频的时间点。步骤105,从步骤104的音频时间点开始截取一段时间的音频内容,并生成一个音频文件,并进行临时存储。所述的音频文件的实施例可以采用业界常规的编码格式,比如MP3、WAV、OGG、PCM等编码,音频采样率通常不低于44.1KHz。所述的音频临时文件的文件名有一定的编码规则,通常是以下字段的组合,包括:节目内容名、编码顺序号、时间长度、随机数等字段信息。步骤106,对音频文件进行语音识别,转为相应的文字信息。自媒体平台通过语音识别引擎对音频文件的语音内容进行识别,以此获得语音内容的文字信息。其语音识别引擎的实施例可以是厂家自建的语音识别服务,也可以调用开放的第三方的语音识别引擎API来实现,比如科大讯飞的语音识别开放平台、微软的语音识别引擎服务等等。步骤107,对文字信息进行检查,看是否存在敏感词汇。利用前面步骤所述的敏感词库,比对文字信息,检查是否存在敏感词汇。如果存在敏感词汇,检测结束,返回检测的结果,即步骤109。如果不存在敏感词汇,继续步骤108。步骤108,返回自媒体内容合法的结果。表示自媒体内容已经通过平台机器人的智能审查,初审通过。步骤109,返回检测结果。此步骤为返回检测到违规内容的结果。综上所述,为本专利技术提供的一种音视频资源自动配置字幕方法的实施例,与现有技术相比,本专利技术的本文档来自技高网...
一种检测自媒体音视频内容中的违规信息的方法

【技术保护点】
一种检测自媒体音视频内容中的违规信息的方法,其特征在于包括如下步骤:步骤一、检测用户上传的自媒体文件使用的格式和编码;步骤二、扫描字幕文件的内容,查看是否存在敏感词汇;对字幕文件的内容进行全文扫描,查看内容中是否存在敏感词汇;如果存在敏感词汇,检测结束,返回检测的结果,即步骤九;如果不存在敏感词汇,继续下一步骤;步骤三、调用音视频解码器对自媒体进行解码,输出相应的数据流;步骤四、对数据流进行实时检测,检测是否存在异常声音的音频时间点;步骤五、从步骤四的音频时间点开始截取一段时间的音频内容,并生成一个音频文件,并进行临时存储;步骤六、对音频文件进行语音识别,转为相应的文字信息;步骤七、对文字信息进行检查,看是否存在敏感词汇;如果存在敏感词汇,检测结束,返回检测的结果,即步骤九;如果不存在敏感词汇,继续步骤八;步骤八、返回自媒体内容合法的结果;表示自媒体内容已经通过平台机器人的智能审查,初审通过;步骤九、返回检测结果;此步骤为返回检测到违规内容的结果。

【技术特征摘要】
1.一种检测自媒体音视频内容中的违规信息的方法,其特征在于包括如下步骤:步骤一、检测用户上传的自媒体文件使用的格式和编码;步骤二、扫描字幕文件的内容,查看是否存在敏感词汇;对字幕文件的内容进行全文扫描,查看内容中是否存在敏感词汇;如果存在敏感词汇,检测结束,返回检测的结果,即步骤九;如果不存在敏感词汇,继续下一步骤;步骤三、调用音视频解码器对自媒体进行解码,输出相应的数据流;步骤四、对数据流进行实时检测,检测是否存在异常声音的音频时间点;步骤五、从步骤四的音频时间点开始截取一段时间的音频内容,并生成一个音频文件,并进行临时存储;步骤六、对音频文件进行语音识别,转为相应的文字信息;步骤七、对文字信息进行检查,看是否存在敏感词汇;如果存在敏感词汇,检测结束,返回检测的结果,即步骤九;如果不存在敏感词汇,继续步骤八;步骤八、返回自媒体内容合法的结果;表示自媒体内容已经通过平台机器人的智能审查,初审通过;步骤九、返回检测结果;此步骤为返回检测到违规内容的结果。2.根据权利要求1所述检测自媒体音视频内容中的违规信息的方法,其特征在于:步骤一中,检测是指以数据流的方式,读取用户上传的自媒体文件的内容,并根据各种视频、音频、字幕的格式标准定义进行比对,获得用户上传的自媒体文件使用的格式和编码。3.根据权利要求1所述检测自媒体音视频内容中的违规信息的方法,其特征在于:步骤二所述敏感词汇的判定...

【专利技术属性】
技术研发人员:李强王凤琴
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1