音频的异常监控方法、装置、设备和存储介质制造方法及图纸

技术编号：21774518 阅读：19 留言：0更新日期：2019-08-03 22:22

本发明专利技术实施例公开了一种音频的异常监控方法、装置、设备和存储介质。该方法包括：获取与实时播放的目标音频类节目对应的至少一段分段音频，并将所述分段音频识别为分段文本；对所述分段文本进行异常识别，并根据识别出的异常文本，与所述目标音频类节目的音频文件之间的关联关系，生成与所述目标音频类节目对应的待审核记录，以进行异常审核。本发明专利技术实施例的技术方案在实时识别出与实时播放的目标音频类节目对应的异常文本，满足了监控时效性的要求的同时，还可以在后续针对待审核记录的人工审核过程中，使得审核用户快速定位并听取与异常文本对应的音频内容，达到了快速排查出违规音频的目的，大大提高了审核效率，节省了人力成本。

Audio anomaly monitoring methods, devices, devices and storage media

全部详细技术资料下载

【技术实现步骤摘要】
音频的异常监控方法、装置、设备和存储介质
本专利技术实施例涉及音频信息处理技术，尤其涉及一种音频的异常监控方法、装置、设备和存储介质。
技术介绍
随着信息技术的不断发展，多媒体播放形式，例如，直播网站或者视频网站以其形式新颖、内容丰富受到人们广泛的关注。但是，多媒体播放形式可能会掺杂有许多违规内容，因此需要对多媒体播放形式中实时出现的视频以及音频内容进行有效的监管。以直播网站为例，现有技术中，对直播间中主播或粉丝的语音以及短视频中的语音的监管还不是很到位，一种方式是通过人工抽查的方式对选中的直播间进行监听；另一种方式是在直播结束后，将直播过程中生成的音频文件发送至对应的审核平台进行审核。专利技术人在实现本专利技术的过程中发现：第一种监管方式由于人工抽查的随机性，难免后漏掉重要的违规语音，不能及时处罚或者封禁违规直播；第二种方式由于需要人工听取大量的音频文件，人力成本高、效率低，即使准确定位出了违规的音频，因为这种审核方式的滞后性，违规的音频已经在网络上传播开来，同样不能及时处罚或者封禁违规直播，进而造成不良的社会影响。
技术实现思路
本专利技术实施例提供一种音频的异常监控方法、装置、设备和存储介质，以优化现有的音频的监控方式，提高对异常音频发现的时效性。第一方面，本专利技术实施例提供了一种音频的异常监控方法，包括：获取与实时播放的目标音频类节目对应的至少一段分段音频，并将所述分段音频识别为分段文本；对所述分段文本进行异常识别，并根据识别出的异常文本，与所述目标音频类节目的音频文件之间的关联关系，生成与所述目标音频类节目对应的待审核记录，以进行异常审核。第二方面...

【技术保护点】
1.一种音频的异常监控方法，其特征在于，包括：获取与实时播放的目标音频类节目对应的至少一段分段音频，并将所述分段音频识别为分段文本；对所述分段文本进行异常识别，并根据识别出的异常文本，与所述目标音频类节目的音频文件之间的关联关系，生成与所述目标音频类节目对应的待审核记录，以进行异常审核。

【技术特征摘要】
1.一种音频的异常监控方法，其特征在于，包括：获取与实时播放的目标音频类节目对应的至少一段分段音频，并将所述分段音频识别为分段文本；对所述分段文本进行异常识别，并根据识别出的异常文本，与所述目标音频类节目的音频文件之间的关联关系，生成与所述目标音频类节目对应的待审核记录，以进行异常审核。2.根据权利要求1所述的方法，其特征在于，所述目标音频类节目包括：直播间的直播内容，和/或视频网站中的新发布视频。3.根据权利要求2所述的方法，获取与目标音频类节目对应的至少一段分段音频，并将所述分段音频识别为分段文本，包括：根据直播间的直播方式，获取与所述直播间的直播内容对应的至少一个分段音频，并将所述分段音频识别为分段文本。4.根据权利要求3所述的方法，其特征在于，根据直播间的直播方式，获取与所述直播间的直播内容对应的至少一个分段音频，包括：根据检测到的所述直播间的开播事件通知，获取所述直播间的直播地址；根据所述直播地址，从所述直播间的实时音频流中实时截取设定时长的音频流作为所述分段音频。5.根据权利要求3所述的方法，其特征在于，根据直播间的直播方式，获取与所述直播间的直播内容对应的至少一个分段音频，包括：根据检测到的所述直播间的录制视频上传事件通知，获取所述直播间上传的录制视频文件；获取与所述录制视频文件匹配的音频抽取结果；对所述音频抽取结果进行分段处理，得到所述分段音频。6.根据权利要求1所述的方法，其特征在于，根据识别出的异常文本，与所述目标音频类节目的音频文件之间的关联关系，生成与所述目标音频类节目对应的待审核记录，包括：获取与所述异常文本对应的异常音频在所述音频文件中的起止时间；根据所述异常文本、所述起止时间以及所述目标音频类节目的属性描述信息，生成所述待审核记录。7.根据权利要求1-6任一项所述的方法，其特征在于，将所述分段音频识别为分段文本，包括：对所述分段音频进行预处理后，提取所述分段音频中的各音频帧的声学特征向量；将所述各音频帧的声学特征向量顺序输入至预先训练的声学模型中，得到所述分段音频对应的有序音素序列；将所述有序音素序列顺序输入至预先训练的文本语言模型中，得到与所述分段音频对应的分段文本。8.根据权利要求1-6任一项所述的方法，其特征在于，在生成与所述目标音频类节目对应的待审核记录之后，还包括：根据接收的审核请求，获取所述待审核记录中包括的异常文本、起止时间以及目标音频类节目的属性描述信息；根据所述目标音频类节目的属性描述信息，获取所述目标音频类节目的音频文件；根据所述起止时间，确定截取时间段，并根据所述截取时间段，在所述目标音...

【专利技术属性】
技术研发人员：蔡旭森，
申请(专利权)人：广州虎牙信息科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人