一种音视频多维度标注与模型优化方法技术

技术编号:19429787 阅读:34 留言:0更新日期:2018-11-14 11:29
本发明专利技术公开一种音视频多维度标注与模型优化方法,具体包括如下步骤:首先进行样本管理与分拣,针对输入系统的样本数据进行去重,编号,建立样本标注任务库;音频数据预处理阶段,将任务库的视频数据进行音频抽取,同时完成对音频数据的预处理操作;音频内容分析与特征提取阶段,在完成音频预处理后,并依据后台已配置的标注规范体系进行深度分析输出标签数据;步骤304:视频内容分析与特征提取阶段,通过对视频内容进行图像分析,并依据后台已配置的标注规范体系进行深度分析输出标签数据;步骤305:特征融合与标签生成,将识别特征与标签信息融合,输出该样本的标签结果;人工复核与模型优化,系统产生的标签结果数据会经由人工进行复核确认。

【技术实现步骤摘要】
一种音视频多维度标注与模型优化方法
本专利技术涉及一种音视频多维度标注与模型优化方法,属于信息标注

技术介绍
当前互联网音视频呈现井喷发展,如何实现对海量音视频数据的分类,将无序混乱的数据进行有效分离,实现科学管理是各类互联网厂商、政府部分亟需解决的现实问题。传统的音视频分类分析标注通常是基于单一分析引擎进行识别,再由人工进行复核。通常来讲这种分析标注方式具有较低的效率,同时给人员带来巨大的工作量。面对当下互联网音视频井喷式爆发,原有的标注方法已不能满足当前需求。同时各类分析引擎也在不断的升级优化中,标注系统如何快速集成并升级各类引擎也成为较大难题。
技术实现思路
本专利技术主要利用音视频中的语音数据以及视频内容等信息展开相关的分类分析研究。通过智能语音分析技术以及突破性的意图理解技术等,深度挖掘音频数据中蕴含的信息,通过事先标注、训练,能够支持定制个性化的特定信息分析模式,实现有目标主题的分拣与标注。同时系统利用图像分析技术,从视频特征的角度开展目标检测以及行为分析的相关研究,并结合文本语义理解技术完成对视频样本库进行视频特征标注。本专利技术的架构内部集成了针对音视频内容分析的各类引擎,海量的音视频数据首先经过系统自动化分析,依据后台标签体系规范输出初始标注结果。再经由人工在此系统内部直接完成分析结果审核与标注补充。系统将依据人工审核、修改记录完成对分析引擎的结果评测,进而针对性的完成具体分析引擎的优化。同时人工复核的数据将会作为引擎升级的训练数据集。最终系统实现了从音视频自动分类分析、标注数据审核、引擎优化的闭环体系。本专利技术提出的构建方法将具有更强的兼容性、自学习性能。实现了标注全业务的闭环操作,能够实现快速、低成本的细化标注、分析模型优化的用户需求。本专利技术采用如下技术方案:一种音视频多维度标注与模型优化方法,其特征在于,具体包括如下步骤:步骤301:首先进行样本管理与分拣,针对输入系统的样本数据进行去重,编号,建立样本标注任务库;步骤302:音频数据预处理阶段,将任务库的视频数据进行音频抽取,形成视频、音频两种格式数据,同时完成对音频数据的预处理操作;步骤303:音频内容分析与特征提取阶段,在完成音频预处理后,对音频内容进行深度分析,并依据后台已配置的标注规范体系进行深度分析输出标签数据;步骤304:视频内容分析与特征提取阶段,通过对视频内容进行图像分析,从画面特征的角度开展目标检测以及行为分析的研判,输出画面特征多维度信息,并依据后台已配置的标注规范体系进行深度分析输出标签数据;步骤305:特征融合与标签生成,样本数据经过音频、视频多维度的分析将会产生各类标签数据;依据已后台配置的标签系统,将识别特征与标签信息融合,输出该样本的标签结果;步骤306:人工复核与模型优化,系统产生的标签结果数据会经由人工进行复核确认;人工对标签数据的修改、保存等操作日志都将会成为对模型分析结果的研判数据,从而实现对模型识别准确率等各项指标的研判;通过对效果的审核,将待优化的分析模型识别出,利用已标注维护的样本数据对其进行优化升级。作为一种较佳的实施例,所述步骤302还包括:对音频数据进行VAD检测、特征提取、说话人分离、语种识别操作,形成基础的属性标签,同时完成对音频数据的标注化处理,为后续的音频内容分析与特征提取阶段提供标数据基础。作为一种较佳的实施例,所述步骤303还包括:对音频进行连续语音识别,实现非结构化的音频数据向半结构化的文本数据转换,再此基础上完成关键词检索、文本语义理解、主题识别等分类操作与特征提取;同时还将对音频数据进行特定人声纹识别,将目标人物的音频数据识别并标注;对音频进行语种识别,输出具体语种属性标签。作为一种较佳的实施例,所述步骤304还包括:在视频内容的台标识别过程中,采用多种特征提高台标识别的正确率,选择的特征有梯度特征、边缘特征、颜色特征和ORB特征。作为一种较佳的实施例,所述识别过程可划分为三个部分:第一,台标图像特征提取与特征入库的准备;第二,索引的建立、相似性检索和结果排序的索引检索;第三,识别结果展示和用户反馈确认的用户交互。作为一种较佳的实施例,所述步骤305还包括:后台实现可配置的标签体系管理模块,用户可自由设置标签体系模板,具体的标签值将会与模型识别出的标签属性值建立一一对应关系;在识别模型完成相应内容分析后,输出标签体系规范的标注结果;通过前端页面进行展示,并支持用户进行编辑与修改。作为一种较佳的实施例,所述步骤306还包括:人工复核阶段,将系统分析的结果以树状形式展示,用户可直接查看在整个标签规范体系下已标注的内容,同时可直接通过树状结构的分支内容操作,丰富细化标签结果。本专利技术所达到的有益效果:第一,本专利技术中的音频预处理阶段采用基于多特征和DNN相结合的语音端点检测算法,提高了语音端点检测正确率;首先分别提取语音信号的短时能量特征、时域方差特征和频域方差特征,然后将这些特征量作为DNN输入进行训练和建模,最后判断出该信号的类别,本专利技术相对于单一特征语音端点检测算法,本专利技术中提出的多特征融合和神经网络检测算法能更好的提高语音端点检测正确率,具有更好的适应性和鲁棒性,对不同信噪比的信号都有较好的检测能力;第二,本专利技术中的语音分离模块具体包括说话人变换点检测、说话人聚类、说话人模型训练及重新分割等处理过程,而说话人模型训练和重新分割一般需要重复多次,以保证最终语音分离的效果;第三,本专利技术中进行连续语音识别,对输入的语音进行FilterBank特征提取,声学模型使用基于人工神经网络(前馈型序列记忆网络FSMN)与隐马尔科夫过程相结合的框架进行建模,使用加权有限状态转换器(WFST)进行静态解码空间的构建,WFST的优势是其可以将声学模型与语言模型统一的嵌入到解码网络中,为搜索最优解码路径提供了极大便利性;第四,本专利技术进行声纹识别,采用多系统融合机制,声纹主要使用PLP特征、PNCC特征,两者使用不同的滤波器;其中,在带噪的语音中,PNCC特征得到的模型效果相对好一些。多系统融合策略为:对不同特征得到的模型进行融合,融合系数各取0.5。例如,PLP-TV系统模型和PNCC-TV系统模型进行融合,得到融合系统PLP-TV_PNCC-TV。一般而言,融合系统的效果比单个系统的效果要好。在SWK集合上,TV系统融合后要比单个TV系统效果提升12个百分点;dnn分类系统融合后要比单个dnn分类系统效果提升6个百分点;第五,本专利技术中进行文本语义理解,采用LSTM模型,是一种RNN特殊的类型,可以学习长期依赖信息;LSTM通过刻意的设计来避免长期依赖问题。附图说明图1是本专利技术的音视频多维度标注与模型优化方法的系统架构原理图。图2是本专利技术中的文本语义理解结构图。图3是本专利技术中的一种音视频多维度标注与模型优化方法的流程图。具体实施方式下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。如图1所示的是本专利技术的音视频多维度标注与模型优化方法的系统架构原理图,图3是本专利技术中的一种音视频多维度标注与模型优化方法的流程图。面对当前互联网音视频井喷发展,本专利技术针对如何实现对海量音视频数据的分类,将无序混乱的数据进行有效分离,实现科本文档来自技高网...

【技术保护点】
1.一种音视频多维度标注与模型优化方法,其特征在于,具体包括如下步骤:步骤301:首先进行样本管理与分拣,针对输入系统的样本数据进行去重,编号,建立样本标注任务库;步骤302:音频数据预处理阶段,将任务库的视频数据进行音频抽取,形成视频、音频两种格式数据,同时完成对音频数据的预处理操作;步骤303:音频内容分析与特征提取阶段,在完成音频预处理后,对音频内容进行深度分析,并依据后台已配置的标注规范体系进行深度分析输出标签数据;步骤304:视频内容分析与特征提取阶段,通过对视频内容进行图像分析,从画面特征的角度开展目标检测以及行为分析的研判,输出画面特征多维度信息,并依据后台已配置的标注规范体系进行深度分析输出标签数据;步骤305:特征融合与标签生成,样本数据经过音频、视频多维度的分析将会产生各类标签数据;依据已后台配置的标签系统,将识别特征与标签信息融合,输出该样本的标签结果;步骤306:人工复核与模型优化,产生的标签结果数据会经由人工进行复核确认;人工对标签数据的修改、保存操作日志都将会成为对模型分析结果的研判数据,从而实现对模型识别准确率等各项指标的研判;通过对效果的审核,将待优化的分析模型识别出,利用已标注维护的样本数据对其进行优化升级。...

【技术特征摘要】
1.一种音视频多维度标注与模型优化方法,其特征在于,具体包括如下步骤:步骤301:首先进行样本管理与分拣,针对输入系统的样本数据进行去重,编号,建立样本标注任务库;步骤302:音频数据预处理阶段,将任务库的视频数据进行音频抽取,形成视频、音频两种格式数据,同时完成对音频数据的预处理操作;步骤303:音频内容分析与特征提取阶段,在完成音频预处理后,对音频内容进行深度分析,并依据后台已配置的标注规范体系进行深度分析输出标签数据;步骤304:视频内容分析与特征提取阶段,通过对视频内容进行图像分析,从画面特征的角度开展目标检测以及行为分析的研判,输出画面特征多维度信息,并依据后台已配置的标注规范体系进行深度分析输出标签数据;步骤305:特征融合与标签生成,样本数据经过音频、视频多维度的分析将会产生各类标签数据;依据已后台配置的标签系统,将识别特征与标签信息融合,输出该样本的标签结果;步骤306:人工复核与模型优化,产生的标签结果数据会经由人工进行复核确认;人工对标签数据的修改、保存操作日志都将会成为对模型分析结果的研判数据,从而实现对模型识别准确率等各项指标的研判;通过对效果的审核,将待优化的分析模型识别出,利用已标注维护的样本数据对其进行优化升级。2.根据权利要求1所述的一种音视频多维度标注与模型优化方法,其特征在于,所述步骤302还包括:对音频数据进行VAD检测、特征提取、说话人分离、语种识别操作,形成基础的属性标签,同时完成对音频数据的标注化处理,为后续的音频内容分析与特征提取阶段提供标数据基础。3.根据权利要求1所...

【专利技术属性】
技术研发人员:杜翠兰王晶谢程利段运强吕萍柳林倪江帆廖子民
申请(专利权)人:国家计算机网络与信息安全管理中心讯飞智元信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1