一种人像语音视频同步校准装置及系统制造方法及图纸

技术编号:21485247 阅读:24 留言:0更新日期:2019-06-29 06:39
本发明专利技术属于多媒体信息处理技术领域,具体的说是一种人像语音视频同步校准装置及系统,包括口型识别模块、纠错模块、情绪渲染模块、背景音效模块、统计评价模块和综合分析模块;其特征在于:所述口型识别模块包括视频采集单元、视频分析单元、语音采集单元、语音分析单元、口型对比单元和匹配录入单元;所述视频采集单元用于采集获取视频图像;所述视频分析单元用于对采集到的视频进行分析;所述语音采集单元用于采集获取配音数据;所述语音分析单元用于对采集到的配音信息进行分析;所述口型对比单元用于对比视频中的口型与语音是否一致;本发明专利技术主要用于解决现有语音视频同步校准系统无法实现系统自我调整,同时也无法对配音进行修改的问题。

【技术实现步骤摘要】
一种人像语音视频同步校准装置及系统
本专利技术属于多媒体信息处理
,具体的说是一种人像语音视频同步校准装置及系统。
技术介绍
随着多媒体和互联网的普及和发展,人像语音视频应用在各个领域中,如谈话类娱乐节目,网络主播节目,大规模开放的在线课程等。人像语音视频使用的语音信息和视频信息一般采用不同硬件分别录制,然后经过计算机进行综合处理合成一个可以直接播放的语音视频文件,必要时通常还会加入字幕。在录制过程中由于硬件或者网络出现问题,会导致语音信息和视频信息不同步。传统的语音视频同步校准一般采用人工逐帧播放语音视频文件,发现误差时,人为进行校准的方法,需要耗费很多工作量,且传统的语音视频同步校准难以实现对视频内的背景音进行处理,亦由人为把控或制造,同样也无法对配音文件进行修改,通常情况下修改配音文件即代表重新录制,极为浪费时间浪费人力物力。
技术实现思路
为了弥补现有技术的不足,本专利技术提出的一种人像语音视频同步校准装置及系统。本专利技术主要用于解决现有语音视频同步校准系统无法实现系统自我调整,同时也无法对配音进行修改的问题。本专利技术解决其技术问题所采用的技术方案是:本专利技术所述的一种人像语音视频同步校准装置及系统,其特征在于:包括口型识别模块、纠错模块、情绪渲染模块、背景音效模块、统计评价模块和综合分析模块;所述口型识别模块用于识别视频口型;所述纠错模块用于找出字幕文件中的错别字;所述情绪渲染模块用于对对口型识别模块中的视频文件和语音文件进行对比,将情绪表达不到位的地方进行情绪渲染;所述背景音效模块用于对口型识别模块中的视频文件进行分析后添加背景音效;所述统计评价模块用于对纠错模块和背景音效模块中产生的情绪渲染数量、质量和错别字数据进行记录并评价;所述综合分析模块用于将统计评价模块评价后的配音文件进行综合分析并进行排名;所述口型识别模块包括视频采集单元、视频分析单元、语音采集单元、语音分析单元、口型对比单元和匹配录入单元;所述视频采集单元用于采集获取视频图像,并将采集到的数据发送给视频分析单元;所述视频分析单元用于对采集到的视频进行分析,并将数据发送给口型对比单元;所述语音采集单元用于采集获取配音数据,并将数据发送给语音分析单元;所述语音分析单元用于对采集到的配音信息进行分析,且将分析后的数据发送到口型对比单元内;所述口型对比单元用于对比视频中的口型与语音是否一致,如果匹配准确,即将数据传输给匹配录入单元;所述匹配录入单元用于将配音与视频匹配后进行结合录入;当需要对视频文件和配音文件进行校准时,视频采集单元将视频文件进行采集,并将采集到的数据发送给视频分析单元,视频分析单元对数据进行分析,并将数据发送给口型对比单元,同时语音采集单元对配音数据进行采集,并将数据发送给语音分析单元,语音分析单元将分析后的数据发送到口型对比单元内,口型对比单元通过将视频文件进行口型匹配与语音文件进行对比,查看语音文件与视频文件是否准确匹配,如果匹配准确,即将数据传输给匹配录入单元,匹配录入单元将数据存储进数据库中,通过设置口型识别模块可以实现系统自身对视频与配音的匹配进行自动匹配,并就嵌合度进行检查,准确查看是否存在录入不合理的情况,对比现有的人工录入,无疑大大提高了录入的准确性。优选的,所述纠错模块包括字幕匹配单元、字幕分析单元、核对单元和标记单元;所述字幕分析单元用于对字幕信息进行分析,并将分析转码后的字幕文件数据发送给字幕匹配单元;所述字幕匹配单元用于将字幕信息匹配录入视频中,录入完毕后将完成信号发送给核对单元;所述核对单元用于对比字幕信息与视频中的口型是否一致,如果发现错别字,将信号发送给标记单元;所述标记单元用于标记字幕中出现错误的地方;当视频文件和配音文件结合完毕,通过字幕分析单元即可对字幕信息进行分析转码,并将分析转码后的字幕文件数据发送给字幕匹配单元,字幕匹配单元将接收到的数据与视频文件和语音文件进行匹配后录入其中,当字幕匹配单元匹配完毕,将完成信号发送给核对单元,核对单元立刻开始将语音文件和字幕文件进行分析,查看字幕中是否存在错别字,如果发现错别字,将信号发送给标记单元,标记单元即对错误处进行标记,通过设置核对单元和标记单元即可对字幕文件进行查看,查看其中是否存在错别字,还可以进行实时记录标记,使后续工作的人可以直观的查看到错误点,方便进行修改。优选的,所述情绪渲染模块包括面部分析单元、情绪匹配单元、语音拆解单元、对比单元和渲染单元;所述面部分析单元包括面部采集组件、肌肉捕捉组件和表情分析组件;所述面部采集组件用于对视频中的脸部进行识别采集,并将识别信号发送给肌肉捕捉组件;所述肌肉捕捉组件用于捕捉视频中脸部肌肉的动作,并将数据发送给表情分析单元;所述表情分析组件用于分析视频中脸部的表情情况,并将数据发送给情绪匹配单元;所述语音拆解单元用于对配音的数据进行拆解,并将拆解后的数据发送给情绪匹配单元;所述情绪匹配单元用于匹配视频中人脸所表现出的情绪,并将人脸情绪和语音情绪数据发送给对比单元;所述对比单元用于将视频中脸部表现出的情绪与语音情绪进行对比,如果发现存在差异或语音情绪表现不到位,则将需要优化情绪的信号发送给渲染单元;所述渲染单元包括音轨转化组件、音色调整组件和调试对比组件;所述音轨转化组件用于将配音数据转化成音轨数据,并通过调试对比组件反复调整其声道和音域,当调整完毕后,将数据发送给音色调整组件;所述音色调整组件用于将音轨数据进行调整从而改变音色;所述调试对比组件用于将调整后的音色数据与视频中脸部情绪进行对比;当视频文件、配音文件和字幕文件结合完毕,面部分析单元内的面部采集组件开始对视频文件内的人脸进行识别采集,并将识别信号发送给肌肉捕捉组件,肌肉捕捉组件通过对脸部肌肉的变动情况进行监控得出肌肉运动数据,并将数据发送给情绪匹配单元,情绪匹配单元通过对数据进行分析后匹配得出人脸反应的实时情绪,同时语音拆解单元开始对配音文件进行拆解,并将拆解后的数据发送给情绪分析单元,情绪匹配单元通过对音色进行分析后得出语音所反映的实时情绪,并将人脸情绪和语音情绪数据发送给对比单元,对比单元通过将人脸情绪和语音情绪进行对比,查看是否存在差异,如果发现存在差异或语音情绪表现不到位,则将需要优化情绪的信号发送给渲染单元,渲染单元内的音轨转化组件将接收到的语音文件转化为音轨文件,并通过调试对比组件反复调整其声道和音域,当调整完毕后,将数据发送给音色调整组件,音色调整组件对接收到的语音文件进行音色调整,直至满足视频文件的情绪要求,通过设置情绪渲染模块可以随时掌控视频文件与语音文件在情绪上是否吻合,如果发生不吻合的情况,可以自动对情绪进行匹配修改,大大节省了人力物力,避免了因情绪表达不到位造成配音人员需要重新录制,也大大的浪费了时间。优选的,所述背景音效模块包括背景捕捉单元、情景分析单元、数据匹配单元、音效添加单元和混音单元;所述背景捕捉单元用于捕捉视频中的背景部分数据,并将捕捉数据发送给情景分析单元;所述情景分析单元用于对背景捕捉单元捕捉到的数据进行分析得出该背景需要什么样的音效,并将数据发送给数据匹配单元;所述数据匹配单元用于将该背景匹配找到合适的背景音效,并将其发送给音效添加单元;所述音效添加单元用于将匹配到的音效数据添加进视频中本文档来自技高网...

【技术保护点】
1.一种人像语音视频同步校准装置及系统,其特征在于:包括口型识别模块、纠错模块、情绪渲染模块、背景音效模块、统计评价模块和综合分析模块;所述口型识别模块用于识别视频口型;所述纠错模块用于找出字幕文件中的错别字;所述情绪渲染模块用于对对口型识别模块中的视频文件和语音文件进行对比,将情绪表达不到位的地方进行情绪渲染;所述背景音效模块用于对口型识别模块中的视频文件进行分析后添加背景音效;所述统计评价模块用于对纠错模块和背景音效模块中产生的情绪渲染数量、质量和错别字数据进行记录并评价;所述综合分析模块用于将统计评价模块评价后的配音文件进行综合分析并进行排名;所述口型识别模块包括视频采集单元、视频分析单元、语音采集单元、语音分析单元、口型对比单元和匹配录入单元;所述视频采集单元用于采集获取视频图像,并将采集到的数据发送给视频分析单元;所述视频分析单元用于对采集到的视频进行分析,并将数据发送给口型对比单元;所述语音采集单元用于采集获取配音数据,并将数据发送给语音分析单元;所述语音分析单元用于对采集到的配音信息进行分析,且将分析后的数据发送到口型对比单元内;所述口型对比单元用于对比视频中的口型与语音是否一致,如果匹配准确,即将数据传输给匹配录入单元;所述匹配录入单元用于将配音与视频匹配后进行结合录入。...

【技术特征摘要】
1.一种人像语音视频同步校准装置及系统,其特征在于:包括口型识别模块、纠错模块、情绪渲染模块、背景音效模块、统计评价模块和综合分析模块;所述口型识别模块用于识别视频口型;所述纠错模块用于找出字幕文件中的错别字;所述情绪渲染模块用于对对口型识别模块中的视频文件和语音文件进行对比,将情绪表达不到位的地方进行情绪渲染;所述背景音效模块用于对口型识别模块中的视频文件进行分析后添加背景音效;所述统计评价模块用于对纠错模块和背景音效模块中产生的情绪渲染数量、质量和错别字数据进行记录并评价;所述综合分析模块用于将统计评价模块评价后的配音文件进行综合分析并进行排名;所述口型识别模块包括视频采集单元、视频分析单元、语音采集单元、语音分析单元、口型对比单元和匹配录入单元;所述视频采集单元用于采集获取视频图像,并将采集到的数据发送给视频分析单元;所述视频分析单元用于对采集到的视频进行分析,并将数据发送给口型对比单元;所述语音采集单元用于采集获取配音数据,并将数据发送给语音分析单元;所述语音分析单元用于对采集到的配音信息进行分析,且将分析后的数据发送到口型对比单元内;所述口型对比单元用于对比视频中的口型与语音是否一致,如果匹配准确,即将数据传输给匹配录入单元;所述匹配录入单元用于将配音与视频匹配后进行结合录入。2.根据权利要求1所述的一种人像语音视频同步校准装置及系统,其特征在于:所述纠错模块包括字幕匹配单元、字幕分析单元、核对单元和标记单元;所述字幕分析单元用于对字幕信息进行分析,并将分析转码后的字幕文件数据发送给字幕匹配单元;所述字幕匹配单元用于将字幕信息匹配录入视频中,录入完毕后将完成信号发送给核对单元;所述核对单元用于对比字幕信息与视频中的口型是否一致,如果发现错别字,将信号发送给标记单元;所述标记单元用于标记字幕中出现错误的地方。3.根据权利要求1所述的一种人像语音视频同步校准装置及系统,其特征在于:所述情绪渲染模块包括面部分析单元、情绪匹配单元、语音拆解单元、对比单元和渲染单元;所述面部分析单元包括面部采集组件、肌肉捕捉组件和表情分析组件;所述面部采集组件用于对视频中的脸部进行识别采集,并将识别信号发送给肌肉捕捉组件;所述肌肉捕捉组件用于捕捉视频中脸部肌肉的动作,并将数据发送给表情分析单元;所述表情分析组件用于分析视频中脸部的表情情况,并将数据发送给情绪匹配单元;所述语音拆解单元用于对配音的数据进行拆解,并将拆解后的数据发送给情绪匹配单元;所述情绪匹配单元用于匹配视频中人脸所表...

【专利技术属性】
技术研发人员:陈欣洁李训祺肖成美
申请(专利权)人:合肥科塑信息科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1