混合音频标记方法和装置制造方法及图纸

技术编号：24353652 阅读：49 留言：0更新日期：2020-06-03 02:06

本发明专利技术公开了一种混合音频标记方法和装置。其中，该方法包括：获取待标记的第一音频，和与第一音频同步的第一视频，其中，第一音频中包括多个对象的音频，第一视频中包括多个对象的面部信息；识别第一视频中当前对象的口型，得到当前对象产生音频的第一时间段，其中，多个对象中包括当前对象；为第一音频中处于第一时间段的目标音频添加当前对象的身份标识。本发明专利技术解决了对混合音频进行标记效率低的技术问题。

Method and device of mixed audio mark

全部详细技术资料下载

【技术实现步骤摘要】
混合音频标记方法和装置
本专利技术涉及计算机领域，具体而言，涉及一种混合音频标记方法和装置。
技术介绍
现有技术中，在对预定场景进行录音之后，录音中通常包含了多个人的音频信息，录音内容为混合音频。而在对混合音频中的音频信息进行分割前，通常需要对混合音频中的音频进行身份的标记，以区分每一句是由谁说的。而标记方法，一般为人为的播放混合音频，并将混合音频中的每一段是谁的音频进行标记。而若是采用上述方法，则对混合音频进行标记的效率低，进一步造成对混合音频进行分离的效率低。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种混合音频标记方法和装置，以至少解决对混合音频进行标记效率低的技术问题。根据本专利技术实施例的一个方面，提供了一种混合音频标记方法，包括：获取待标记的第一音频，和与上述第一音频同步的第一视频，其中，上述第一音频中包括多个对象的音频，上述第一视频中包括上述多个对象的面部信息；识别上述第一视频中当前对象的口型，得到上述当前对象产生音频的...

【技术保护点】
1.一种混合音频标记方法，其特征在于，包括：/n获取待标记的第一音频，和与所述第一音频同步的第一视频，其中，所述第一音频中包括多个对象的音频，所述第一视频中包括所述多个对象的面部信息；/n识别所述第一视频中当前对象的口型，得到所述当前对象产生音频的第一时间段，其中，所述多个对象中包括所述当前对象；/n为所述第一音频中处于所述第一时间段的目标音频添加所述当前对象的身份标识。/n

【技术特征摘要】
1.一种混合音频标记方法，其特征在于，包括：
获取待标记的第一音频，和与所述第一音频同步的第一视频，其中，所述第一音频中包括多个对象的音频，所述第一视频中包括所述多个对象的面部信息；
识别所述第一视频中当前对象的口型，得到所述当前对象产生音频的第一时间段，其中，所述多个对象中包括所述当前对象；
为所述第一音频中处于所述第一时间段的目标音频添加所述当前对象的身份标识。

2.根据权利要求1所述的方法，其特征在于，所述识别所述第一视频中所述当前对象的口型，得到所述当前对象产生音频的第一时间段包括：
识别所述第一视频的每一帧中，所述当前对象的第一面部信息；
将所述第一面部信息中，口型处于打开状态的第一帧图像所在的时间点作为所述第一时间段的开始时间点；
将所述第一面部信息中，口型处于打开状态的最后一针图像所在的时间点作为所述第一时间段的结束时间点。

3.根据权利要求1所述的方法，其特征在于，在为所述第一音频中处于所述第一时间段的所述目标音频添加所述当前对象的所述身份标识之前，所述方法还包括：
将所述当前对象的第一面部信息与数据库中预存的多个面部信息进行比对，其中，所述数据库中预存的每一个所述面部信息对应一个身份标识；
在所述第一面部信息与所述数据库中的当前面部信息的相似度大于或等于第二阈值的情况下，将所述当前面部信息对应的身份标识确定为所述当前对象的身份标识；
在所述第一面部信息与所述数据库中的每个所述面部信息的相似度均小于所述第二阈值的情况下，为所述当前对象创建身份标识；
将所述当前对象的所述第一面部信息与所述当前对象的身份标识保存到所述数据库中。

4.根据权利要求1至3任意一项所述的方法，其特征在于，在为所述第一音频中处于所述第一时间段的所述目标音频添加所述当前对象的所述身份标识之后，所述方法还包括：
将所述目标音频转换成第一文字信息；
获取所述当前对象的目标文字信息，其中，所述目标文字信息为所述第一视频中所述当前对象陈述的内容；
在所述第一文字信息与所述目标文字信息相似度大于或等于第一阈值的情况下，将所述第一文字信息添加到与所述当前对象的身份标识对应的存储位置；
在所述第一文字信息与所述目标文字信息相似度小于第一阈值的情况下，删除为所述目标音频添加的所述身份标识。

5.根据权利要求1至3任意一项所述的方法，其特征在于，在为所述第一音频中处于所述第一时间段的所述目标音频添加所述当前对象的所述身份标识之后，所述方法还包括：
从所述第一音频中截取所述目标音频；
将截取的所述目标音频存储到与所述当前对象的身份标识对应的存储位置。

6.一种混合音频标记装置，其特征在于，包括：
第一获取单元，用于获取待标记...

【专利技术属性】
技术研发人员：王岩，梁志婷，
申请(专利权)人：秒针信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人