一种基于声纹检测的新闻拆条方法技术

技术编号:37483786 阅读:12 留言:0更新日期:2023-05-07 09:23
本发明专利技术公开了一种基于声纹检测的新闻拆条方法,基于对新闻视音频各类人物发声的声纹识别,利用新闻固有的组成特点,构建新闻场景片段的拆分算法。通过判断固有的主播人声纹以外,识别并判断现场记者、被采访人、同期声配音人、背景声发音人等不同角色。根据不同角色的声纹信息,以及场景片段的拆分粒度配置,将视音频文件拆分为内容独立的片段。本发明专利技术适应于现场直播、演播室采访、新闻视频、新闻广播等多种场景,拥有精准的文件片段拆条准确度,误差不超过1.7%。比视频画面检测方式,具有更高的拆条效率,除支持新闻视频拆条外,还支持对新闻音频文件的拆条。闻音频文件的拆条。闻音频文件的拆条。

【技术实现步骤摘要】
一种基于声纹检测的新闻拆条方法


[0001]本专利技术涉及文件发音人声纹识别
,尤其涉及一种基于声纹检测的新闻拆条方法。

技术介绍

[0002]声纹识别(Voiceprint Recognition),是一项提取说话人声音特征和说话内容信息,自动核验说话人身份的生物识别技术。根据个人生理发音特征,将声波信号转换为电讯号的强度、波长、频率、节奏变化,提取到个人所特有声纹图谱。通过人工神经网络方法,以美尔倒谱系数(Mel Frequeney Cepstrum Coefficients: MFCC) 作为特征参数,采用多层感知器神经网络和BP算法建立心理声学模型,模型具备快速学习网络权重的能力,通过声纹大量样本的学习训练,进一步提高声纹识别准确性。
[0003]目前,短视频、短音频成为媒体传播的重要手段,而新闻成品文件一般为15分钟以上,包含多段内容独立的新闻片段。较长的新闻成品不利于互联网环境的媒体传播,需要拆分为内容独立的新闻片段。全靠人工手动拆条,将耗费大量的人员工作量。

技术实现思路

[0004]为解决上述人工手动插条耗费人力的问题,本专利技术提出了一种基于声纹检测的新闻拆条方法。
[0005]一种基于声纹检测的新闻拆条方法,利用新闻视音频各发音人不同的声纹特点识别不同发音人的新闻场景角色,包括以下步骤:步骤S1:配置声纹拆条中固定的角色声纹信息;步骤S2:准备进行视音频文件的声纹检测业务,将配置的人员声纹特征码送入到声纹识别模型,为声纹比对做准备;步骤S3:准备需要进行声纹检测拆条的新闻视音频文件,解码音视频文件数据,送入到声纹识别模型;步骤S4:声纹识别模型处理处理数据,返回声纹匹配信息,若匹配到工作人员的声纹,则根据声纹进行拆条;步骤S4:在完成视音频新闻文件的一段拆条后,自动循环开始下一个片段的声纹识别检测拆条,直到整个文件拆条完毕。
[0006]进一步,所述步骤S1配置角色声纹信息自动对工作人员标本信息进行识别,并记录各人员的声纹特征码,包括:主播,配音,记者工作人员声纹标本。
[0007]进一步,所述步骤S3音视频数据送入声纹识别模型为以每10毫秒为单位的数据。
[0008]进一步,所述步骤S4声纹识别模型处理数据还包括:声纹识别模型接收视音频数据,进行视音频数据的声纹特征码提取,将提取到的声纹特征码与工作人员特征码进行比对,若比对超过匹配阈值,则认为匹配成功,返回声纹识别的匹配信息。
[0009]进一步,所述步骤S4拆条方式包括细粒,度拆条和完整片段拆条,所述细粒度拆条
包括:以一个人发声开始到结束作为拆条的依据,则声纹识别成功匹配某个角色,自动记录该角色的发声开始时间,一直到发声结束时间,则判断该段时间为一个发声人片段。
[0010]进一步,所述细粒度拆条以开始和结束时间进行拆条,可拆分新闻的主播片段、正文片段、采访片段和其他细粒度的片段。
[0011]进一步,所述完整片段拆条以一段内容独立的完整新闻作为拆条依据,需要依据主播人的识别来进行拆条,并且需要记录声纹识别匹配新闻主播作为开始点,直到下一次重新识别匹配新闻主播做为上一段新闻的结束和新一段新闻的开始。
[0012]进一步,所述完整新闻包括:主播片段,正文片段,采访片段和其他片段。
[0013]进一步,所述完整片段拆条以完整新闻片段的开始、结束时间,拆分完整的新闻片段。
[0014]本专利技术的有益效果:本专利技术提出了一种基于声纹检测的新闻拆条方法,基于对新闻视音频各类人物发声的声纹识别,利用新闻固有的组成特点,构建新闻场景片段的拆分算法。通过判断固有的主播人声纹以外,识别并判断现场记者、被采访人、同期声配音人、背景声发音人等不同角色。根据不同角色的声纹信息,以及场景片段的拆分粒度配置,将视音频文件拆分为内容独立的片段。本专利技术适应于现场直播、演播室采访、新闻视频、新闻广播等多种场景,拥有精准的文件片段拆条准确度,误差不超过1.7%。比视频画面检测方式,具有更高的拆条效率,同等长度的视频文件,声纹拆条具备比视频画面检测拆条快1.7

2.0倍速度的优势。除支持新闻视频拆条外,还支持对新闻音频文件的拆条。
附图说明
[0015]图1是本专利技术基于声纹检测的新闻拆条方法细粒度拆条流程图;图2是本专利技术基于声纹检测的新闻拆条方法完整片段拆条流程图。
具体实施方式
[0016]为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图说明本专利技术的具体实施方式。
[0017]本专利技术提出了一种基于声纹检测的新闻拆条方法,利用新闻视音频各发音人不同的声纹特点识别不同发音人的新闻场景角色,包括以下步骤:步骤S1:配置声纹拆条中固定的角色声纹信息;步骤S2:准备进行视音频文件的声纹检测业务,将配置的人员声纹特征码送入到声纹识别模型,为声纹比对做准备;步骤S3:准备需要进行声纹检测拆条的新闻视音频文件,解码音视频文件数据,送入到声纹识别模型;步骤S4:声纹识别模型处理处理数据,返回声纹匹配信息,若匹配到工作人员的声纹,则根据声纹进行拆条;步骤S4:在完成视音频新闻文件的一段拆条后,自动循环开始下一个片段的声纹识别检测拆条,直到整个文件拆条完毕。
[0018]步骤S1配置角色声纹信息自动对工作人员标本信息进行识别,并记录各人员的声纹特征码,包括:主播,配音,记者工作人员声纹标本。
[0019]步骤S3音视频数据送入声纹识别模型为以每10毫秒为单位的数据。
[0020]步骤S4声纹识别模型处理数据还包括:声纹识别模型接收视音频数据,进行视音频数据的声纹特征码提取,将提取到的声纹特征码与工作人员特征码进行比对,若比对超过匹配阈值,则认为匹配成功,返回声纹识别的匹配信息。
[0021]步骤S4拆条方式包括细粒,度拆条和完整片段拆条,所述细粒度拆条包括:以一个人发声开始到结束作为拆条的依据,则声纹识别成功匹配某个角色,自动记录该角色的发声开始时间,一直到发声结束时间,则判断该段时间为一个发声人片段。
[0022]细粒度拆条如图1所示,以开始和结束时间进行拆条,可拆分新闻的主播片段、正文片段、采访片段和其他细粒度的片段。
[0023]完整片段拆条如图2所示,以一段内容独立的完整新闻作为拆条依据,需要依据主播人的识别来进行拆条,并且需要记录声纹识别匹配新闻主播作为开始点,直到下一次重新识别匹配新闻主播做为上一段新闻的结束和新一段新闻的开始。
[0024]完整新闻包括:主播片段,正文片段,采访片段和其他片段。
[0025]完整片段拆条以完整新闻片段的开始、结束时间,拆分完整的新闻片段。
[0026]在本实施例中,为节省人员工作量,提高新闻拆条的效率。本专利技术利用新闻视音频固有的特点,创新型使用声纹检测的拆条技术。新闻一般由标题、导语、正文(解说、采访、实况同期声)部分。标题、导语一般由主播口播,而正文部分一般由同期声、记者现场采访部分构成,各部分有不同的发音人组成。根据不同发音人声纹的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于声纹检测的新闻拆条方法,其特征在于,利用新闻视音频各发音人不同的声纹特点识别不同发音人的新闻场景角色,包括以下步骤:步骤S1:配置声纹拆条中固定的角色声纹信息;步骤S2:准备进行视音频文件的声纹检测业务,将配置的人员声纹特征码送入到声纹识别模型,为声纹比对做准备;步骤S3:准备需要进行声纹检测拆条的新闻视音频文件,解码音视频文件数据,送入到声纹识别模型;步骤S4:声纹识别模型处理处理数据,返回声纹匹配信息,若匹配到工作人员的声纹,则根据声纹进行拆条;步骤S4:在完成视音频新闻文件的一段拆条后,自动循环开始下一个片段的声纹识别检测拆条,直到整个文件拆条完毕。2.根据权利要求1所述的一种基于声纹检测的新闻拆条方法,其特征在于,所述步骤S1配置角色声纹信息自动对工作人员标本信息进行识别,并记录各人员的声纹特征码,包括:主播,配音,记者工作人员声纹标本。3.根据权利要求2所述的一种基于声纹检测的新闻拆条方法,其特征在于,所述步骤S3音视频数据送入声纹识别模型为以每10毫秒为单位的数据。4.根据权利要求1所述的一种基于声纹检测的新闻拆条方法,其特征在于,所述步骤S4声纹识别模型处理数据还包括:声纹识别模型接收视音频数据,进行视音频数据的声纹特征码提取,将提取到的声纹特征...

【专利技术属性】
技术研发人员:马萧萧潘锋王吉超姚高远刘科材黄平冯俊欢张博文
申请(专利权)人:成都东方盛行电子有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1