语音角色分离的方法和设备技术

技术编号:19010335 阅读:32 留言:0更新日期:2018-09-22 10:04
本发明专利技术的目的是提供一种语音角色分离的方法和设备,通过采用多阵列指向性的麦克风,对不同人的声音,采用不同的硬件进行采集,结合算法+硬件的能力,比单纯凭借算法进行角色分离的准确率更高。记者在采访时无需了解技术细节,只需要针对不同的采访对象,摆放好相应录音设备,打开手机等人机交互设备上的App,既可将语音实时/非实时地转成文字,并拿到已经进行精准角色分离的文字结果,为记者的音频素材处理环节节约大量时间和精力。

Method and device for separating voice roles

The object of the present invention is to provide a method and equipment for voice role separation. By using multi-array directional microphones, different people's voices are collected with different hardware, and the ability of algorithm and hardware is combined, so the accuracy of role separation is higher than that of algorithm alone. Reporters do not need to know the technical details in the interview, just for different interview objects, put the corresponding recording equipment, open the mobile phone and other human-computer interaction equipment on the App, can not only voice real-time / non-real-time into text, and get the text results of the precise role separation, for the reporter audio material processing loop About a lot of time and energy.

【技术实现步骤摘要】
语音角色分离的方法和设备
本专利技术涉及计算机领域,尤其涉及一种语音角色分离的方法和设备。
技术介绍
随着社会各行业信息化及自动化程度的不断提升,人们对更加精准的数据的需求越来越高。以采访场景为例,录音是记者采访不可或缺的一个环节,记者们需要对音频内容的进行记录、对音频素材中的内容进行分析,摘取有效的信息,并最后写成一篇稿件,工作繁重。语音识别技术的发展,为该音频素材的处理场景提供了解决方案。说话人角色分离是采访音频素材处理里面的一个重要步骤。目前,大多数实现角色分离的方案主要是基于说话人的声纹特征,即接收到语音信号后,先基于BIC(英文:BayesianInformationCriterion,中文:贝叶斯信息准则)对语音信号进行说话人转折点检测,将语音信号分割成多个语音片段;然后通过采用GMM(GaussianMixtureModel-高斯混合模型)和HMM(HiddenMarkovModel-隐马尔科夫模型)对每个角色的声音进行建模。从而对说话人的声音片段进行剥离,达到角色分离的目的。其中,BIC(BayesianInformationCriterion-贝叶斯信息准则)是对模型的拟合效果进行评价的一个指标,BIC值越小,则模型对数据的拟合越好,BIC=-2ln(L)+ln(n)*k。GMM(GaussianMixtureModel-高斯混合模型)是用高斯概率密度函数精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数形成的模型。HMM(HiddenMarkovModel-隐马尔科夫模型)是一种统计模型,用来描述一个含有隐含未知参数的马尔科夫过程上述解决方案,在理想录音环境下的分离效果较好。但是在采访场景下,由于采访空间的不确定,声音传播受空间影响较大,由于空间反射,衍射,麦克风收到的信号除了直达信号以外,还有多径信号叠加,使得信号被干扰,即为混响。在室内环境中,受房间边界或者障碍物衍射,反射导致声音延续,极大程度的影响语音的可懂度,再加之说话人数的不确定,角色分离的准确率可能会大打折扣。
技术实现思路
本专利技术的一个目的是提供一种语音角色分离的方法和设备,能够解决现有的语音角色分离的方案准确率不高的问题。根据本专利技术的一个方面,提供了一种语音角色分离的方法,该方法包括:通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。进一步的,上述方法中,指向不同说话人的拾音头包括如下任一种:单拾音头但是有多指向模式的麦克风;手机上的两个以上麦克风;录音笔上的两个以上麦克风;两个以上独立设备的麦克风。进一步的,上述方法中,对经过所述降噪处理处理后的每个声道音频进行消除回音的处理,包括:对经过所述降噪处理处理后的每个声道音频,采用基于ANC主动噪声对消的方法进行消除回音的处理。进一步的,上述方法中,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签,包括:采用TDOA算法估计每个声道音频中的音频片段到达不同麦克风的时延差,根据所述时延差计算距离差,再通过计算得到的距离差和麦克风的空间几何来确定音频片段对应所指向的说话角色。进一步的,上述方法中,将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签,包括:人机交互单元接收经过消除回音处理的每个声道音频;所述人机交互单元将每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;所述人机交互单元将标注对应的说话角色标签的音频片段上传至云端。进一步的,上述方法中,将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标之后,还包括:人机交互单元获取标注的说话角色标签后的音频片段和对应的文字;所述人机交互单元获取用户选择的某一说话角色的对应音频和文字的请求;所述人机交互单元基于所述请求,获取标注对应说话角色标签的音频片段和对应的文字进行播放。进一步的,上述方法中,将每个音频片段转换为对应的文字,包括:通过通过VAD算法,识别并剔除每个音频片段中不包含语音信号的音频帧;采用ASR计算,将识别并剔除不包含语音信号的音频帧后的音频片段转换为对应的文字。进一步的,上述方法中,指向不同说话人的拾音头的数量为2~4个,拾音头与说话角色之间的距离小于1米。根据本专利技术的另一方面,还提供了一种语音角色分离的设备,其中,该设备包括:语音信号采集单元,用于通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;增强处理单元,用于根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;降噪处理单元,用于根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;自适应波束形成单元,用于对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;声源定位单元,用于将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;角色分离单元,用于将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。根据本专利技术的另一方面,还提供了一种基于计算的设备,其中,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。根据本专利技术的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注本文档来自技高网
...
语音角色分离的方法和设备

【技术保护点】
1.一种语音角色分离的方法,其中,该方法包括:通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。

【技术特征摘要】
1.一种语音角色分离的方法,其中,该方法包括:通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。2.根据权利要求1所述的方法,其中,指向不同说话人的拾音头包括如下任一种:单拾音头但是有多指向模式的麦克风;手机上的两个以上麦克风;录音笔上的两个以上麦克风;两个以上独立设备的麦克风。3.根据权利要求1所述的方法,其中,对经过所述降噪处理处理后的每个声道音频进行消除回音的处理,包括:对经过所述降噪处理处理后的每个声道音频,采用基于ANC主动噪声对消的方法进行消除回音的处理。4.根据权利要求1所述的方法,其中,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签,包括:采用TDOA算法估计每个声道音频中的音频片段到达不同麦克风的时延差,根据所述时延差计算距离差,再通过计算得到的距离差和麦克风的空间几何来确定音频片段对应所指向的说话角色。5.根据权利要求4所述的方法,其中,将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签,包括:人机交互单元接收经过消除回音处理的每个声道音频;所述人机交互单元将每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;所述人机交互单元将标注对应的说话角色标签的音频片段上传至云端。6.根据权利要求5所述的方法,其中,将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标之后,还包括:人机交互单元获取标注的说话角色标签后的音频片段和对应的文字;所述人机交互单元获取用户选择的某一说话角色的对应音频和文字的请求;所述人机交互单元基于所述请求,获取标注对应说话角色标签的音频片段和对应的文字进行播放。7.根据权利要求1所述的方法,其中,将每个音频片段转换为对应的文字,包括:通过通过VAD算法,识别并剔除每个音频片段中不包含语音信号的音频帧;采用AS...

【专利技术属性】
技术研发人员:徐常亮陈凌云廖健范梦真
申请(专利权)人:新华智云科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1