基于角色识别的语音识别系统技术方案

技术编号:29217067 阅读:11 留言:0更新日期:2021-07-10 00:55
本发明专利技术涉及语音数据处理技术领域,具体涉及一种基于角色识别的语音识别系统,包括:采集模块,用于采集谈话人与被谈话人的谈话语音;提取模块,用于根据谈话语音提取声纹特征;聚类模块,用于根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音;纠正模块,用于判断第一时延的标准差与第二时延的标准差是否均小于时延阈值:如果第一时延的标准差与第二时延的标准差均小于时延阈值,发送输出结果的指令到输出模块;反之,发送重新聚类的指令到聚类模块;输出模块,用于输出第一语音与第二语音。本发明专利技术解决了通过声纹特征进行说话人角色识别准确率低的技术问题。低的技术问题。低的技术问题。

【技术实现步骤摘要】
基于角色识别的语音识别系统


[0001]本专利技术涉及语音数据处理
,具体涉及一种基于角色识别的语音识别系统。

技术介绍

[0002]目前,语音识别技术逐步应用到法庭庭审或会议过程中,对整个法庭庭审或会议过程以语音的形式进行记录。在法庭庭审或会议过程结束以后,再对语音中的内容进行分析,摘取有效的信息,最后形成稿件。其中,说话人角色识别或分离是语音处理过程的核心步骤,只有进行将说话人角色识别或分离后才可以知道哪些人具体说了哪些具体的内容。
[0003]比如说,中国专利CN111105801A公开了一种角色语音分离方法,包括步骤:建立数据信息库;在检测到用户对话时,对于对话中的每句话进行识别,用户包括用户组a和用户组b;对识别的结果提取声纹特征,输出提取结果;获取提取结果中属于用户组a的声纹特征并存入数据信息库中;其中,在检测到用户对话时,对于对话中的每句话进行识别,包括:获取用户的对话内容;提取用户组a的身份信息并存储到数据信息库中以用于区别用户组a和用户组b;将对话内容通过声纹引擎进行识别分类,分为用户组a的m个声音片段集和用户组b的n个声音片段集。
[0004]在上述技术方案中,基于说话人的声纹特征进行角色识别、分离,要想仅通过声纹特征将说话人的角色识别、分离开来,需要确保谈话语音是在良好的录音环境中进行录制的。但是,在实际的谈话场景下,比如法庭庭审,由于法庭空间狭小,声音的传播过程受空间大小的影响较大,以及会在空间中进行反射、衍射,甚至除了直达信号还有多径信号叠加进而出现混响,导致角色识别的准确率低。

技术实现思路

[0005]本专利技术提供一种基于角色识别的语音识别系统,解决了通过声纹特征进行说话人角色识别准确率低的技术问题。
[0006]本专利技术提供的基础方案为:基于角色识别的语音识别系统,包括:
[0007]采集模块,用于采集谈话人与被谈话人的谈话语音;
[0008]提取模块,用于根据谈话语音提取声纹特征;
[0009]聚类模块,用于对声纹特征进行聚类,将声纹特征分为谈话人对应的第一特征与被谈话人对应的第二特征,并根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音;
[0010]纠正模块,用于采用TDOA算法计算第一语音中各个音频片段的第一时延,采用TDOA算法计算第二语音中各个音频片段的第二时延,计算第一时延的标准差与第二时延的标准差,并判断第一时延的标准差与第二时延的标准差是否均小于时延阈值:如果第一时延的标准差与第二时延的标准差均小于时延阈值,发送输出结果的指令到输出模块;反之,发送重新聚类的指令到聚类模块;
[0011]输出模块,用于输出第一语音与第二语音。
[0012]本专利技术的工作原理及优点在于:首先,对声纹特征进行聚类将其分为第一特征与第二特征。由于声纹特征具有特定性与相对稳定性两个特点,人的声音可保持长期相对稳定不变,无论谈话人与被谈话人故意模仿他人声音和语气,还是耳语轻声讲话,其声纹始终保持不变。这样根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音,能够初步实现角色识别。接着,采用TDOA算法计算第一语音中各个音频片段的第一时延,以及第二语音中各个音频片段的第二时延,并计算第一时延的标准差与第二时延的标准差。如果说第一时延的标准差与第二时延的标准差是否均小于时延阈值,表明第一语音与第二语音中的音频片段均是来源于同一个人,反之则表明第一语音与第二语音中的音频片段来源于不同的人。通过这样的方式,如果谈话语音在不好的录音环境中录制,谈话语音的质量很低下,可以对角色识别的结果进行修正,从而提高角色识别的准确率。
[0013]本专利技术即使在谈话语音的质量很低下的情况,也可以对角色识别的结果进行修正和反馈,解决了通过声纹特征进行说话人角色识别准确率低的技术问题。
[0014]进一步,纠正模块还用于采用TDOA算法根据第一时延计算第一距离,采用TDOA算法根据第二时延计算第二距离,并判断第一距离的标准差与第二距离的标准差是否均小于距离阈值:如果第一距离的标准差与第二距离的标准差均小于距离阈值,发送输出结果的指令到输出模块;反之,发送重新聚类的指令到聚类模块。
[0015]有益效果在于:如果第一时延的标准差与第二时延的标准差均小于时延阈值,这是从时间维度进行确认;如果第一距离的标准差与第二距离的标准差均小于距离阈值,这是从空间维度进行确认。通过这样的方式,可以更加准确地判断第一语音与第二语音中的音频片段是否均是来源于同一个人。
[0016]进一步,纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前,对第一语音进行增益处理;在采用TDOA算法计算第二语音中各个音频片段的第二时延之前,对第二语音进行增益处理。
[0017]有益效果在于:当第一语音与第二语音的响度过低时,通过这样的方式,能够提高第一语音与第二语音的响度,避免因为响度过低而产生误差。
[0018]进一步,纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前,对第一语音进行回音消除处理;在采用TDOA算法计算第二语音中各个音频片段的第二时延之前,对第二语音进行回音消除处理。
[0019]有益效果在于:回音的存在,会对第一语音与第二语音形成干扰,通过这样的方式能够消除第一语音与第二语音中的回声,避免回声干扰导致误差。
[0020]进一步,纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前,对第一语音进行降噪处理;在采用TDOA算法计算第二语音中各个音频片段的第二时延之前,对第二语音进行降噪处理。
[0021]有益效果在于:由于现实中很少存在完全没有杂音的环境,对第一语音与第二语音进行降噪处理,剔除掉无关因素,有利于提高后续处理的准确性。
[0022]进一步,输出模块还用于将第一语音转换为第一文本,并将第二语音转换为第二文本。
[0023]有益效果在于:将第一语音转换为第一文本,并将第二语音转换为第二文本,便于整理谈话语音的内容,从而提高工作效率。
[0024]进一步,输出模块还用于同步显示第一文本与第二文本。
[0025]有益效果在于:通过这样的方式,能够在转换的同时同步进行显示,既便于当场进行核实,又利于对谈话过程进行实时监督。
附图说明
[0026]图1为本专利技术基于角色识别的语音识别系统实施例的系统结构框图。
具体实施方式
[0027]下面通过具体实施方式进一步详细的说明:
[0028]实施例1
[0029]实施例基本如附图1所示,包括:
[0030]采集模块,用于采集谈话人与被谈话人的谈话语音;
[0031]提取模块,用于根据谈话语音提取声纹特征;
[0032]聚类模块,用于对声纹特征进行聚类,将声纹特征分为谈话人对应的第一特征与被谈话人对应的第二特征,并根据第一特征与第二特征将谈话语音分为谈话人对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于角色识别的语音识别系统,其特征在于,包括:采集模块,用于采集谈话人与被谈话人的谈话语音;提取模块,用于根据谈话语音提取声纹特征;聚类模块,用于对声纹特征进行聚类,将声纹特征分为谈话人对应的第一特征与被谈话人对应的第二特征,并根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音;纠正模块,用于采用TDOA算法计算第一语音中各个音频片段的第一时延,采用TDOA算法计算第二语音中各个音频片段的第二时延,计算第一时延的标准差与第二时延的标准差,并判断第一时延的标准差与第二时延的标准差是否均小于时延阈值:如果第一时延的标准差与第二时延的标准差均小于时延阈值,发送输出结果的指令到输出模块;反之,发送重新聚类的指令到聚类模块;输出模块,用于输出第一语音与第二语音。2.如权利要求1所述的基于角色识别的语音识别系统,其特征在于,纠正模块还用于采用TDOA算法根据第一时延计算第一距离,采用TDOA算法根据第二时延计算第二距离,并判断第一距离的标准差与第二距离的标准差是否均小于距离阈值:如果第一距离的标准差与第二距离的标准差均小于距离阈值,发送输出结果的指令到输出模块;反之,发送重...

【专利技术属性】
技术研发人员:黄星耀熊倩王枫王学春张志亮
申请(专利权)人:重庆风云际会智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1