语音识别方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:17880995 阅读:21 留言:0更新日期:2018-05-06 02:15
本发明专利技术实施例提供了一种语音识别方法、装置、计算机设备及可读存储介质,其中,该方法包括:在一组话筒中有话筒被使用时,采集一组话筒中各个话筒的声纹数据;分别提取各个话筒的声纹数据的特征参数,根据特征参数分别计算相邻两个话筒的声纹数据的差异值,差异值表示相邻两个话筒的声纹数据的相似度;根据大于预设数值的差异值对应的相邻两个话筒的声纹数据的能量大小,在大于预设数值的差异值对应的相邻两个话筒的声纹数据中确定出当前被使用的话筒的声纹数据,将当前被使用的话筒的声纹数据作为识别文本,将所有话筒的声纹数据中除了所述识别文本之外的其他声纹数据确定为重复识别文本,采用识别文本对当前被使用的话筒进行语音识别。

Speech recognition method, device, computer equipment and readable storage medium

An embodiment of the invention provides a speech recognition method, a device, a computer device and a readable storage medium. The method includes: when the microphone is used in a set of phones, the sound pattern data of each microphone in a set of phones is collected, and the characteristic parameters of the sound pattern data of each microphone are extracted, and the characteristic parameters are based on the characteristic parameters. The difference values of the voiceprint data of two adjacent MICs are calculated respectively, and the difference values are expressed as the similarity of the sound pattern data of the adjacent two phones. The energy size of the sound pattern data of the adjacent two adjacent phones, which are corresponding to the difference values larger than the presupposed values, is in the sound pattern data of the adjacent two adjacent microphone. The sound pattern data of the current used microphone is determined, and the sound pattern data of the current used microphone is used as the recognition text, and the other sound data other than the identified text in all the voice data of the microphone is determined to be repeated recognition text, and the speech recognition of the current used microphone is carried out by the identification text.

【技术实现步骤摘要】
语音识别方法、装置、计算机设备及可读存储介质
本专利技术涉及语音识别
,特别涉及一种语音识别方法、装置、计算机设备及可读存储介质。
技术介绍
随着语音识别技术的成熟,很多情况下需要用到多个人进行语音识别的情况,比如,法庭庭审的场景下,原告和原告律师,以及被告和被告律师,在类似场景下的语音识别会遇到串音的问题。如图1所示,一个话筒组包括话筒1、2、3……N,当用户对着一个话筒2说话时,相邻的比较近的话筒1、3也会接收到相同但声音比较小的声纹,使得语音识别系统除了接收话筒2的声音外还同时接收到了话筒1、3的声音,但是,话筒1、3接收到的声音对于语音识别系统来说是重复的声音,使得语音识别系统中出现了很多重复的识别文本,重复的识别文本会对识别结果造成干扰,从而造成了识别结果的可读性差,极端情况下当识别文本掺杂有重复的识别文本时根本就无法使用,从而极大地阻碍了多人场景下的语音识别的应用。
技术实现思路
本专利技术实施例提供了一种语音识别方法,以解决现有技术中语音识别时由于存在重复的识别文本而造成识别结果的可读性差或无法进行语音识别的技术问题。该方法包括:在一组话筒中有话筒被使用时,采集所述一组话筒中各个话筒的声纹数据,其中,所述一组话筒中相邻两个话筒之间的距离小于预设距离;分别提取各个话筒的声纹数据的特征参数,其中,所述特征参数用于表征声纹曲线的趋势特征;根据所述特征参数分别计算相邻两个话筒的声纹数据的差异值,其中,所述差异值表示相邻两个话筒的声纹数据的相似度;根据大于预设数值的差异值对应的相邻两个话筒的声纹数据的能量大小,在大于预设数值的差异值对应的相邻两个话筒的声纹数据中确定出当前被使用的话筒的声纹数据,将当前被使用的话筒的声纹数据作为识别文本,将所有话筒的声纹数据中除了所述识别文本之外的其他声纹数据确定为重复识别文本,采用所述识别文本对当前被使用的话筒进行语音识别。本专利技术实施例还提供了一种计算机设备,以解决现有技术中语音识别时由于存在重复的识别文本而造成识别结果的可读性差或无法进行语音识别的技术问题。计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种语音识别方法。本专利技术实施例还提供了一种计算机可读存储介质,以解决现有技术中语音识别时由于存在重复的识别文本而造成识别结果的可读性差或无法进行语音识别的技术问题。所述计算机可读存储介质存储有执行上述任一种语音识别方法的计算机程序。本专利技术实施例还提供了一种语音识别装置,以解决现有技术中语音识别时由于存在重复的识别文本而造成识别结果的可读性差或无法进行语音识别的技术问题。该装置包括:声纹采集模块,用于在一组话筒中有话筒被使用时,采集所述一组话筒中各个话筒的声纹数据,其中,所述一组话筒中相邻两个话筒之间的距离小于预设距离;参数提取模块,用于分别提取各个话筒的声纹数据的特征参数,其中,所述特征参数用于表征声纹曲线的趋势特征;差异值计算模块,用于根据所述特征参数分别计算相邻两个话筒的声纹数据的差异值,其中,所述差异值表示相邻两个话筒的声纹数据的相似度;语音识别模块,用于根据大于预设数值的差异值对应的相邻两个话筒的声纹数据的能量大小,在大于预设数值的差异值对应的相邻两个话筒的声纹数据中确定出当前被使用的话筒的声纹数据,将当前被使用的话筒的声纹数据作为识别文本,将所有话筒的声纹数据中除了所述识别文本之外的其他声纹数据确定为重复识别文本,采用所述识别文本对当前被使用的话筒进行语音识别。在本专利技术实施例中,针对多人语音识别的场景,在一组话筒中有话筒被使用说话时,采集该一组话筒中各个话筒的声纹数据,并提取各个话筒的声纹数据的特征参数,进而基于特征参数计算相邻两个话筒的声纹数据的差异值,该差异值表示相邻两个话筒的声纹数据的相似度,最后,根据大于预设数值的差异值对应的相邻两个话筒的声纹数据的能量大小,确定当前正在使用的话筒的声纹数据,由于大于预设数值的差异值对应的两个声纹数据之间的相似度是很小的,因此,大于预设数值的差异值对应的相邻两个话筒的声纹数据则可以认为是当前正在使用的话筒和其相邻话筒的声纹数据,而且当前正在使用的话筒的声纹数据的能量要大于其他话筒的声纹数据的能量,因此,可以在大于预设数值的差异值对应的相邻两个话筒的声纹数据中确定出当前被使用的话筒的声纹数据,该声纹数据则为识别文本,除了识别文本之外的其他声纹数据则是相邻话筒的声纹数据,作为重复识别文本,在语音识别时可以将重复识别文本删除,只采用上述识别文本对当前被使用的话筒进行语音识。即实现了在采集的所有话筒的声纹数据中确定并去除相邻话筒的声纹数据,只将当前被使用的话筒的声纹数据作为识别文本进行语音识别,避免了语音识别时重复识别文本的存在,有利于提高语音识别结果的可读性、准确性,有利于多人语音识别的广泛应用。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。在附图中:图1是现有技术中的一种多人语音识别使用场景的示意图;图2是本专利技术实施例提供的一种语音识别方法的流程图;图3是本专利技术实施例提供的一种特征参数与影响因子的对应关系示意图;图4是本专利技术实施例提供的一种采用上述语音识别方法进行语音识别的流程图1;图5是本专利技术实施例提供的一种采用上述语音识别方法进行语音识别的流程图2;图6是本专利技术实施例提供的一种语音识别装置的结构框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本专利技术做进一步详细说明。在此,本专利技术的示意性实施方式及其说明用于解释本专利技术,但并不作为对本专利技术的限定。现有技术中,多人语音识别的场景下,如图1所示,用户使用话筒2说“现在开会”,话筒2接收到的声音是“现在开会”,与此同时,相邻的话筒1也能接收到声音“现在开会”,相邻的话筒3接收到的声音是“现开会”。本申请专利技术人发现相邻话筒1、3接收的声音相对于话筒2接收的声音,音量小,还会出现信息不完整的现象,但是这些相邻话筒接收的声音在语音识别时是重复识别文本,会导致语音识别结果不准确。为此本申请专利技术人提出了上述语音识别方法,在声音采集端将重复识别文本去除,只采用识别文本进行语音识别,以提高多人语音识别的准确性。在本专利技术实施例中,提供了一种语音识别方法,如图2所示,该方法包括:步骤201:在一组话筒中有话筒被使用时,采集所述一组话筒中各个话筒的声纹数据,其中,所述一组话筒中相邻两个话筒之间的距离小于预设距离,例如,该预设距离可以是1米或者0.5米,即该预设距离为一个话筒被使用讲话时,相邻话筒也可以接收到讲话的声音的距离;一组话筒至少包括2个话筒;步骤202:分别提取各个话筒的声纹数据的特征参数,其中,所述特征参数用于表征声纹曲线的趋势特征;步骤203:根据所述特征参数分别计算相邻两个话筒的声纹数据的差异值,其中,所述差异值表示相邻两个话筒的声纹数据的相似度;步骤204:根据大于预设数值的差异值对应的相邻两个话筒的声纹数据的能量大小,在大于预设数值的差异值对应的相邻两个话筒的声纹数据中确定出当前被使用的话筒的声纹数据,将当前被使用的话筒的声纹数据作为识别文本,将所有话筒的声纹数据中除了所述识别文本之外的其他声纹数据确定为本文档来自技高网...
语音识别方法、装置、计算机设备及可读存储介质

【技术保护点】
一种语音识别方法,其特征在于,包括:在一组话筒中有话筒被使用时,采集所述一组话筒中各个话筒的声纹数据,其中,所述一组话筒中相邻两个话筒之间的距离小于预设距离;分别提取各个话筒的声纹数据的特征参数,其中,所述特征参数用于表征声纹曲线的趋势特征;根据所述特征参数分别计算相邻两个话筒的声纹数据的差异值,其中,所述差异值表示相邻两个话筒的声纹数据的相似度;根据大于预设数值的差异值对应的相邻两个话筒的声纹数据的能量大小,在大于预设数值的差异值对应的相邻两个话筒的声纹数据中确定出当前被使用的话筒的声纹数据,将当前被使用的话筒的声纹数据作为识别文本,将所有话筒的声纹数据中除了所述识别文本之外的其他声纹数据确定为重复识别文本,采用所述识别文本对当前被使用的话筒进行语音识别。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:在一组话筒中有话筒被使用时,采集所述一组话筒中各个话筒的声纹数据,其中,所述一组话筒中相邻两个话筒之间的距离小于预设距离;分别提取各个话筒的声纹数据的特征参数,其中,所述特征参数用于表征声纹曲线的趋势特征;根据所述特征参数分别计算相邻两个话筒的声纹数据的差异值,其中,所述差异值表示相邻两个话筒的声纹数据的相似度;根据大于预设数值的差异值对应的相邻两个话筒的声纹数据的能量大小,在大于预设数值的差异值对应的相邻两个话筒的声纹数据中确定出当前被使用的话筒的声纹数据,将当前被使用的话筒的声纹数据作为识别文本,将所有话筒的声纹数据中除了所述识别文本之外的其他声纹数据确定为重复识别文本,采用所述识别文本对当前被使用的话筒进行语音识别。2.如权利要求1所述的语音识别方法,其特征在于,在分别提取各个话筒的声纹数据的特征参数之前,还包括:针对各个话筒的声纹数据,实时动态确定各个话筒的声纹数据的噪声频谱;过滤各个话筒的声纹数据中的噪声。3.如权利要求2所述的语音识别方法,其特征在于,通过以下公式实时动态确定各个话筒的声纹数据的噪声频谱:其中,是当前的噪声频谱估计;lambdaNSE是噪声频谱估计参数;是前一时间段的噪声频谱估计;是噪声频谱的动态更新值;tn-1是前一个非语音帧指数减1;EPS是的初始值;t是当前帧指数;tn是前一个非语音帧指数。4.如权利要求2所述的语音识别方法,其特征在于,通过以下公式过滤各个话筒的声纹数据中的噪声:其中,H2(bin,t1)是维纳滤波传输函数;η2(bin,t1)是前一帧的信噪比;bin是标识频率指数;t1是时间;NSPEC是帧当前频率的最大值。5.如权利要求1所述的语音识别方法,其特征在于,分别提取各个话筒的声纹数据的特征参数,包括:针对各个话筒的无噪声的声...

【专利技术属性】
技术研发人员:卫东雷李行单衍景
申请(专利权)人:北京华夏电通科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1