An embodiment of the invention provides a speech recognition method, a device, a computer device and a readable storage medium. The method includes: when the microphone is used in a set of phones, the sound pattern data of each microphone in a set of phones is collected, and the characteristic parameters of the sound pattern data of each microphone are extracted, and the characteristic parameters are based on the characteristic parameters. The difference values of the voiceprint data of two adjacent MICs are calculated respectively, and the difference values are expressed as the similarity of the sound pattern data of the adjacent two phones. The energy size of the sound pattern data of the adjacent two adjacent phones, which are corresponding to the difference values larger than the presupposed values, is in the sound pattern data of the adjacent two adjacent microphone. The sound pattern data of the current used microphone is determined, and the sound pattern data of the current used microphone is used as the recognition text, and the other sound data other than the identified text in all the voice data of the microphone is determined to be repeated recognition text, and the speech recognition of the current used microphone is carried out by the identification text.
【技术实现步骤摘要】
语音识别方法、装置、计算机设备及可读存储介质
本专利技术涉及语音识别
,特别涉及一种语音识别方法、装置、计算机设备及可读存储介质。
技术介绍
随着语音识别技术的成熟,很多情况下需要用到多个人进行语音识别的情况,比如,法庭庭审的场景下,原告和原告律师,以及被告和被告律师,在类似场景下的语音识别会遇到串音的问题。如图1所示,一个话筒组包括话筒1、2、3……N,当用户对着一个话筒2说话时,相邻的比较近的话筒1、3也会接收到相同但声音比较小的声纹,使得语音识别系统除了接收话筒2的声音外还同时接收到了话筒1、3的声音,但是,话筒1、3接收到的声音对于语音识别系统来说是重复的声音,使得语音识别系统中出现了很多重复的识别文本,重复的识别文本会对识别结果造成干扰,从而造成了识别结果的可读性差,极端情况下当识别文本掺杂有重复的识别文本时根本就无法使用,从而极大地阻碍了多人场景下的语音识别的应用。
技术实现思路
本专利技术实施例提供了一种语音识别方法,以解决现有技术中语音识别时由于存在重复的识别文本而造成识别结果的可读性差或无法进行语音识别的技术问题。该方法包括:在一组话筒中有话筒被使用时,采集所述一组话筒中各个话筒的声纹数据,其中,所述一组话筒中相邻两个话筒之间的距离小于预设距离;分别提取各个话筒的声纹数据的特征参数,其中,所述特征参数用于表征声纹曲线的趋势特征;根据所述特征参数分别计算相邻两个话筒的声纹数据的差异值,其中,所述差异值表示相邻两个话筒的声纹数据的相似度;根据大于预设数值的差异值对应的相邻两个话筒的声纹数据的能量大小,在大于预设数值的差异值对应的相邻两个话筒 ...
【技术保护点】
一种语音识别方法,其特征在于,包括:在一组话筒中有话筒被使用时,采集所述一组话筒中各个话筒的声纹数据,其中,所述一组话筒中相邻两个话筒之间的距离小于预设距离;分别提取各个话筒的声纹数据的特征参数,其中,所述特征参数用于表征声纹曲线的趋势特征;根据所述特征参数分别计算相邻两个话筒的声纹数据的差异值,其中,所述差异值表示相邻两个话筒的声纹数据的相似度;根据大于预设数值的差异值对应的相邻两个话筒的声纹数据的能量大小,在大于预设数值的差异值对应的相邻两个话筒的声纹数据中确定出当前被使用的话筒的声纹数据,将当前被使用的话筒的声纹数据作为识别文本,将所有话筒的声纹数据中除了所述识别文本之外的其他声纹数据确定为重复识别文本,采用所述识别文本对当前被使用的话筒进行语音识别。
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:在一组话筒中有话筒被使用时,采集所述一组话筒中各个话筒的声纹数据,其中,所述一组话筒中相邻两个话筒之间的距离小于预设距离;分别提取各个话筒的声纹数据的特征参数,其中,所述特征参数用于表征声纹曲线的趋势特征;根据所述特征参数分别计算相邻两个话筒的声纹数据的差异值,其中,所述差异值表示相邻两个话筒的声纹数据的相似度;根据大于预设数值的差异值对应的相邻两个话筒的声纹数据的能量大小,在大于预设数值的差异值对应的相邻两个话筒的声纹数据中确定出当前被使用的话筒的声纹数据,将当前被使用的话筒的声纹数据作为识别文本,将所有话筒的声纹数据中除了所述识别文本之外的其他声纹数据确定为重复识别文本,采用所述识别文本对当前被使用的话筒进行语音识别。2.如权利要求1所述的语音识别方法,其特征在于,在分别提取各个话筒的声纹数据的特征参数之前,还包括:针对各个话筒的声纹数据,实时动态确定各个话筒的声纹数据的噪声频谱;过滤各个话筒的声纹数据中的噪声。3.如权利要求2所述的语音识别方法,其特征在于,通过以下公式实时动态确定各个话筒的声纹数据的噪声频谱:其中,是当前的噪声频谱估计;lambdaNSE是噪声频谱估计参数;是前一时间段的噪声频谱估计;是噪声频谱的动态更新值;tn-1是前一个非语音帧指数减1;EPS是的初始值;t是当前帧指数;tn是前一个非语音帧指数。4.如权利要求2所述的语音识别方法,其特征在于,通过以下公式过滤各个话筒的声纹数据中的噪声:其中,H2(bin,t1)是维纳滤波传输函数;η2(bin,t1)是前一帧的信噪比;bin是标识频率指数;t1是时间;NSPEC是帧当前频率的最大值。5.如权利要求1所述的语音识别方法,其特征在于,分别提取各个话筒的声纹数据的特征参数,包括:针对各个话筒的无噪声的声...
【专利技术属性】
技术研发人员:卫东雷,李行,单衍景,
申请(专利权)人:北京华夏电通科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。