一种混合语音识别方法、计算设备及可读存储介质技术

技术编号：39955296 阅读：10 留言：0更新日期：2024-01-08 23:37

本发明专利技术公开了一种混合语音识别方法、计算设备及可读存储介质，涉及语音识别技术领域。方法在计算设备中执行，方法包括：获取混合语音数据，混合语音数据包含至少两个说话人的语音数据；对混合语音数据进行语音识别，得到文本序列，所述文本序列包含多句文本；对混合语音数据通过语音分离算法进行语音分离，得到至少两个单一语音数据；确定每个单一语音数据对应的说话人；结合文本序列和单一语音数据，确定每句文本内容所属的说话人，得到语音识别结果。避免了因语音分离算法重新音频信号，导致后进行语音文本识别过程信息丢失的问题，保证了原始语音内容的完整性以及语音识别的准确性，同时改善了因缺少音频上下文联系导致的识别率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别，尤其涉及一种混合语音识别方法、计算设备及可读存储介质。

技术介绍

1、目前，随着人工智能技术的飞速发展，语音识别技术越来越被广泛地应用，如人机交互的智能家居、智能汽车、多人对话或会议的实时语音转写等，当一通语音里时单人说话且无较强的环境噪音时，当前的语音识别技术可以较高精度地识别出说话内容，但是当一段单通道语音中包含多人说话时，如何准确地识别出每个说话人分别说了什么内容，仍是业界的难题。

2、现有的语音识别方案中，通过语音分离算法对单通道语音进行分离，再对每个分离后的语音进行识别得到各说话人的说话内容。采用该方案分离得到的语音一方面由于语音分离算法会重写音频信号，导致信息丢失；另一方面在服务对话的场景下，客户的语音识别内容相比客服会少很多，先语音分离再对客户进行语音识别时，缺少上下文联系，识别率较低。

3、因此，需要提供一种混合语音识别方法，以提高语音识别准确率，解决上述技术问题。

技术实现思路

1、为此，本专利技术提供了一种混合语音识别方法，以解决或至少缓解上面存在的问题。

2、根据本专利技术的一个方面，提供了一种混合语音识别方法，适于在计算设备中执行，其中，所述方法包括：获取混合语音数据，所述混合语音数据包含至少两个说话人的语音数据；对所述混合语音数据进行语音识别，得到文本序列，所述文本序列包含多句文本；对所述混合语音数据通过语音分离算法进行语音分离，得到至少两个单一语音数据；确定每个所述单一语音数据对应的说话人；结合

3、可选地，在根据本专利技术的混合语音识别方法中，所述文本序列为带有时间戳的文本序列。

4、可选地，在根据本专利技术的混合语音识别方法中，所述对所述混合语音数据进行语音识别，得到文本序列，所述文本序列包含多句文本，包括：将混合语音数据通过asr语音识别算法，生成带有时间戳的文本序列，所述文本序列包含多句文本，每句所述文本包含开始时间、结束时间和文本内容。

5、可选地，在根据本专利技术的混合语音识别方法中，所述语音分离算法为全卷积时域音频分离网络。

6、可选地，在根据本专利技术的混合语音识别方法中，确定每个所述单一语音数据对应的说话人，包括：计算每个所述单一语音数据的第一音频能量特征，基于所述第一音频能量特征确定每个所述单一语音数据对应的说话人。

7、可选地，在根据本专利技术的混合语音识别方法中，所述第一音频能量特征为平均音频能量，基于所述第一音频能量特征确定每个所述单一语音数据对应的说话人，包括：通过比较每个所述单一语音数据的平均音频能量的大小，按照大小顺序确定每个所述单一语音数据对应的说话人。

8、可选地，在根据本专利技术的混合语音识别方法中，结合所述文本序列和单一语音数据，确定每句所述文本内容所属的说话人，得到语音识别结果，包括：遍历所述文本序列，根据遍历到的所述文本对应的开始时间和结束时间，计算对应时间段内的所有单一语音数据的第二音频能量特征；确定所述第二音频能量特征最大的单一语音数据；将该文本与该单一语音数据对应的说话人匹配，得到语音识别结果。

9、可选地，在根据本专利技术的混合语音识别方法中，所述第二音频能量特征为平均音频能量。

10、可选地，在根据本专利技术的混合语音识别方法中，所述混合语音数据为单通道混合语音数据。

11、根据本专利技术的一个方面，提供了一种混合语音识别方法，适于在计算设备中执行，其中，所述方法包括：获取混合语音数据，所述混合语音数据包含客服和客户的语音数据；对所述混合语音数据进行语音识别，得到文本序列，所述文本序列包含多句文本；对所述混合语音数据通过语音分离算法进行语音分离，得到两个单一语音数据；确定每个所述单一语音数据对应的说话人为客服或客户；结合所述文本序列和单一语音数据，确定每句所述文本内容所属的说话人为客服或客户，得到语音识别结果。

12、根据本专利技术的一个方面，提供一种计算设备，包括：至少一个处理器；以及存储器，存储有程序指令，其中，程序指令被配置为适于由至少一个处理器执行，程序指令包括用于执行根据本专利技术的混合语音识别方法的指令。

13、根据本专利技术的一个方面，提供一种存储有程序指令的可读存储介质，当程序指令被计算设备读取并执行时，使得计算设备执行根据本专利技术的混合语音识别方法。

14、根据本专利技术的一种混合语音识别方案，先后对混合语音数据进行语音识别和语音分离，分别得到文本序列和单一语音数据；确定每个所述单一语音数据对应的说话人后，再结合文本序列和单一语音数据确定文本序列中每句文本所属的说话人，得到语音识别结果。这样，根据本专利技术的技术方案，先对单通道混合语音进行文本识别，再将单通道混合语音进行语音分离，避免了因语音分离算法重新音频信号，导致后进行语音文本识别过程信息丢失的问题，保证了原始语音内容的完整性以及语音识别的准确性，同时，由于先进行语音的文本识别，可以保留音频的上下文关系，改善了因缺少音频上下文联系导致的识别率低的问题。

15、上述说明仅是本专利技术技术方案的概述，为了能够更清楚了解本专利技术的技术手段，而可依照说明书的内容予以实施，并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本专利技术的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种混合语音识别方法，适于在计算设备中执行，其中，所述方法包括：

2.如权利要求1所述的混合语音识别方法，其中，所述文本序列为带有时间戳的文本序列。

3.如权利要求1或2所述的混合语音识别方法，其中，所述对所述混合语音数据进行语音识别，得到文本序列，所述文本序列包含多句文本，包括：

4.如权利要求1或2所述的混合语音识别方法，其中，所述语音分离算法为全卷积时域音频分离网络。

5.如权利要求1-4中任一项所述的混合语音识别方法，其中，确定每个所述单一语音数据对应的说话人，包括：

6.如权利要求5所述的混合语音识别方法，其中，所述第一音频能量特征为平均音频能量，基于所述第一音频能量特征确定每个所述单一语音数据对应的说话人，包括：

7.如权利要求1-5中任一项所述的混合语音识别方法，其中，结合所述文本序列和单一语音数据，确定每句所述文本内容所属的说话人，得到语音识别结果，包括：

8.一种混合语音识别方法，适于在计算设备中执行，其中，所述方法包括：

9.一种计算设备，包括：

...

【技术特征摘要】

1.一种混合语音识别方法，适于在计算设备中执行，其中，所述方法包括：

2.如权利要求1所述的混合语音识别方法，其中，所述文本序列为带有时间戳的文本序列。

3.如权利要求1或2所述的混合语音识别方法，其中，所述对所述混合语音数据进行语音识别，得到文本序列，所述文本序列包含多句文本，包括：

4.如权利要求1或2所述的混合语音识别方法，其中，所述语音分离算法为全卷积时域音频分离网络。

5.如权利要求1-4中任一项所述的混合语音识别方法，其中，确定每个所述单一语音数据对应的说话人，包括：

6.如权利要求5...

【专利技术属性】
技术研发人员：黄萧，李林，徐丞申，刘荣，
申请(专利权)人：天津车之家软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人