一种音频识别方法、电子设备及存储介质技术

技术编号：40592728 阅读：13 留言：0更新日期：2024-03-12 21:54

本申请公开一种音频识别方法、电子设备及存储介质，包括：对待识别音频进行文本识别，得到待识别文本；计算预设数据库中的文本与待识别文本之间的文本相似度，将满足文本相似度阈值条件的所述数据库中的多个文本确定为目标文本集，并将目标文本集中多个文本对应的多个音频确定为目标音频集；将待识别音频和目标音频集进行旋律检测，得到待识别音频与目标音频集中各音频之间的旋律相似度；分别将对应同一目标文本的文本相似度及旋律相似度进行融合相似度处理，得到多个目标相似度，并召回大于融合相似度阈值的目标相似度对应的目标音频。本申请结合文本相似度识别和旋律相似度识别，有效避免因噪声引起的误召回，提高音频识别召回的精确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音频数据处理领域，具体涉及一种音频识别方法、电子设备及存储介质。

技术介绍

1、歌声识别有很广泛的应用场景，例如歌曲信息检索，无需完全准确地识别歌词，只需根据匹配度就可以确定某段音频中识别出来的歌词属于哪一首歌曲。特别是在听歌识曲中，尽管歌声识别无法完全准确地识别用户录音的歌词内容，但将大致的识别结果和检索库内的歌词进行匹配，也可以识别到歌曲。

2、歌声识别技术和语音识别技术相似，不同之处在于歌词没有固定的声调、歌词文本会比日常说话文本更加复杂、歌声会因演唱风格的多样性而出现不同程度的拖音、字内变调等且歌声往往混合在伴奏中。

3、现有的歌声识别技术是直接识别待匹配音频的歌词以进行匹配，在待匹配音频对应的歌词文本过短时，容易导致误召回。如果长片段的音频可以识别出更多歌词信息，错误匹配的概率则更低，而音频清晰可以保证识别出来的结果更加稳定可靠。但在实际应用中，例如听歌识曲场景，用户等待的时间往往在15秒以内，且录音环境可能包含复杂的噪声。此种场景下，仅依靠歌词识别进行检索并不可靠，容易因为噪声、无关人声等导...

【技术保护点】

1.一种音频识别方法，其特征在于，所述音频识别方法包括：

2.根据权利要求1所述的音频识别方法，其特征在于，构建所述预设数据库的步骤，包括：

3.根据权利要求2所述的音频识别方法，其特征在于，包括：

4.根据权利要求1所述的音频识别方法，其特征在于，构建所述预设数据库的步骤，包括：

5.根据权利要求2至4中任一项所述的音频识别方法，其特征在于，构建所述预设数据库的步骤，还包括：

6.根据权利要求1所述的音频识别方法，其特征在于，计算预设数据库中的各文本与所述待识别文本之间的文本相似度的步骤，包括：