音频检测方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：24582690 阅读：53 留言：0更新日期：2020-06-21 01:20

本申请涉及信息处理技术领域，公开了一种音频检测方法、装置、电子设备和可读存储介质，音频检测方法包括：接收终端发送的待检测的音频以及与音频对应的文本；将音频与文本进行对齐处理，得到音频中与文本对应的多个音素的每一音素的起止时间；提取音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取音频的音频序列特征；基于音素特征向量和音频序列特征，获取音频的韵律检测结果；韵律检测结果包括音频的重音特征和停顿特征；将韵律检测结果返回至终端，以使终端显示对应标记出重音特征和停顿特征的文本。本申请提供的音频检测方法可以提高韵律检测结果的准确性。

Audio detection method, device, electronic equipment and readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
音频检测方法、装置、电子设备及可读存储介质
本申请涉及语音
，具体而言，本申请涉及一种音频检测方法、装置、电子设备及可读存储介质。
技术介绍
人工智能(ArtificialIntelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。语音韵律检测是人工智能技术的一个重要应用领域，其主要用于对用户的语音数据进行韵律检测，通过检测出语音数据中出现的错误韵律，从而给用户提供实时的反馈与纠正，以帮助用户提高语言水平。目前的音频检测方式，通常是对音频中的重音或停顿分别进行检测，没有考虑重音与停顿之间的相互影响，得到的韵律检测结果准确率不够高。
技术实现思路
本申请的目的旨在至少能解决上述的技术缺陷之一，特提出以下技术方案：第一方面，提供了一种音频检测方法，包括：接收终端发送的待检测的音频以及与音频对应的文本；将音频与文本进行对齐处理，得到音频中与文本对应的多个音素的每一音素的起止时间；提取音频中的...

【技术保护点】
1.一种音频检测方法，其特征在于，包括：/n接收终端发送的待检测的音频以及与所述音频对应的文本；/n将所述音频与所述文本进行对齐处理，得到所述音频中与所述文本对应的多个音素的每一音素的起止时间；/n提取所述音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取所述音频的音频序列特征；/n基于所述音素特征向量和所述音频序列特征，获取所述音频的韵律检测结果；所述韵律检测结果包括所述音频的重音特征和停顿特征；/n将所述韵律检测结果返回至所述终端，以使所述终端显示对应标记出所述重音特征和所述停顿特征的所述文本。/n

【技术特征摘要】
1.一种音频检测方法，其特征在于，包括：
接收终端发送的待检测的音频以及与所述音频对应的文本；
将所述音频与所述文本进行对齐处理，得到所述音频中与所述文本对应的多个音素的每一音素的起止时间；
提取所述音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取所述音频的音频序列特征；
基于所述音素特征向量和所述音频序列特征，获取所述音频的韵律检测结果；所述韵律检测结果包括所述音频的重音特征和停顿特征；
将所述韵律检测结果返回至所述终端，以使所述终端显示对应标记出所述重音特征和所述停顿特征的所述文本。

2.根据权利要求1所述的音频检测方法，其特征在于，所述音频序列特征包括所述音频中的每一音素的序列特征、每一音节的序列特征以及每一词语的序列特征；所述序列特征包括音高、音强和发音时长；
所述基于每一音素的起止时间获取所述音频的音频序列特征，包括：
以预设时长为一帧，获取所述音频中每一帧音频的音高和音强；
基于所述音频中每一帧音频的音高和音强，确定所述音频的音高和音强；
基于每一音素的起止时间以及所述音频的音高和音强，分别确定所述音频中的每一音素的音高、音强和发音时长，每一音节的音高、音强和发音时长以及每一词语的音高、音强和发音时长。

3.根据权利要求2所述的音频检测方法，其特征在于，所述获取所述音频中每一帧音频的音高和音强，包括：
获取所述音频中每一帧音频的原始音高和原始音强；
对所述原始音高和原始音强进行归一化，得到每一帧音频的音高和音强。

4.根据权利要求2所述的音频检测方法，其特征在于，所述基于所述音素特征向量和所述音频序列特征，获取所述音频的韵律检测结果，包括：
针对所述音频中的每一音素，将该音素的音素特征向量和该音素的序列特征进行拼接，得到每一音素的音素层特征；
基于每一音素的音素层特征，获取所述音频中每一音节的音节特征向量；
针对所述音频中的每一音节，将该音节的音节特征向量和该音节的序列特征进行拼接，得到音节层特征；
基于每一音节的音节层特征，获取所述音频中的重音特征和所述音频中每一词语的词语特征向量；
针对所述音频中的每一词语，将该词语的词语特征向量和该词语的序列特征进行拼接，得到每一词语的词语层特征；
基于每一词语的词语层...

【专利技术属性】
技术研发人员：林炳怀，王丽园，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人