音频处理方法和装置制造方法及图纸

技术编号：26973662 阅读：34 留言：0更新日期：2021-01-06 00:07

本申请提供了一种音频处理方法和装置，该方法包括：获得待处理的目标音频以及待识别用户的基准音频；基于目标音频中具有的音频间隔端点，将目标音频划分为至少一个音频段；针对每个音频段，将音频段切分为多个第一音频切片，从多个第一音频切片中确定出第一参照音频切片，并基于第一参照音频切片确定出多个第一音频切片中的第一主音频切片集；基于音频段对应的第一主音频切片集的音频特征以及基准音频的音频特征，从至少一个音频段中确定出属于待识别用户的音频段。本申请的方案可以提高从音频中识别属于特定用户的音频段的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法和装置
本申请涉及语音识别
，更具体的说是涉及一种音频处理方法和装置。
技术介绍
在音频识别场景中，经常需要识别一段音频中属于某个用户的音频部分。如，为了分析客服人员的服务质量等，可能需要从客服电话录音中，识别出属于客服人员的音频，以便对客服人员的音频进行相应的分析。其中，在需要从一段音频中识别出属于某个用户的音频时，会获得用户已有的音频作为基准音频，并基于该基准音频从该段音频中识别出属于该用户的音频部分。然而，在实际应用场景中，待分析的一段音频中音频信息会较为复杂，如可能会由于受到环境等因素影响导致该段音频中包含有噪声，因此，即使是已知用户的音频，也无法较为准确的从一段音频中提取出该用户的音频部分，使得音频识别的效果较差。
技术实现思路
有鉴于此，本申请提供了一种音频处理方法和装置，以提高从音频中识别属于特定用户的音频段的准确度。为实现上述目的，本申请提供如下技术方案：一种音频处理方法，其特征在于，包括：获得待处理的目标音频以及待识别用户的基准音频；基于...

【技术保护点】
1.一种音频处理方法，其特征在于，包括：/n获得待处理的目标音频以及待识别用户的基准音频；/n基于所述目标音频中具有的音频间隔端点，将所述目标音频划分为至少一个音频段；/n针对每个所述音频段，将所述音频段切分为多个第一音频切片，从所述多个第一音频切片中确定出第一参照音频切片，并基于所述第一参照音频切片确定出所述多个第一音频切片中的第一主音频切片集，所述第一参照音频切片为所述多个第一音频切片中与其他第一音频切片的特征相似程度最高的第一音频切片，所述第一主音频切片集包括所述多个第一音频切片中与所述第一参照音频切片的特征相似的第一音频切片；/n基于所述音频段对应的第一主音频切片集的音频特征以及所述基...

【技术特征摘要】
1.一种音频处理方法，其特征在于，包括：
获得待处理的目标音频以及待识别用户的基准音频；
基于所述目标音频中具有的音频间隔端点，将所述目标音频划分为至少一个音频段；
针对每个所述音频段，将所述音频段切分为多个第一音频切片，从所述多个第一音频切片中确定出第一参照音频切片，并基于所述第一参照音频切片确定出所述多个第一音频切片中的第一主音频切片集，所述第一参照音频切片为所述多个第一音频切片中与其他第一音频切片的特征相似程度最高的第一音频切片，所述第一主音频切片集包括所述多个第一音频切片中与所述第一参照音频切片的特征相似的第一音频切片；
基于所述音频段对应的第一主音频切片集的音频特征以及所述基准音频的音频特征，从所述至少一个音频段中确定出属于所述待识别用户的音频段。

2.根据权利要求1所述的方法，其特征在于，在所述从所述至少一个音频段中确定出属于所述待识别用户的音频段之前，还包括：
将所述基准音频切分为多个第二音频切片，从所述多个第二音频切片中确定出第二参照音频切片，并基于所述第二参照音频切片确定出所述多个第二音频切片中的第二主音频切片集，所述第二参照音频切片为所述多个第二音频切片中与其他第二音频切片的特征相似程度最高的第二音频切片，所述第二主音频切片集包括所述多个第二音频切片中与所述第二参照音频切片的特征相似的第二音频切片；
将所述基准音频对应的第二主音频切片集的音频特征确定为基准音频的音频特征。

3.根据权利要求1所述的方法，其特征在于，所述从所述多个第一音频切片中确定出第一参照音频切片，包括：
针对每个第一音频切片，确定所述多个第一音频切片中与所述第一音频切片的特征相似的音频切片的切片总数量；
将所述多个第一音频切片中对应的切片总数量最大的第一音频切片确定为第一参照音频切片。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一参照音频切片确定出所述多个第一音频切片中的第一主音频切片集，包括：
将所述多个第一音频切片中与所述第一参照音频切片的特征相似的第一音频切片划分到第一音频切片集，并将所述多个第一音频切片中与所述第一参照音频切片的特征不相似的第一音频切片划分到第二音频切片集；
对所述第一音频切片集和第二音频切片集执行如下切片集调整操作：
针对所述第一音频切片集中的第一音频切片，如所述第一音频切片与第一音频切片集中各第一音频切片的第一特征相似程度低于所述第一音频切片与第二音频切片集中各第一音频切片的第二特征相似程度，则将所述第一音频切片从所述第一音频切片集转移到所述第二音频切片集；
针对所述第二音频切片集中的第一音频切片，如所述第一音频切片与第二音频切片集中各第一音频切片的第三特征相似程度低于所述第一音频切片与第一音频切片集中各第一音频切片的第四特征相似程度，则将所述第一音频切片从所述第二音频切片集转移到所述第一音频切片集；
在针对第一音频切片集和第二音频切片集执行所述切片集调整操作后，如满足设定的切片调整结束条件，将当前得到的第一音频切片集和第二音频切片集中包含第一音频切片数量较多的音频切片集确定主音频切片集。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述将所述音频段切分为多个第一音频切片，包括：
基于设定的切分窗口以及所述切分窗口的移动步长，将所述音频段切分为存在音频重叠的多个第一音频切片，其中，所述切分窗口的移动步长小于所述切分窗口的窗口宽度。

6.根据权利要求1或2所述的方法，其特征在于，所述基于所述音频段对应的第一主音频切片集的音频特征以及所述基准音频的音频特征，从所述至少一个音频段中确定出属于所述待识别用户的音频段，包括：
基于所述音频段对应的第一主音频切片集的音频特征以及所述基准音频的音频特征，将所述至少一个音频段划分为第一音频段集和第二音频段集，其中，第一音频段集包括第一主音频切片集的音频特征与所述基准音频的音频特征之间的特征相似性大于相似度阈值的音频段，所述第二音频段集包括：第一主音频切片集的音频特征与所述基准音频的音频特征之间的特征相似性不大于所述相似度阈值的音频段；
对所述第一音频段集和第二音频段集执行如下音频段集调整操作：
针对所述第一音频段集中的音频段，如所述音频段与第一音频段集的特征相似程度低于所述音频段与第二音频段集的特征相似程度，则将所述音频段从所述第一音频段集转移到所述第二音频段集；
针对所述第二音频段集中的音频段，如所述音频段与第二音频段集的特征相似程度低于所述音频段与第一音频段集的特征相似程度，则将所述音频段从所述第二音频段集转移到所述第一音频段集；
其中，音频段与所述第一音频段集和第二音频段集中任意一个音频段集的特征相似程度为所述音频段的第一主音频切片集与所述音频段集中各音频段的第一主音频切片集之间的音频特征的特征相似程度；
在针对第一音频段集和第二音频段集执行所述音频段集调整操作后，如满足设定的音频...

【专利技术属性】
技术研发人员：马达标，张雅琴，
申请(专利权)人：上海优扬新媒信息技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人