一种哼唱识别方法及相关设备技术

技术编号：26531100 阅读：78 留言：0更新日期：2020-12-01 14:11

本申请公开了一种哼唱识别方法及相关设备，在哼唱识别的方法中，电子设备可以持续获取外部环境中的声音，在判定该声音为预设用户发出的声音时，该电子设备向音乐识别服务器发送包含该声音的第一音频文件，以进行哼唱识别。在电子设备接收了音乐识别服务器发送的，识别出的第二音频文件以及它的起始播放位置之后，能够从该声音的结束位置开始播放该第二音频文件。其中，该第二音频文件的起始播放位置与第一音频文件的结束位置相对应。通过这种方式，可以减少用户触发终端进行哼唱识别的操作步骤，提升哼唱识别的效率，同时，可以实现跟随用户的哼唱播放音频的效果，提升用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种哼唱识别方法及相关设备
本申请涉及计算机
，尤其涉及一种哼唱识别方法及相关设备。
技术介绍
哼唱识别是目前音频检索领域的研究热点。不同于利用文本(例如，歌曲名、演唱者或者歌词等文本)来检索音频的方式，也不同于利用一段正在播放的音乐来检索音频的方式，哼唱识别可以通过用户哼唱的音乐片段来检索音频。现阶段，用户触发终端进行哼唱识别的方式主要有以下两种：第一种方式，用户首先需要查找具有哼唱识别功能的应用程序，再在该应用程序中查找哼唱识别对应的功能控件，之后对该功能控件执行操作，以触发终端进行哼唱识别。第二种方式，用户首先需要通过唤醒词唤醒智能语音助手(例如，siri，天猫精灵等)，再输入语音指令以触发终端进行哼唱识别。可以看出，现有技术中，用户触发终端进行哼唱识别的方式较为繁琐。
技术实现思路
本申请提供了一种哼唱识别方法及相关设备，可以减少用户触发终端进行哼唱识别的操作步骤，提升哼唱识别的效率，同时，可以实现跟随用户的哼唱播放音频的效果，提升用户体验。上述目标和其他目标将通过独立权利要...

【技术保护点】
1.一种哼唱识别方法，其特征在于，包括：/n电子设备通过音频输入模块采集外部环境中的声音；/n若所述电子设备判定所述声音的声纹信息与预存的声纹信息一致，则所述电子设备向音乐识别服务器发送第一音频文件，所述第一音频文件中包含所述声音，所述音乐识别服务器用于根据所述第一音频文件从音频资源库中查找出第二音频文件，以及确定所述第二音频文件的起始播放位置；其中，所述第二音频文件的特征与所述第一音频文件的特征的相似度，高于第三音频文件的特征与所述声音的特征的相似度，所述第三音频文件为上述音频资源库中除所述第二音频文件的音频文件，所述第二音频文件的起始播放位置与所述第一音频文件的结束位置相对应；/n所述电子...

【技术特征摘要】
1.一种哼唱识别方法，其特征在于，包括：
电子设备通过音频输入模块采集外部环境中的声音；
若所述电子设备判定所述声音的声纹信息与预存的声纹信息一致，则所述电子设备向音乐识别服务器发送第一音频文件，所述第一音频文件中包含所述声音，所述音乐识别服务器用于根据所述第一音频文件从音频资源库中查找出第二音频文件，以及确定所述第二音频文件的起始播放位置；其中，所述第二音频文件的特征与所述第一音频文件的特征的相似度，高于第三音频文件的特征与所述声音的特征的相似度，所述第三音频文件为上述音频资源库中除所述第二音频文件的音频文件，所述第二音频文件的起始播放位置与所述第一音频文件的结束位置相对应；
所述电子设备接收所述音乐识别服务器发送的所述第二音频文件以及第一指示信息，所述第一指示信息指示所述第二音频文件的起始播放位置；
所述电子设备通过音频输出模块从所述起始播放位置播放所述第二音频文件。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
所述电子设备通过摄像头获取用户的口型信息；
若所述声音的声纹信息与预存的声纹信息一致，则所述电子设备向音乐识别服务器发送所述口型信息；
其中，所述音乐识别服务器还用于将所述口型信息转化为文本信息，所述根据所述第一音频文件从音频资源库中查找出第二音频文件，包括：
根据所述第一音频文件和所述口型信息对应的文本信息从音频资源库中查找出第二音频文件，其中，所述第二音频文件对应的文本信息与所述口型信息对应的文本信息的相似度，高于所述第三音频文件对应的文本信息与所述口型信息对应的文本信息的相似度。

3.根据权利要求2所述的方法，其特征在于，所述电子设备通过摄像头获取用户的口型信息，包括：
若所述电子设备判定所述声音为人声，则通过摄像头获取用户的口型信息。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述电子设备通过音频输入模块采集外部环境中的声音，包括：
若所述电子设备判定所述音频输入模块和/或所述音频输出模块未被占用，则所述电子设备通过所述音频输入模块采集外部环境中的声音。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述第二音频文件的标签包含于第一用户的用户标签。

6.根据权利要求1-5中任一项所述的方法，其特征在于，在所述电子设备通过音频输出模块从所述起始播放位置播放所述第二音频文件之后，所述方法还包括：
所述电子设备显示第二音频文件的标识信息，以及播放控件；
其中，所述播放控件的显示状态为第一状态，所述第一状态表示所述第二音频文件正在被播放；
若所述电子设备检测到作用于处于所述第一状态的所述播放控件的第一用户操作，响应于所述第一用户操作，所述电子设备暂停播放所述第二音频文件，并将所述播放控件的显示状态设为第二状态，所述第二状态表示所述第二音频文件暂停播放。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：
当检测到所述电子设备处于锁定状态时，所述电子设备停止通过所述音频输入模块采集外部环境中的声音。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：
当检测到所述电子设备处于预设地点时，所述电子设备停止通过所述音频输入模块采集外部环境中的声音。

9.根据权利要求1-7任一项所述的方法，其特征在于，所述电子设备通过音频输出模块从所述起始播放位置播放所述第二音频文件，包括：
若所述电子设备判定所述电子设备的位置与预设地点不一致，则所述电子设备通过所述音频输出模块从所述起始播放位置播放所述第二音频文件。

10.根据权利要求1-9任一项所述的方法，其特征在于，所述方法还包括：
所述电子设备在第一时间段内停止通过所述音频输入模块采集外部环境中的声音。

11.一种电子设备，其特征在于，包括音频输入模块，音频输出模块，处理器，存储器，其中：
所述存储器用于存储程序指令；
所述处理器用于根据所述程序指令执行以下操作：
通过音频输入模块采集外部环境中的声音；
若判定所述声音的声纹信息与预存的声纹信息一致，则向音乐识别服务器发送第一音频文件，所述第一音频文件中包含所述声音，所述音乐识别服务器用于根据所述第一音频文件从音频资源库中查找出第二音频文件，以及确定第二音频文件的起始播放位置；其中，所述第二音频文件的特征与所述第一音频文件的特征的相似度，高于第三音频文件的特征与所述声音的特征的相似度，所述第三音频文件为上述音频资源库中除所述第二音频文件的音频文件，所述第二音频文件的起始播放位置与所述第一音频文件的结束位置相对应；
接收所述音乐识别服务器发送的所述第二音频文件以及第一指示信息，所述第一指示信息指示所述第二音频文件的起始播放位置；
通过音频输出模块从所述起始播放位置播放所述第二音频文件。

12.根据权利要求11所述的电子设备，其特征在于，所述电子设备还包括摄像头，所述处理器还用于根据所述程序指令执行以下操作：
通过摄像头获取用户的口型信息；
若所述声音的声纹信息与预存的声纹信息一致，则向音乐识别服务器发送所述口型信息；
其中，所述音乐识别服务器还用于将所述口型信息转化为文本信息；
所述音乐识别服务器还具体用于：根据所述第一音频文件和所述口型信息对应的文本信息从音频资源库中查找出第二音频文件，其中，所述第二音频文件对应的文本信息与所述口型信息对应的文本信息的相似度，高于所述第三音频文件对应的文本信息与所述口型信息对应的文本信息的相似度。

13.根据权利要求12所述的电子设备，其特征在于，所述处理器具体用于根据所述程序指令执行以下操作：
若判定所述声音为人声，则通过摄像头获取用户的口型信息。

14.根据权利要求11-13任一项所述的电子设备，其特征在于，所述处理器具体用于根据所述程序指令执行以下操作：
若判定所述音频输入模块和/或音频输出模块未被占用，则通过...

【专利技术属性】
技术研发人员：叶波，吴小进，周昕宇，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人