自动识别音频中不同人声的方法技术

技术编号：24617175 阅读：413 留言：0更新日期：2020-06-24 03:12

本申请提供的自动识别音频中不同人声的方法，涉及通信技术领域，可以自动识别出音频中不同人声，有利于提升用户体验。该方法具体包括：终端在第一界面检测到第一操作，响应于检测到的第一操作，终端自动识别第一文件中的音频内容所属人声；终端显示第二界面，第一文件中的音频内容所述的不同人声在第二界面中具有不同的标记。

Automatic recognition of different voices in audio

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】自动识别音频中不同人声的方法
本申请涉及通信
，尤其涉及一种终端中音频处理的方法及终端。
技术介绍
一般而言，用户通常会用到手机的“录音机”应用程序，去录制重要的谈话、会议或者通话等，形成录音文件。之后，用户可以重复播放录音文件，以便对其中的重要内容进行收听，避免遗漏关键信息。目前，“录音机”应用程序可以根据时间，对录音文件进行截取。如图1所示，为终端中录音文件(“新录音2”)的播放界面101。在该界面，用户点击编辑按钮102后，终端显示录音文件的编辑界面103。在该界面上，用户可以通过拖动104和105对录音文件按照时间进行截取部分录音内容。现有技术中终端对录音文件的编辑方式过于单一，不能满足用户对不同场景下对录音文件的处理需求，影响用户体验。
技术实现思路
本申请提供的一种终端中音频处理的方法及终端，可以自动提取音频中不同人声的音频，有利于提升用户体验。第一方面，本申请提供的方法，包括：终端在第一界面上检测到第一操作；响应于第一操作，终端自动识别第一文件中的音频内容所属的不同人声，第一文件为包含音频的文件；终端显示第二界面；其中，第一文件中音频内容所属的不同人声在第二界面中具有不同的标记。其中，第一文件为包含音频的文件，可以是纯音频文件，也可以是视频文件或者3D影像文件或者全息影像文件等。示例的，可以利用该麦克风阵列对第一文件中不同声音的声源进行定位。换言之，对于使用麦克风阵列录音的第一文件，可以用对应的算法识别出该第一文件中的声音在录制时对应的声源。在通常的录音...

【技术保护点】
一种终端中音频处理的方法，其特征在于，所述方法包括：/n终端在第一界面上检测到第一操作；/n响应于所述第一操作，所述终端自动识别第一文件中的音频内容所属的不同人声，所述第一文件为包含音频的文件；/n所述终端显示第二界面；其中，所述第一文件中音频内容所属的不同人声在所述第二界面中具有不同的标记。/n

【技术特征摘要】
【国外来华专利技术】一种终端中音频处理的方法，其特征在于，所述方法包括：
终端在第一界面上检测到第一操作；
响应于所述第一操作，所述终端自动识别第一文件中的音频内容所属的不同人声，所述第一文件为包含音频的文件；
所述终端显示第二界面；其中，所述第一文件中音频内容所属的不同人声在所述第二界面中具有不同的标记。

根据权利要求1所述的方法，其特征在于，所述终端在第一界面上检测到第一操作具体为：
所述终端在所述第一文件的播放界面或编辑界面上检测到点击自动识别人声的功能按钮的操作，或者选择自动识别人声的菜单选项的操作。

根据权利要求1所述的方法，其特征在于，所述终端在第一界面上检测到第一操作具体为：
在所述终端开启自动识别人声的功能时，所述终端在音频应用的界面上检测到打开所述第一文件的操作。

根据权利要求3所述的方法，其特征在于，在所述终端在音频应用的界面上检测到打开所述第一文件的操作之前，所述方法还包括：
在所述终端的系统设置的界面上检测到打开所述终端的自动识别人声的功能的操作；
或者，在所述音频应用的设置界面上检测到打开所述音频应用的自动识别人声的功能的操作。

根据权利要求1所述的方法，其特征在于，所述终端在第一界面上检测到第一操作具体为：
所述终端在录音应用的界面上检测到用户输入的录音指令；所述第一文件为所述录音应用在录音时生成的文件；所述第二界面为所述录音应用在录音过程中，或录音完成后显示的界面。

根据权利要求1-5任一项所述的方法，其特征在于，所述第一文件中音频内容所属的不同人声在所述第二界面中具有不同的标记包括：
所述第一文件中音频内容所属的不同人声所对应的时间轴具有不同的标记。

根据权利要求6所述的方法，其特征在于，所述第一文件中音频内容所属的不同人声所对应的时间轴具有不同的标记包括：
所述第一文件中音频内容所属的不同人声所对应的时间轴具有不同颜色的标记。

根据权利要求6所述的方法，其特征在于，所述第一文件中音频内容所属的不同人声所对应的时间轴具有不同的标记包括：
所述第一文件中音频内容所属的不同人声所对应的时间轴具有不同头像的标记。

根据权利要求1-8任一项所述的方法，其特征在于，在所述终端自动识别第一文件中音频内容所属的不同人声之后，所述方法还包括：
所述终端检测到第二操作；
响应于所述第二操作，所述终端生成第二文件，所述第二文件包含所述第一文件中预设的一个人声的全部音频内容；
所述终端显示第三界面，所述第三界面显示有所述第二文件。

根据要求要求9所述的方法，其特征在于，所述第三界面为所述第二文件的播放界面或编辑界面。

一种终端，其特征在于，包括：
检测单元，用于在第一界面上检测到第一操作；
处理单元，用于响应于所述第一操作，自动识别第一文件中的音频内容所属的不同人声，所述第一文件为包含音频的文件；
显示...

【专利技术属性】
技术研发人员：武晓芳，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人