自动识别音频中不同人声的方法技术

技术编号:24617175 阅读:413 留言:0更新日期:2020-06-24 03:12
本申请提供的自动识别音频中不同人声的方法,涉及通信技术领域,可以自动识别出音频中不同人声,有利于提升用户体验。该方法具体包括:终端在第一界面检测到第一操作,响应于检测到的第一操作,终端自动识别第一文件中的音频内容所属人声;终端显示第二界面,第一文件中的音频内容所述的不同人声在第二界面中具有不同的标记。

Automatic recognition of different voices in audio

【技术实现步骤摘要】
【国外来华专利技术】自动识别音频中不同人声的方法
本申请涉及通信
,尤其涉及一种终端中音频处理的方法及终端。
技术介绍
一般而言,用户通常会用到手机的“录音机”应用程序,去录制重要的谈话、会议或者通话等,形成录音文件。之后,用户可以重复播放录音文件,以便对其中的重要内容进行收听,避免遗漏关键信息。目前,“录音机”应用程序可以根据时间,对录音文件进行截取。如图1所示,为终端中录音文件(“新录音2”)的播放界面101。在该界面,用户点击编辑按钮102后,终端显示录音文件的编辑界面103。在该界面上,用户可以通过拖动104和105对录音文件按照时间进行截取部分录音内容。现有技术中终端对录音文件的编辑方式过于单一,不能满足用户对不同场景下对录音文件的处理需求,影响用户体验。
技术实现思路
本申请提供的一种终端中音频处理的方法及终端,可以自动提取音频中不同人声的音频,有利于提升用户体验。第一方面,本申请提供的方法,包括:终端在第一界面上检测到第一操作;响应于第一操作,终端自动识别第一文件中的音频内容所属的不同人声,第一文件为包含音频的文件;终端显示第二界面;其中,第一文件中音频内容所属的不同人声在第二界面中具有不同的标记。其中,第一文件为包含音频的文件,可以是纯音频文件,也可以是视频文件或者3D影像文件或者全息影像文件等。示例的,可以利用该麦克风阵列对第一文件中不同声音的声源进行定位。换言之,对于使用麦克风阵列录音的第一文件,可以用对应的算法识别出该第一文件中的声音在录制时对应的声源。在通常的录音场合,发声的人相对于录音设备的位置是相对固定的,故不同的声源对应的声音就对应不同的人。对于第一文件来说,在终端可以定位出第一文件中各个声源的位置,可以确定该录音文件中包含有几个人的声音。然后,可以再结合声纹识别技术,确定出各个人对应的音频内容。由此可见,本申请实施例提供的方法,对于包含音频的第一文件,终端可以自动识别出第一文件中不同人的声音,并将不同人对应的音频内容分别标识出。这样,用户可以快速得定位到特定人的音频位置,提升了用户的工作效率,提升了用户体验。一种可能的设计中,终端在第一界面上检测到第一操作具体为:终端在第一文件的播放界面或编辑界面上检测到点击自动识别人声的功能按钮的操作,或者选择自动识别人声的菜单选项的操作。一些示例中,第一界面可以为终端中音频应用中第一文件的播放界面或编辑界面(例如:图3E所示的界面),该界面上包含有“自动识别人声”的功能按钮或菜单选项,那么,第一操作为用户点击该功能按钮或选择该菜单选项的操作。其中,音频应用是指可以处理包括音频的文件的应用。一种可能的设计中,所述终端在第一界面上检测到第一操作具体为:在终端开启自动识别人声的功能时,终端在音频应用的界面上检测到打开所述第一文件的操作。此时,第一界面为音频应用的播放列表界面、或第一文件的播放界面或编辑界面等。一种可能的设计中,在终端在音频应用的界面上检测到打开所述第一文件的操作之前,所述方法还包括:在终端的系统设置的界面上检测到打开终端的自动识别人声的功能的操作;或者,在音频应用的设置界面上检测到打开音频应用的自动识别人声的功能的操作。一些示例中,用户可以预先通过终端操作系统的系统设置界面,或者,终端默认开启终端的“自动识别人声”的功能。那么,终端在检测到与音频相关的应用(例如:音频应用、录音应用等)有处理音频的操作时,可以对包含音频的文件进行自动识别人声。一些示例中,用户可以预先通过某类应用(例如音视频类应用)或者某个应用(例如:“录音机”应用)的设置界面,或者,终端默认开启某类应用或某个应用的“自动识别人声”的功能。那么,终端在检测到该类应用或该应用有处理音频的操作时,可以对包含音频的文件进行自动识别人声。一种可能的设计中,终端在第一界面上检测到第一操作具体为:终端在录音应用的界面上检测到用户输入的录音指令;第一文件为录音应用在录音时生成的文件;第二界面为录音应用在录音过程中,或录音完成后显示的界面。例如:第一操作也可以是用户通过录音应用进行录音的操作。此时,第一文件是录音应用实时录制时生成的文件。其中,音频应用是指可以处理包括音频的文件的应用。录音应用为可以录制包括音频的文件的应用。一种可能的设计中,第一文件中音频内容所属的不同人声在第二界面中具有不同的标记包括:第一文件中音频内容所属的不同人声所对应的时间轴具有不同的标记。一种可能的设计中,第一文件中音频内容所属的不同人声所对应的时间轴具有不同的标记包括:第一文件中音频内容所属的不同人声所对应的时间轴具有不同颜色的标记。一种可能的设计中,第一文件中音频内容所属的不同人声所对应的时间轴具有不同的标记包括:第一文件中音频内容所属的不同人声所对应的时间轴具有不同头像的标记。示例的,终端在显示第二界面时,可以接收用户的选择,播放用户选择的某个人的完整音频。其中,某个人完整音频为第一文件中包含该人声音的全部音频,包括与其他人的声音重合的部分。也可以按照第一文件中不同人的声音出现的顺序自动播放每个人的完整音频。本申请实施例对此不做限定。一种可能的设计中,在终端自动识别第一文件中音频内容所属的不同人声之后,所述方法还包括:终端检测到第二操作;响应于第二操作,终端生成第二文件,第二文件包含第一文件中预设的一个人声的全部音频内容;终端显示第三界面,第三界面显示有第二文件。其中,第二操作为用户选择“生成个人录音文件”的操作。示例性的,第二操作例如可以是在第一文件的播放界面或编辑界面,用户点击“生成个人录音文件”的功能按钮或选择菜单选项的操作。需要说明的是,在剪辑过程中,对于第一文件中有多个人的声音重合部分的音频的处理,一些示例中,可以是终端直接将该重合部分的音频,和每个人独立说话的音频剪辑在一起。在播放时,用户可以通过人耳识别自己需要收听的那个声音。也就是说,第二文件中包含第一文件中一个人的全部音频内容外,可能还包含另一个人的部分音频。例如:在图3K所示的播放界面中,终端在播放308部分的录音时,该部分的音频中即包括有A的声音,又包括B的声音。用户自己识别需要听A的声音,还是B的声音。对于第一文件中有多个人的声音重合部分的音频的处理,还可以是终端基于声源定位技术和/或声纹识别技术,对该重合部分的音频进行人声分离。将分离后的音频内容和其他相应一个人的音频内容编辑在一起。也就是说,第二文件中只包含第一文件中的一个人的音频内容。第二方面,一种终端,包括:检测单元,用于在第一界面上检测到第一操作;处理单元,用于响应于第一操作,自动识别第一文件中的音频内容所属的不同人声,第一文件为包含音频的文件;显示单元,用于显示第二界面;其中,第一文件中音频内容所属的不同人声在第二界面中具有不同的标记。一种可能的设计中,检测单元具体用于在第一文件的播放界面或编辑界面上检测到点击自动识别人声的功能按钮的操作,或者选择自动识别人声的菜单选项的操作。一种可能的设计中,本文档来自技高网...

【技术保护点】
一种终端中音频处理的方法,其特征在于,所述方法包括:/n终端在第一界面上检测到第一操作;/n响应于所述第一操作,所述终端自动识别第一文件中的音频内容所属的不同人声,所述第一文件为包含音频的文件;/n所述终端显示第二界面;其中,所述第一文件中音频内容所属的不同人声在所述第二界面中具有不同的标记。/n

【技术特征摘要】
【国外来华专利技术】一种终端中音频处理的方法,其特征在于,所述方法包括:
终端在第一界面上检测到第一操作;
响应于所述第一操作,所述终端自动识别第一文件中的音频内容所属的不同人声,所述第一文件为包含音频的文件;
所述终端显示第二界面;其中,所述第一文件中音频内容所属的不同人声在所述第二界面中具有不同的标记。


根据权利要求1所述的方法,其特征在于,所述终端在第一界面上检测到第一操作具体为:
所述终端在所述第一文件的播放界面或编辑界面上检测到点击自动识别人声的功能按钮的操作,或者选择自动识别人声的菜单选项的操作。


根据权利要求1所述的方法,其特征在于,所述终端在第一界面上检测到第一操作具体为:
在所述终端开启自动识别人声的功能时,所述终端在音频应用的界面上检测到打开所述第一文件的操作。


根据权利要求3所述的方法,其特征在于,在所述终端在音频应用的界面上检测到打开所述第一文件的操作之前,所述方法还包括:
在所述终端的系统设置的界面上检测到打开所述终端的自动识别人声的功能的操作;
或者,在所述音频应用的设置界面上检测到打开所述音频应用的自动识别人声的功能的操作。


根据权利要求1所述的方法,其特征在于,所述终端在第一界面上检测到第一操作具体为:
所述终端在录音应用的界面上检测到用户输入的录音指令;所述第一文件为所述录音应用在录音时生成的文件;所述第二界面为所述录音应用在录音过程中,或录音完成后显示的界面。


根据权利要求1-5任一项所述的方法,其特征在于,所述第一文件中音频内容所属的不同人声在所述第二界面中具有不同的标记包括:
所述第一文件中音频内容所属的不同人声所对应的时间轴具有不同的标记。


根据权利要求6所述的方法,其特征在于,所述第一文件中音频内容所属的不同人声所对应的时间轴具有不同的标记包括:
所述第一文件中音频内容所属的不同人声所对应的时间轴具有不同颜色的标记。


根据权利要求6所述的方法,其特征在于,所述第一文件中音频内容所属的不同人声所对应的时间轴具有不同的标记包括:
所述第一文件中音频内容所属的不同人声所对应的时间轴具有不同头像的标记。


根据权利要求1-8任一项所述的方法,其特征在于,在所述终端自动识别第一文件中音频内容所属的不同人声之后,所述方法还包括:
所述终端检测到第二操作;
响应于所述第二操作,所述终端生成第二文件,所述第二文件包含所述第一文件中预设的一个人声的全部音频内容;
所述终端显示第三界面,所述第三界面显示有所述第二文件。


根据要求要求9所述的方法,其特征在于,所述第三界面为所述第二文件的播放界面或编辑界面。


一种终端,其特征在于,包括:
检测单元,用于在第一界面上检测到第一操作;
处理单元,用于响应于所述第一操作,自动识别第一文件中的音频内容所属的不同人声,所述第一文件为包含音频的文件;
显示...

【专利技术属性】
技术研发人员:武晓芳
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1