语音文件的处理方法、装置、计算机存储介质和终端制造方法及图纸

技术编号:20223157 阅读:20 留言:0更新日期:2019-01-28 21:16
本发明专利技术公开了一种语音文件的处理方法、装置、计算机存储介质及终端,属于语音处理领域。所述方法包括:获取待处理的语音文件,该语音文件中包括m种声音特征的语音数据,m为大于1的整数;对该语音文件进行声纹识别,得到m种声音特征的语音数据;对识别出的每种声音特征的语音数据进行文本转换,得到每种声音特征的语音数据对应的文本;按照不同的显示格式,显示m种声音特征的语音数据对应的文本。通过本发明专利技术,可以将不同说话人的文本转换结果用不同的显示格式显示,便于用户区分不同说话人的说话内容,扩展了语音文件的显示方式。

【技术实现步骤摘要】
语音文件的处理方法、装置、计算机存储介质和终端
本专利技术涉及语音
,特别涉及一种语音文件的处理方法、装置、计算机存储介质和终端。
技术介绍
目前,为了便于用户快速获知语音内容,可以将待收听的语音文件转换为文本,然后将转换后的文本展示给用户,如此,用户无需收听语音文件,通过展示的文本即可快速获知语音内容。相关技术中,提供了一种语音文件的处理方法,包括:对于待处理的任一语音文件,先对该语音文件进行文本转换,得到该语音文件对应的文本,然后按照统一的显示格式,显示该语音文件对应的文本,也即是,该语音文件的全部语音内容均采用统一的显示格式进行显示。相关技术中语音文件的显示形式单一,当语音文件中包括多个说话人的语音,根据统一的显示格式,用户将无法区分出不同说话人的说话内容。
技术实现思路
本专利技术实施例提供了一种语音文件的处理方法、装置、计算机存储介质和终端,可以用于解决相关技术中存在的语音文件的显示形式单一,无法区分不同说话人的说话内容的问题。所述技术方案如下:一方面,提供了一种语音文件的处理方法,所述方法包括:获取待处理的语音文件,所述语音文件中包括m种声音特征的语音数据,所述m为大于1的整数;对所述语音文件进行声纹识别,得到所述m种声音特征的语音数据;对识别出的每种声音特征的语音数据进行文本转换,得到每种声音特征的语音数据对应的文本;按照不同的显示格式,显示所述m种声音特征的语音数据对应的文本。一方面,提供了一种语音文件的处理装置,所述装置包括:获取模块,用于获取待处理的语音文件,所述语音文件包括m种声音特征的语音数据,所述为大于1的整数;识别模块,用于对所述语音文件进行声纹识别,得到所述m种声音特征的语音数据;文本转换模块,用于对识别出的每种声音特征的语音数据进行文本转换,得到每种声音特征的语音数据对应的文本;显示模块,用于按照不同的显示格式,显示所述m种声音特征的语音数据对应的文本。一方面,提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述的语音文件的处理方法。一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现上述的语音文件的处理方法。本专利技术实施例提供的技术方案带来的有益效果是:本专利技术实施例中,获取包括m种声音特征的语音文件,然后对该语音文件进行声纹识别,并对识别出的每种声音特征的语音数据进行文本转换,得到每种声音特征的语音数据对应的文本,之后按照不同的显示格式,显示该m种声音特征的语音文件对应的文本,如此,可以将不同语音特征的文本用不同的显示格式显示,扩展了语音文件的显示方式。由于不同语音特征可以指示不同的说话人,因此,也就可以将不同说话人的说话内容用不同的显示格式显示出来,从而便于用户根据不同显示格式直观地区分出说话人。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例涉及的一种实施环境的示意图;图2是本专利技术实施例提供的一种终端10的逻辑结构示意图;图3是本专利技术实施例涉及的另一种实施环境的示意图;图4是本专利技术实施例提供的一种语音文件的处理方法流程图;图5是本专利技术实施例提供的一种语音文件的处理结果示意图;图6是本专利技术实施例提供的一种语音文件的处理装置的结构框图;图7是本专利技术实施例提供的一种终端700的结构框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。在对本专利技术实施例进行详细地解释说明之前,先对本专利技术实施例的应用场景予以说明。本专利技术实施例提供的语音文件的处理方法,应用于将语音文件以文本的形式展示给用户的场景中,使得用户无需从前到后地反复收听语音文件,也能快速、准确地获知语音文件的语音内容,从而提高了用户对语音内容的获取效率。相关技术中,在将语音文件转换为文本之后,通常采用统一的显示格式显示语音文件对应的文本,这样的话,当该语音文件中包括多个说话人的语音时,用户也就无法从所显示的文本中区分出不同说话人的说话内容。比如,当语音文件中包括两个说话人的语音时,从统一显示的文本中将无法区分出哪部分文本是第一个说话人的说话内容,哪部分文本是第二个说话人的说话内容,也即是,无法分辨出哪句话是谁说的。如果用户想要区分清楚,则需要用户反复收听语音文件后进行标记,用户操作较为繁琐,且浪费了用户的时间。本专利技术实施例中,为了便于用户区分不同说话人的语音内容,提供了一种能够从语音文件中识别出不同语音特征的语音数据,然后将不同语音特征的语音数据对应的文本,采用不同的显示格式显示出来的语音文件处理方法。其中,该语音文件为多人参与说话的语音文件,比如,该语音文件可以为会议录音文件、采访录音文件或多人演唱的歌曲文件等。具体地,本专利技术实施例可以通过声纹识别进程、文本转换进程和文本显示进程这3个进程完成本专利技术实施例提供的文本显示方法。其中,声纹识别进程用于对语音文件进行声纹识别,以识别出该语音文件中的m种声音特征的语音数据。文本转换进程用于对m种声音特征中每种声音特征的语音数据进行文本转换,得到每种声音特征的语音数据对应的文本。文本显示进程用于按照不同的显示格式,显示m种声音特征的语音数据对应的文本。实际应用中,这3个进程可以按先后顺序执行,也可以同步执行,具体可以根据实际需要进行设置,本专利技术实施例对此不做限定。也即是,本专利技术实施例中,可以对语音文件全部识别完成之后,再进行文本转换和显示,也可以边识别,边进行文本转换和显示,本专利技术实施例对此不做限定。下面,对本专利技术实施例涉及的实施环境进行介绍。图1是本专利技术实施例涉及的一种实施环境的示意图,如图1所示,该实施环境包括终端10。终端10至少包括处理组件和显示组件。处理组件用于从语音文件中识别出不同的m种声音特征的语音数据,对识别出的每种声音特征的语音数据进行文本转换,得到每种声音特征的语音数据对应的文本。显示组件用于按照不同的m个显示格式,显示m种声音特征的语音数据对应的文本。其中,每种声音特征为一个说话人的声音的特征,用于识别一个说话人的声音,比如,可以为音色特征、音高特征或音频特征等。需要说明的是,图1仅是以终端10为计算机为例进行说明,而实际应用中,终端10还可以为手机或平板电脑等电子设备。可选地,请参考图2,该终端10可以包括声纹识别模块11、文本转换模块12、判断模块13和显示模块14。其中,声纹识别模块11用于对语音文件中的语音进行声纹识别,以识别出不同说话人的声音。文本转换模块12用于对语音文件进行文本转换,以将语音文件中的语音转换为文本。判断模块13用于在文本转换的过程中,判断所转换的语音是否为不同说话人的语音,如果是,则通过显示模块14,将不同说话人的语音对应的文本,用不同的显示格式显示,如果否,则通过文本转换模块12继续对语音文件进行文本转换。图3是本文档来自技高网...

【技术保护点】
1.一种语音文件的处理方法,其特征在于,所述方法包括:获取待处理的语音文件,所述语音文件中包括m种声音特征的语音数据,所述m为大于1的整数;对所述语音文件进行声纹识别,得到所述m种声音特征的语音数据;对识别出的每种声音特征的语音数据进行文本转换,得到每种声音特征的语音数据对应的文本;按照不同的显示格式,显示所述m种声音特征的语音数据对应的文本。

【技术特征摘要】
1.一种语音文件的处理方法,其特征在于,所述方法包括:获取待处理的语音文件,所述语音文件中包括m种声音特征的语音数据,所述m为大于1的整数;对所述语音文件进行声纹识别,得到所述m种声音特征的语音数据;对识别出的每种声音特征的语音数据进行文本转换,得到每种声音特征的语音数据对应的文本;按照不同的显示格式,显示所述m种声音特征的语音数据对应的文本。2.如权利要求1所述的方法,其特征在于,所述对所述语音文件进行声纹识别,包括:对所述语音文件进行声纹识别,以从所述语音文件中识别出所述m种声音特征;根据所述m种声音特征中的每种声音特征,确定所述语音文件中每种声音特征的语音数据的所在位置。3.如权利要求2所述的方法,其特征在于,所述对识别出的每种声音特征的语音数据进行文本转换,得到每种声音特征的语音数据对应的文本,包括:按照所述语音文件的语音顺序,对所述语音文件进行文本转换,得到所述语音文件对应的文本;对于所述m种声音特征中的每种声音特征,根据所述语音文件中所述声音特征的语音数据的所在位置,确定所述语音文件中所述声音特征的语音数据对应的文本的所在位置;所述按照不同的显示格式,显示所述m种声音特征的语音数据对应的文本,包括:在所述m种声音特征的语音数据对应的文本的所在位置上,按照不同的显示格式,显示所述m种声音特征的语音数据对应的文本。4.如权利要求1所述的方法,其特征在于,所述对所述语音文件进行声纹识别,包括:按照所述语音文件的语音顺序,对所述语音文件进行声纹识别,以从所述语音文件中识别出按序排列的n个语音片段,所述n个语音片段中包括所述m种声音特征,且所述n个语音片段中相邻的两个语音片段的声音特征不同,所述n大于或等于所述m。5.如权利要求4所述的方法,其特征在于,所述对识别出的每种声音特征的语音数据进行文本转换,得到每种声音特征的语音数据对应的文本,包括:对识别出的每个语音片段进行文本转换,得到每个语音片段对应的文本;所述按照不同的显示格式,显示所述m种声音特征的语音数据对应的文本,包括:对于识别出的第一个语音片段,从预先设置的多个显示格式中确定第一显示格式,按照所述第一显示格式显示所述第一个语音片段对应的文本;对于所述第一个语音片段之后的任一语音片段,从预先设置的多个显示格式中确定与第二显示格式不同的第三显示格式,按照所述第三显示格式显示所述语音片段对应的文本,所述第二显示格式是上一个语音片段对应的文本的显示格式。6.如权利要求1-5任一所述的方法,其特征在于,显示格式包括颜色样式、字体样式、字体背景样式、文本框样式和文本的标签样式中的至少一种。7.一种语音文件的处理装置,其特征在于,所述装置包括:获取模块,用于获取待处理的语音文件,所述语音文件包括m种声音...

【专利技术属性】
技术研发人员:查文
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1