文本的处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:24414235 阅读:42 留言:0更新日期:2020-06-06 10:40
本公开提供一种文本的处理方法、装置、设备及计算机可读存储介质,方法包括:获取待处理文本,对所述待处理文本进行向量化处理,获得所述待处理文本对应的第一向量信息;将所述第一向量信息输入至预设的预训练层,获得所述待处理文本信息对应的稠密向量;采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,获得所述待处理文本对应的语言学特征信息;根据所述语言学特征信息生成所述待处理文本对应的合成语音。从而避免了由于多个网络模型的累计误差造成的语言学特征信息不精准的缺陷。此外,无需对多个网络模型进行分别训练,训练效率较高。

Text processing method, device, equipment and computer readable storage medium

【技术实现步骤摘要】
文本的处理方法、装置、设备及计算机可读存储介质
本公开涉及人工智能领域,尤其涉及一种文本的处理方法、装置、设备及计算机可读存储介质。
技术介绍
随着人工智能的蓬勃发展,合成语音越来越多的应用在工作、生活中。举例来说,终端设备中可以安装有智能语音助手的应用,该应用可以获取用户的语音指令,并采用预设的合成语音对该语音指令进行响应。为了提高用户体验,合成语音中也需要引入语言学特征信息,例如语音、语调等。因此,在生成合成语音的过程中,首先要确定待合成语音的文本对应的语言学特征信息,从而根据语言学特征信息生成的合成语音能够更加贴合用户的语音。现有技术中一般都是采用pipeline流程实现对待合成语音的文本对应的语言学特征信息的获取,现有技术中用于确定文本语音学特征信息的文本处理装置中具体包括多个网络模型,例如分词模型、韵律获取模型等。多个网络模型按照预设的顺序连接,前一网络模型输出的分类结果作为后一网络模型的输入,将最后一网络模型输出的数据作为待合成语音的文本对应的语言学特征信息。但是,采用上述方法进行待合成语音的文本对应的语言学特征信息的获取时,由于各网络模型均存在误差信息,多个网络模型的累计误差信息较大,导致确定的语言学特征信息准确率不高。此外,每一个网络模型均需要单独训练,训练过程较为繁琐。
技术实现思路
本公开提供一种文本的处理方法、装置、设备及计算机可读存储介质,用于解决现有的文本语言学特征信息获取方法多个网络模型输出的数据的累计误差较大,导致获得的语言学特征信息也不够精准的技术问题。本公开的第一个方面是提供一种文本的处理方法,包括:获取待处理文本,对所述待处理文本进行向量化处理,获得所述待处理文本对应的第一向量信息;将所述第一向量信息输入至预设的预训练层,获得所述待处理文本信息对应的稠密向量;采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,获得所述待处理文本对应的语言学特征信息;根据所述语言学特征信息生成所述待处理文本对应的合成语音。本公开的第二个方面是提供一种文本的处理装置,包括:获取模块,用于获取待处理文本,对所述待处理文本进行向量化处理,获得所述待处理文本对应的第一向量信息;处理模块,用于将所述第一向量信息输入至预设的预训练层,获得所述待处理文本信息对应的稠密向量;处理模块,用于采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,获得所述待处理文本对应的语言学特征信息;合成模块,用于根据所述语言学特征信息生成所述待处理文本对应的合成语音。本公开的第三个方面是提供一种文本的处理设备,包括:存储器,处理器;存储器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为由所述处理器执行如第一方面所述的文本的处理方法。本公开的第四个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的文本的处理方法。本公开提供的文本的处理方法、装置、设备及计算机可读存储介质,通过获取待处理文本及其对应的第一向量信息,通过预设的网络模型中的预训练层以及多任务输出层对该第一向量信息进行处理,获得待处理文本对应的语言学特征信息,从而避免了由于多个网络模型的累计误差造成的语言学特征信息不精准的缺陷。此外,无需对多个网络模型进行分别训练,训练效率较高。进一步地,还可以根据该语言学特征信息生成合成语音,由于根据语言学特征信息生成的合成语音能够还原真实人物说话的发音、音调以及韵律边界,从而该合成语音能够更加贴合用户的语音,提高用户体验。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本公开实施例一提供的文本的处理方法的流程示意图;图2为该预设的网络模型的网络结构图;图3为本公开实施例二提供的文本的处理方法的流程示意图;图4为本公开实施例提供的网络模型的又一网络架构图;图5为本公开实施例三提供的文本的处理方法的流程示意图;图6为本公开实施例提供的合成语音生成流程图;图7为本公开实施例四提供的文本的处理装置的结构示意图;图8为本公开实施例五提供的文本的处理设备的结构示意图。具体实施方式为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例所获得的所有其他实施例,都属于本公开保护的范围。针对上述提及的在现有的文本语言学特征信息获取方法中,由于文本处理装置中具体包括多个网络模型,将前一网络模型的输出结果作为下一网络模型的输入,当多个网络模型存在误差时,文本处理装置中最后一个网络模型输出的数据的累计误差较大,导致获得的语言学特征信息也不够精准的技术问题。因此,为了能够避免由于多个网络模型的架构带来的累计误差,可以减少网络模型的数量,通过一个端到端的网络模型实现对文本语言学特征信息的确定。为了解决上述技术问题,本公开提供了一种文本的处理方法、装置、设备及计算机可读存储介质。需要说明的是,本公开所提供的文本的处理方法、装置、设备及计算机可读存储介质能够应用在任意一种需要获取文本语言学特征信息的场景中。举例来说,其具体可以应用在合成语音的生成场景中。图1为本公开实施例一提供的文本的处理方法的流程示意图,如图1所示,所述方法包括:步骤101、获取待处理文本,对所述待处理文本进行向量化处理,获得所述待处理文本对应的第一向量信息。本实施例的执行主体为文本的处理装置。该文本的处理装置能够与预设的数据服务器通信连接,从而在需要确定文本的语言学特征信息时,文本的处理装置能够从预设的数据服务器中获取待处理文本。可选地,文本的处理装置还可以与用户终端通信连接,从而当用户需要确定文本的语言学特征信息时,文本的处理装置能够从终端设备中获取待处理文本。为了实现对文本的语言学特征信息的获取,可以采用预设的网络模型对待处理文本进行处理。因此,为了使预设的网络模型能够对待处理文本进行处理,首先需要对将该待处理文本转换为网络模型能够识别、处理的形式。具体地,可以对待处理文本进行向量化处理,获得待处理文本对应的第一向量信息。具体地,在上述实施例的基础上,步骤101具体包括:通过Embedding方法对所述待处理文本进行向量化处理。在本实施例中,具体可以通过Embedding方法对待处理文本进行向量化处理。需要说明的是,由于Embedding方法能够将文本信息替换为用于嵌入矩阵中向量的索引,从而当待处理文本的数据量较大时,也能本文档来自技高网...

【技术保护点】
1.一种文本的处理方法,其特征在于,包括:/n获取待处理文本,对所述待处理文本进行向量化处理,获得所述待处理文本对应的第一向量信息;/n将所述第一向量信息输入至预设的预训练层,获得所述待处理文本信息对应的稠密向量;/n采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,获得所述待处理文本对应的语言学特征信息;/n根据所述语言学特征信息生成所述待处理文本对应的合成语音。/n

【技术特征摘要】
1.一种文本的处理方法,其特征在于,包括:
获取待处理文本,对所述待处理文本进行向量化处理,获得所述待处理文本对应的第一向量信息;
将所述第一向量信息输入至预设的预训练层,获得所述待处理文本信息对应的稠密向量;
采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,获得所述待处理文本对应的语言学特征信息;
根据所述语言学特征信息生成所述待处理文本对应的合成语音。


2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行向量化处理,包括:
通过Embedding方法对所述待处理文本进行向量化处理。


3.根据权利要求1所述的方法,其特征在于,所述采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,包括:
通过残差网络连接所述第一向量信息以及所述稠密向量,采用预设的多任务输出层对连接后的所述第一向量信息以及所述稠密向量进行处理。


4.根据权利要求1所述的方法,其特征在于,所述多任务输出层包括编码层以及解码层,所述采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,包括:
采用所述编码层对所述第一向量信息以及所述稠密向量进行处理,获得包括所述稠密向量以及第一向量信息隐藏表征信息的第二向量信息;
采用所述解码层对所述第二向量信息进行处理,获得所述待处理文本对应的语言学特征信息。


5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
确定所述待处理文本中拼音不包括声母的字符;
对所述字符拼音中的声母进行补充操作,以使所述待处理文本中各字符的拼音能够对齐。


6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获取待训...

【专利技术属性】
技术研发人员:潘俊杰
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1