文本处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:32457879 阅读:26 留言:0更新日期:2022-02-26 08:40
本申请实施例公开了一种文本处理方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:获取韵律标注模型,韵律标注模型包括第一识别网络和标注网络,第一识别网络具备识别任一文本中的每个词语的功能;基于多个第一样本数据,训练韵律标注模型;调用训练后的韵律标注模型,分别对多个第二文本进行标注,得到多个第二样本数据;基于多个第二样本数据,训练韵律预测模型。该方法无需人工标注大量的样本数据,也能够训练出准确的韵律预测模型,在保证韵律预测模型的准确性的同时,降低了人工标注的成本,且提高了标注效率,从而提高了韵律预测模型的训练效率。提高了韵律预测模型的训练效率。提高了韵律预测模型的训练效率。

【技术实现步骤摘要】
文本处理方法、装置、计算机设备及存储介质


[0001]本申请实施例涉及计算机
,特别涉及一种文本处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术和人工智能技术的发展,基于文本进行语音合成的方式越来越普遍,为了提高合成的语音的播放效果,需要准确地获取文本中每个词语的韵律标签。
[0003]相关技术中,调用韵律预测模型对文本进行处理,获取文本中每个词语的韵律标签,但是想要实现准确地预测,需要人工标注大量的文本,采用大量已标注的文本对韵律预测模型进行训练,导致韵律预测模型的训练成本较高。

技术实现思路

[0004]本申请实施例提供了一种文本处理方法、装置、计算机设备及存储介质,无需人工标注用于训练韵律预测模型的样本数据,同时提高了训练数据的覆盖率,提高了韵律预测模型的稳定性,并降低了韵律预测模型的训练成本。所述技术方案如下:
[0005]一方面,提供了一种文本处理方法,所述方法包括:
[0006]获取韵律标注模型,所述韵律标注模型包括第一识别网络和标注网络,所述第一识别网络具备本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取韵律标注模型,所述韵律标注模型包括第一识别网络和标注网络,所述第一识别网络具备识别任一文本中的每个词语的功能,所述标注网络用于训练标注任一文本中至少一个词语的韵律标签;基于多个第一样本数据,训练所述韵律标注模型,所述第一样本数据包括第一文本及所述第一文本中每个词语的韵律标签;调用训练后的所述韵律标注模型,分别对多个第二文本进行标注,得到多个第二样本数据,所述第二样本数据包括第二文本及所述第二文本中每个词语的韵律标签,所述多个第一样本数据的数量小于所述多个第二样本数据的数量;基于所述多个第二样本数据,训练韵律预测模型。2.根据权利要求1所述的方法,其特征在于,所述基于多个第一样本数据,训练所述韵律标注模型,包括:调用所述第一识别网络,对所述第一样本数据中的第一文本进行识别,得到所述第一文本中的多个词语以及相邻的每两个词语之间的关联关系;调用所述标注网络,基于所述第一文本中相邻的每两个词语之间的关联关系,对所述第一文本中的多个词语进行标注,得到所述第一文本中相邻的每两个词语中第一个词语的预测韵律标签,以及所述第一文本中最后一个词语的预测韵律标签;基于所述第一文本中每个词语的韵律标签以及预测韵律标签,训练所述韵律标注模型。3.根据权利要求1所述的方法,其特征在于,所述调用训练后的所述韵律标注模型,分别对多个第二文本进行标注,得到多个第二样本数据,包括:调用所述第一识别网络,对所述第二文本进行识别,得到所述第二文本中的多个词语及相邻的每两个词语之间的关联关系;调用所述标注网络,基于所述第二文本中相邻的每两个词语之间的关联关系,对所述第二文本中的多个词语进行标注,得到所述第二文本对应的第二样本数据。4.根据权利要求1所述的方法,其特征在于,所述基于所述多个第二样本数据,训练韵律预测模型之后,所述方法还包括:调用训练后的所述韵律预测模型,对第三文本进行处理,得到所述第三文本中每个词语的韵律标签。5.根据权利要求4所述的方法,其特征在于,训练后的所述韵律预测模型包括第二识别网络和韵律预测网络,所述第二识别网络具备识别任一文本中的每个词语以及相邻的每两个词语之间的关联关系的功能,所述韵律预测网络具备预测任一文本中至少一个词语的韵律标签的功能;所述调用训练后的所述韵律预测模型,对第三文本进行处理,得到所述第三文本中每个词语的韵律标签,包括:调用所述第二识别网络,对所述第三文本进行处理,得到所述第三文本中的多个词语及相邻的每两个词语之间的关联...

【专利技术属性】
技术研发人员:李良斌陈孝良
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1