一种文本训练集确定方法及装置、电子设备和存储介质制造方法及图纸

技术编号：39420725 阅读：9 留言：0更新日期：2023-11-19 16:09

本公开涉及一种文本训练集确定方法及装置、电子设备和存储介质，所述方法包括：从语料库中获取第一数量的第一语料，并利用所述第一语料对第一模型进行训练；从所述语料库中随机获取第二数量的第二语料，对所述第一模型的准确性进行打分，得到各第二语料的分值；基于分值符合低分条件的第二语料构建训练样本，对所述第一模型进行再次训练；迭代地执行随机获取第二语料至所述再次训练的过程，直至所述第一模型符合预设精度要求；在所述第一模型符合预设精度要求后，将训练所述第一模型所使用过的语料，作为训练第二模型时所使用的样本的录音文稿。本公开实施例降低了录音文稿的数据量，减少录音文稿中的信息冗余，提高了训练第二模型时的效率。型时的效率。型时的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本训练集确定方法及装置、电子设备和存储介质

[0001]本公开涉及计算机
，尤其涉及一种文本训练集确定方法及装置、电子设备和存储介质。

技术介绍

[0002]语音合成音色模型能够根据文本生成某种特定音色的语音，其训练数据的具体形式为“语音
‑
文本”数据，该模型的输入为文本，期望输出(标签)为语音。这种模型的生成过程(训练过程)非常依赖高质量的训练文本。
[0003]在相关技术中，收集该模型的训练文本的方式包括3个阶段的流程：1)构造录音文稿集合；2)利用录音文稿进行录音棚录音；3)对录音文本进行筛选和标注。其中，关键步骤是得到合适的录音文本，如何选择合适的录音文本是一个非常具有技术挑战的问题，合适的录音文本才能得到与模型的应用场景高度相关的训练数据，最终才能利用训练数据得到高泛化能力的语音合成音色模型，并能够在具体应用场景得到高可靠性的语音合成音色模型。
[0004]在相关技术中，为了得到高泛化能力的语音合成音色模型，往往通过大量的训练数据来进行训练，这会耗费较高的资源和时间，导致语音合成音色模型的训练效率较低。

技术实现思路

[0005]本公开提出了一种文本训练集确定技术方案。
[0006]根据本公开的一方面，提供了一种文本训练集确定方法，包括：
[0007]从语料库中获取第一数量的第一语料，并利用所述第一语料对第一模型进行训练；
[0008]从所述语料库中随机获取第二数量的第二语料，对所述第一模型的准确性进行打分，得到各第二语料...

【技术保护点】

【技术特征摘要】
1.一种文本训练集确定方法，其特征在于，包括：从语料库中获取第一数量的第一语料，并利用所述第一语料对第一模型进行训练；从所述语料库中随机获取第二数量的第二语料，对所述第一模型的准确性进行打分，得到各第二语料的分值；基于分值符合低分条件的第二语料构建训练样本，对所述第一模型进行再次训练；迭代地执行随机获取第二语料至所述再次训练的过程，直至所述第一模型符合预设精度要求；在所述第一模型符合预设精度要求后，将训练所述第一模型所使用过的语料，作为训练第二模型时所使用的样本的录音文稿，其中，所述第一模型与所述第二模型用于根据文本输出语音，所述第一模型与所述第二模型输出的语音的音色不同。2.根据权利要求1所述的方法，其特征在于，利用所述第一语料对第一模型进行训练，包括：通过通用的语音合成服务将第一语料中的文稿转换为第一语音；将第一语料中的文稿作为第一模型的输入，将转换得到的第一语音作为期望输出，对所述第一模型进行训练。3.根据权利要求1所述的方法，其特征在于，所述从语料库中获取第一数量的第一语料，包括：按照汉语拼音语法对汉语拼音中的音素进行遍历组合，得到由组合成的拼音序列构成的集合；基于所述集合，从语料库中筛选出第一数量的第一语料，所述第一语料中的拼音序列对所述集合中拼音序列的覆盖度高于覆盖度阈值。4.根据权利要求3所述的方法，其特征在于，所述第二模型应用于目标场景，在按照汉语拼音语法对汉语拼音中的音素进行遍历组合，得到由组合成的拼音序列构成的集合后，所述方法还包括：获取目标场景下的文稿中出现频率高于设定频率阈值的目标场景词汇；提高所述集合中目标场景词汇的拼音序列的优先级权重，或删除所述集合中目标场景词汇的拼音序列以外的词汇。5.根据权利要求1所述的方法，其特征在于...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：摩尔线程智能科技北京有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人