一种语音样本数据生成方法、装置、设备和存储介质制造方法及图纸

技术编号：37989461 阅读：21 留言：0更新日期：2023-06-30 10:04

本发明专利技术实施例公开了一种语音样本数据生成方法、装置、设备和存储介质，涉及人工智能领域。该方法包括：获取包含目标多音字的原有样本数据；基于预设数据增强方式，对原有样本数据中的目标多音字的上下文数据进行增强处理，确定包含目标多音字的增强样本数据；基于语言评估模型对增强样本数据进行语言流畅度评估，确定增强样本数据对应的流畅度评估结果；基于流畅度评估结果，确定目标多音字对应的目标样本数据。通过本发明专利技术实施例的技术方案，可以自动生成多音字的样本数据，无需人工参与，提高了样本数据生成效率。了样本数据生成效率。了样本数据生成效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音样本数据生成方法、装置、设备和存储介质

[0001]本专利技术实施例涉及人工智能技术，尤其涉及一种语音样本数据生成方法、装置、设备和存储介质。

技术介绍

[0002]随着人工智能技术的快速发展，机器学习模型被广泛应用。例如，利用多音字识别模型可以自动识别出句子中多音字的读音。
[0003]目前，每个多音字的语音样本数据是有限的，不足以覆盖足够的多音字上下文场景，从而需要人工标注出更多的语音样本数据，以便保证多音字识别模型的训练效果。
[0004]然而，在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：
[0005]通过人工标注获得多音字的语音样本数据的方式费时费力，增加了标注成本。

技术实现思路

[0006]本专利技术实施例提供了一种语音样本数据生成方法、装置、设备和存储介质，以自动生成多音字的语音样本数据，无需人工参与，提高了样本数据生成效率。
[0007]第一方面，本专利技术实施例提供了一种语音样本数据生成方法，包括：
[0008]获取包含目...

【技术保护点】

【技术特征摘要】
1.一种语音样本数据生成方法，其特征在于，包括：获取包含目标多音字的原有样本数据；基于预设数据增强方式，对所述原有样本数据中的所述目标多音字的上下文数据进行增强处理，确定包含所述目标多音字的增强样本数据；基于语言评估模型对所述增强样本数据进行语言流畅度评估，确定所述增强样本数据对应的流畅度评估结果；基于所述流畅度评估结果，确定所述目标多音字对应的目标样本数据。2.根据权利要求1所述的方法，其特征在于，所述预设数据增强方式包括：命名实体处理方式、掩码预测方式、语言转写方式、形容词替换方式和动词替换方式中的至少一种。3.根据权利要求2所述的方法，其特征在于，基于命名实体处理方式，对所述原有样本数据中的所述目标多音字的上下文数据进行增强处理，确定包含所述目标多音字的增强样本数据，包括：对所述原有样本数据进行命名实体识别，确定所述原有样本数据中的目标命名实体；基于预先构建出的知识图谱和所述目标命名实体，确定与所述目标命名实体存在关联的目标关联数据；基于所述目标关联数据，对所述原有样本数据进行数据处理，确定包含所述目标多音字的增强样本数据。4.根据权利要求3所述的方法，其特征在于，所述基于预先构建出的知识图谱和所述目标命名实体，确定与所述目标命名实体存在关联的目标关联数据，包括：基于预先构建出的知识图谱和所述目标命名实体，确定与所述目标命名实体属于并列关系的关联命名实体或者描述所述目标命名实体的目标描述数据；所述基于所述目标关联数据，对所述原有样本数据进行数据处理，确定包含所述目标多音字的增强样本数据，包括：将所述原有样本数据中的目标命名实体替换为所述关联命名实体，获得包含所述目标多音字的增强样本数据；或者，基于所述目标描述数据，对所述原有样本数据中的所述目标命名实体进行扩展描述，获得包含所述目标多音字的增强样本数据。5.根据权利要求2所述的方法，其特征在于，基于掩码预测方式，对所述原有样本数据中的所述目标多音字的上下文数据进行增强处理，确定包含所述目标多音字的增强样本数据，包括：将所述原有样本数据中的部分数据进行掩码处理，获得掩码样本数据；将所述掩码样本数据输入至预训练模型中进行掩码预测，获得所述预训练模型输出的预测掩码数据；...

【专利技术属性】
技术研发人员：宋伟，金波，张政臣，吴友政，何晓冬，
申请(专利权)人：京东科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人