一种基于人工智能的声音克隆方法及系统技术方案

技术编号：40605564 阅读：14 留言：0更新日期：2024-03-12 22:11

本发明专利技术提供了一种基于人工智能的声音克隆方法及系统，该方法通过将原始文本正则化处理，并依次转换为若干待转换句和若干待转换词，获取待转换词的拼音，并将其中各字的拼音进行标注，得到第一标注，将字的拼音中的声母和韵母拆分，并将字的拼音的第一标注赋给韵母，再对字的拼音中的声母进行标注，根据预设规则，确定音素信息，音素信息包括第一标注中的目标标注，然后重新组合词组，并根据用户说话语速，确定重新组合后的各词组之间的停顿时间，最后根据字和对应的音素信息，转换为声学特征，并将声学特征转换为目标波形，根据目标波形，完成声音克隆，可以有效解决仅依靠专业的语义学知识和经验进行人工设计，往往耗时耗力，且效果不好的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于声音克隆，特别涉及一种基于人工智能的声音克隆方法及系统。

技术介绍

1、声音克隆可以理解为定制化的语音合成，可以根据输入的文本，转换为符合对应用户声音的语音，目前的语音合成主要包含文本前端、声学模型和声码器这三个模块，其中，文本前端模块主要的工作是将原始文本转换为字符/音素，具体的，字符为语言书写系统的最小有意义单位，音素为区分单词的最小语音单位，通常情况下，为了有助于声音克隆自然性，会通过人工的方式进行文本预处理，即分段、分词等，但是不同人习惯不同，可能有不同的韵律，而仅依靠专业的语义学知识和经验进行人工设计，往往耗时耗力，且效果不好。

技术实现思路

1、基于此，本专利技术实施例当中提供了一种基于人工智能的声音克隆方法及系统，以解决现有技术中，仅依靠专业的语义学知识和经验进行人工设计，往往耗时耗力，且效果不好的问题。

2、本专利技术实施例的第一方面提供了一种基于人工智能的声音克隆方法，应用于汉语场景中，所述方法包括：

3、获取原始文本，将所述原始文本...

【技术保护点】

1.一种基于人工智能的声音克隆方法，其特征在于，应用于汉语场景中，所述方法包括：

2.根据权利要求1所述的基于人工智能的声音克隆方法，其特征在于，所述获取所述待转换词的拼音，并根据拼音的四声调，将所述待转换词中各字的拼音进行标注，得到各字的拼音的第一标注，其中，字的拼音至少存在一个第一标注的步骤包括：

3.根据权利要求2所述的基于人工智能的声音克隆方法，其特征在于，所述根据预设规则，确定音素信息，所述音素信息包括所述第一标注中的目标标注的步骤包括：

4.根据权利要求3所述的基于人工智能的声音克隆方法，其特征在于，所述若判断目标字“一”不处于词尾，则判断...

【技术特征摘要】

1.一种基于人工智能的声音克隆方法，其特征在于，应用于汉语场景中，所述方法包括：

4.根据权利要求3所述的基于人工智能的声音克隆方法，其特征在于，所述若判断目标字“一”不处于词尾，则判断目标字“一”的前和/或后是否存在表示数目的字的步骤之后还包括：

5.根据权利要求2所述的基于人工智能的声音克隆方法，其特征在于，所述根据预设规则，确定音素信息，所述音素信息包括所述第一标注中的目标标注...

【专利技术属性】
技术研发人员：刘仁勤，万礼强，
申请(专利权)人：江西拓世智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人