白话文与文言文互译及语音合成方法、装置、设备及介质制造方法及图纸

技术编号:29794295 阅读:16 留言:0更新日期:2021-08-24 18:14
本申请涉及人工智能技术领域,揭示了一种白话文与文言文互译及语音合成方法、装置、设备及介质,其中方法包括:获取目标文本;将所述目标文本输入白话文与文言文判断模型进行语言判断,得到语言判断结果;当所述语言判断结果为白话文时,将所述目标文本输入文言文翻译模型进行文言文翻译,得到待处理的文言文文本,根据所述待处理的文言文文本进行语音生成,得到目标文言文语音;当所述语言判断结果为文言文时,将所述目标文本输入白话文翻译模型进行白话文翻译,得到待处理的白话文文本,根据所述待处理的白话文文本进行语音生成,得到目标白话文语音。实现了自动化进行白话文与文言文互译及语音合成。本申请还涉及区块链技术。

【技术实现步骤摘要】
白话文与文言文互译及语音合成方法、装置、设备及介质
本申请涉及到人工智能
,特别是涉及到一种白话文与文言文互译及语音合成方法、装置、设备及介质。
技术介绍
文言文是用“文言”这种古代书面语写成的文章。几千年中华文化的核心都蕴含在文言文中,它是中华文化数千年延绵不断的主要原因之一,也是中国古人的信仰、价值观的载体。可以说,文言文就是中华文化基因图谱。然而,近代以来,人们多以白话文进行书写、表达、著书立说,普通人每天接触的都是白话文,丧失了对文言文的阅读、书写、表达的能力,从而使白话文与文言文互译及语音合成成为一种需求。因白话文转换为文言文需要考虑诸如文言文韵律、对仗工整等诸多方面,文言文语音合成更是需要把握语音节奏、韵律等方面,导致现有技术的语音合成系统已不能满足白话文与文言文互译及语音合成的需求。
技术实现思路
本申请的主要目的为提供一种白话文与文言文互译及语音合成方法、装置、设备及介质,旨在解决现有技术的语音合成系统已不能满足白话文与文言文互译及语音合成的需求的技术问题。为了实现上述专利技术目的,本申请提出一种白话文与文言文互译及语音合成方法,所述方法包括:获取目标文本;将所述目标文本输入白话文与文言文判断模型进行语言判断,得到语言判断结果;当所述语言判断结果为白话文时,将所述目标文本输入文言文翻译模型进行文言文翻译,得到待处理的文言文文本,根据所述待处理的文言文文本进行语音生成,得到目标文言文语音;当所述语言判断结果为文言文时,将所述目标文本输入白话文翻译模型进行白话文翻译,得到待处理的白话文文本,根据所述待处理的白话文文本进行语音生成,得到目标白话文语音。进一步的,所述根据所述待处理的文言文文本进行语音生成,得到目标文言文语音的步骤,包括:将所述待处理的文言文文本输入文言文韵律情感学习模型进行韵律情感学习,得到文言文韵律情感学习结果,将所述待处理的文言文文本输入音节转换模型进行音节序列转换,得到音节序列数据,将所述文言文韵律情感学习结果和所述音节序列数据输入文言文语音特征预测模型进行语音特征预测,得到文言文语音特征预测结果,将所述文言文语音特征预测结果输入文言文语音合成模型进行语音合成,得到目标文言文语音;所述根据所述待处理的白话文文本进行语音生成,得到目标白话文语音的步骤,包括:将所述待处理的白话文文本输入白话文韵律情感学习模型进行韵律情感学习,得到白话文韵律情感学习结果,将所述白话文韵律情感学习结果输入白话文语音特征预测模型进行语音特征预测,得到白话文语音特征预测结果,将所述白话文语音特征预测结果输入白话文语音合成模型进行语音合成,得到目标白话文语音。进一步的,所述将所述目标文本输入白话文与文言文判断模型进行语言判断,得到语言判断结果的步骤之前,还包括:获取多个第一训练样本,所述多个第一训练样本中每个第一训练样本包括:原始文本样本和语言标定值;采用所述多个第一训练样本,对第一初始模型进行训练,将训练结束的所述第一初始模型作为所述白话文与文言文判断模型;其中,所述第一初始模型依次包括:第一词向量生成模块和二分类模块,所述第一词向量生成模块是基于预训练Bert模型得到的模块,所述二分类模块采用线性层和Sigmoid激活函数。进一步的,所述将所述目标文本输入白话文与文言文判断模型进行语言判断,得到语言判断结果的步骤之前,还包括:获取多个第二训练样本,所述多个第二训练样本中每个第二训练样本包括:第一白话文文本样本和文言文标定值;获取第二初始模型作为文言文翻译初始模型,采用所述多个第二训练样本,对所述文言文翻译初始模型进行训练,将训练结束的所述文言文翻译初始模型作为所述文言文翻译模型;获取多个第三训练样本,所述多个第三训练样本中每个第三训练样本包括:第一文言文文本样本和白话文标定值;获取所述第二初始模型作为白话文翻译初始模型,采用所述多个第三训练样本,对所述白话文翻译初始模型进行训练,将训练结束的所述白话文翻译初始模型作为所述白话文翻译模型;其中,所述第二初始模型是基于Transformer网络得到的模型,所述Transformer网络包括:编码组件和解码组件,所述编码组件包括6个编码器,所述解码组件包括6个解码器。进一步的,所述将所述目标文本输入白话文与文言文判断模型进行语言判断,得到语言判断结果的步骤之前,还包括:获取多个第四训练样本,所述多个第四训练样本中每个第四训练样本包括:第二文言文文本样本和文言文韵律情感标定值;获取第三初始模型作为文言文韵律情感学习初始模型,采用所述多个第四训练样本和多任务学习方法,对所述文言文韵律情感学习初始模型进行训练,将训练结束的所述文言文韵律情感学习初始模型作为所述文言文韵律情感学习模型;获取多个第五训练样本,所述多个第五训练样本中每个第五训练样本包括:第二白话文文本样本和白话文韵律情感标定值;获取所述第三初始模型作为白话文韵律情感学习初始模型,采用所述多个第五训练样本和所述多任务学习方法,对所述白话文韵律情感学习初始模型进行训练,将训练结束的所述白话文韵律情感学习初始模型作为所述白话文韵律情感学习模型;其中,所述第三初始模型包括:第二词向量生成模块、韵律词边界预测模块、韵律短语边界预测模块、语调短语边界预测模块和字在词位置预测模块,所述第二词向量生成模块分别与所述韵律词边界预测模块、所述韵律短语边界预测模块、所述语调短语边界预测模块和所述字在词位置预测模块连接,所述第二词向量生成模块是基于预训练Bert模型得到的模块,所述韵律词边界预测模块、所述韵律短语边界预测模块、所述语调短语边界预测模块和所述字在词位置预测模块均采用softmax层。进一步的,所述将所述目标文本输入白话文与文言文判断模型进行语言判断,得到语言判断结果的步骤之前,还包括:获取多个第六训练样本,所述多个第六训练样本中每个第六训练样本包括:第三文言文文本样本和音节序列标定值;采用所述多个第六训练样本,对音节转换初始模型进行训练,将训练结束的所述音节转换初始模型作为所述音节转换模型;其中,所述音节转换初始模型包括:拼音转换模块和音节拆分模块,所述拼音转换模块是基于G2P模型得到的模块,所述音节拆分模块依次包括:音节拆分子模块和序列输出子模块。进一步的,所述将所述目标文本输入白话文与文言文判断模型进行语言判断,得到语言判断结果的步骤之前,还包括:获取多个第七训练样本,所述多个第七训练样本中每个第七训练样本包括:文言文韵律情感样本、音节序列样本和文言文语音特征标定值;获取第四初始模型作为文言文语音特征预测初始模型,采用所述多个第七训练样本,对所述文言文语音特征预测初始模型进行训练,将训练结束的所述文言文语音特征预测初始模型作为所述文言文语音特征预测模型;获取多个第八训练样本,所述多个第八训练样本中每个第八训练样本包括:白话文韵律情感样本和白话文语音特征标定值;获本文档来自技高网...

【技术保护点】
1.一种白话文与文言文互译及语音合成方法,其特征在于,所述方法包括:/n获取目标文本;/n将所述目标文本输入白话文与文言文判断模型进行语言判断,得到语言判断结果;/n当所述语言判断结果为白话文时,将所述目标文本输入文言文翻译模型进行文言文翻译,得到待处理的文言文文本,根据所述待处理的文言文文本进行语音生成,得到目标文言文语音;/n当所述语言判断结果为文言文时,将所述目标文本输入白话文翻译模型进行白话文翻译,得到待处理的白话文文本,根据所述待处理的白话文文本进行语音生成,得到目标白话文语音。/n

【技术特征摘要】
1.一种白话文与文言文互译及语音合成方法,其特征在于,所述方法包括:
获取目标文本;
将所述目标文本输入白话文与文言文判断模型进行语言判断,得到语言判断结果;
当所述语言判断结果为白话文时,将所述目标文本输入文言文翻译模型进行文言文翻译,得到待处理的文言文文本,根据所述待处理的文言文文本进行语音生成,得到目标文言文语音;
当所述语言判断结果为文言文时,将所述目标文本输入白话文翻译模型进行白话文翻译,得到待处理的白话文文本,根据所述待处理的白话文文本进行语音生成,得到目标白话文语音。


2.根据权利要求1所述的白话文与文言文互译及语音合成方法,其特征在于,所述根据所述待处理的文言文文本进行语音生成,得到目标文言文语音的步骤,包括:
将所述待处理的文言文文本输入文言文韵律情感学习模型进行韵律情感学习,得到文言文韵律情感学习结果,将所述待处理的文言文文本输入音节转换模型进行音节序列转换,得到音节序列数据,将所述文言文韵律情感学习结果和所述音节序列数据输入文言文语音特征预测模型进行语音特征预测,得到文言文语音特征预测结果,将所述文言文语音特征预测结果输入文言文语音合成模型进行语音合成,得到目标文言文语音;
所述根据所述待处理的白话文文本进行语音生成,得到目标白话文语音的步骤,包括:
将所述待处理的白话文文本输入白话文韵律情感学习模型进行韵律情感学习,得到白话文韵律情感学习结果,将所述白话文韵律情感学习结果输入白话文语音特征预测模型进行语音特征预测,得到白话文语音特征预测结果,将所述白话文语音特征预测结果输入白话文语音合成模型进行语音合成,得到目标白话文语音。


3.根据权利要求1所述的白话文与文言文互译及语音合成方法,其特征在于,所述将所述目标文本输入白话文与文言文判断模型进行语言判断,得到语言判断结果的步骤之前,还包括:
获取多个第一训练样本,所述多个第一训练样本中每个第一训练样本包括:原始文本样本和语言标定值;
采用所述多个第一训练样本,对第一初始模型进行训练,将训练结束的所述第一初始模型作为所述白话文与文言文判断模型;
其中,所述第一初始模型依次包括:第一词向量生成模块和二分类模块,所述第一词向量生成模块是基于预训练Bert模型得到的模块,所述二分类模块采用线性层和Sigmoid激活函数。


4.根据权利要求1所述的白话文与文言文互译及语音合成方法,其特征在于,所述将所述目标文本输入白话文与文言文判断模型进行语言判断,得到语言判断结果的步骤之前,还包括:
获取多个第二训练样本,所述多个第二训练样本中每个第二训练样本包括:第一白话文文本样本和文言文标定值;
获取第二初始模型作为文言文翻译初始模型,采用所述多个第二训练样本,对所述文言文翻译初始模型进行训练,将训练结束的所述文言文翻译初始模型作为所述文言文翻译模型;
获取多个第三训练样本,所述多个第三训练样本中每个第三训练样本包括:第一文言文文本样本和白话文标定值;
获取所述第二初始模型作为白话文翻译初始模型,采用所述多个第三训练样本,对所述白话文翻译初始模型进行训练,将训练结束的所述白话文翻译初始模型作为所述白话文翻译模型;
其中,所述第二初始模型是基于Transformer网络得到的模型,所述Transformer网络包括:编码组件和解码组件,所述编码组件包括6个编码器,所述解码组件包括6个解码器。


5.根据权利要求2所述的白话文与文言文互译及语音合成方法,其特征在于,所述将所述目标文本输入白话文与文言文判断模型进行语言判断,得到语言判断结果的步骤之前,还包括:
获取多个第四训练样本,所述多个第四训练样本中每个第四训练样本包括:第二文言文文本样本和文言文韵律情感标定值;
获取第三初始模型作为文言文韵律情感学习初始模型,采用所述多个第四训练样本和多任务学习方法,对所述文言文韵律情感学习初始模型进行训练,将训...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1