一种音频和文本的同步方法、装置、设备以及介质制造方法及图纸

技术编号:29217791 阅读:22 留言:0更新日期:2021-07-10 00:56
本公开涉及音频和文本的同步方法、装置、设备以及介质。方法包括:由初始文本确定用于音频转换的多个第一文本片段和用于阅读展示的第二文本;将各第一文本片段转换为音频片段,得到第一文本片段与音频片段的第一映射关系;将各第一文本片段与第二文本进行匹配,得到第一文本片段与第二文本片段的第二映射关系;基于第一映射关系和第二映射关系,确定与各音频片段相同步的第二文本片段。由此,通过将第一文本片段转换为音频片段,并将第一文本片段与第二文本进行匹配,可确定与音频片段相同步的第二文本片段,而第二文本片段用于阅读展示,音频片段用于朗读,可解决在朗读时无法展示匹配的文本或展示的文本与朗读内容存在偏差的问题。偏差的问题。偏差的问题。

【技术实现步骤摘要】
一种音频和文本的同步方法、装置、设备以及介质


[0001]本公开涉及通信
,尤其涉及一种音频和文本的同步方法、装置、设备以及介质。

技术介绍

[0002]文字转语音(Text

To

Speech,TTS)技术是将一般文本的文字转换为语音(即音频)的方法,例如可将储存于终端中的文件文本或者浏览器显示的网页中的文本,转换成自然语音输出的音频。
[0003]目前,大多数应用程序(Application,APP)的TTS都是在手机、平板电脑等终端上安装的应用程序客户端上进行的,但由于客户端的运算能力有限,难以生成高音质的音频。针对此问题,为了得到较高音质的音频,可在服务端进行TTS(Text

To

Speech,文字转语音)过程。由于展示和朗读对章节文本的要求不同,所以对于同一个章节,TTS所用的文本跟阅读器展示的文本存在差别,使得在朗读时无法展示匹配的文本或展示的文本与朗读内容存在偏差。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种音频和文本的同步方法、装置、设备以及介质。
[0005]第一方面,本公开实施例提供一种音频和文本的同步方法,包括:
[0006]确定用于音频转换的多个第一文本片段和用于阅读展示的第二文本;其中,多个第一文本片段和第二文本来自初始文本;
[0007]将各第一文本片段转换为音频片段,得到第一文本片段与音频片段之间的第一映射关系;
[0008]将各第一文本片段与第二文本进行匹配,得到第一文本片段与第二文本中的第二文本片段之间的第二映射关系;
[0009]基于第一映射关系和第二映射关系,确定与各音频片段相同步的第二文本片段。
[0010]在一些实施例中,将各第一文本片段与第二文本进行匹配,包括:
[0011]基于各第一文本片段中的一个或多个符号以及第二文本中的一个或多个符号,将各第一文本片段与第二文本进行匹配。
[0012]在一些实施例中,基于各第一文本片段中的一个或多个符号以及第二文本中的一个或多个符号,将各第一文本片段与第二文本进行匹配,包括:
[0013]删除第二文本中的符号,得到第三文本;
[0014]针对各第一文本片段:
[0015]删除该第一文本片段中的符号,得到第一临时文本片段;
[0016]在第三文本中查找与第一临时文本片段相同的第二临时文本片段;
[0017]在第二文本中,查找与第二临时文本片段前相邻的第一符号,以及与第二临时文
本片段后相邻的第二符号;
[0018]基于第一符号和第二符号,确定第二文本中与该第一文本片段匹配的第二文本片段。
[0019]在一些实施例中,基于第一符号和第二符号,确定第二文本中与该第一文本片段匹配的第二文本片段,包括:
[0020]基于该第一文本片段,确定与该第一临时文本片段前相邻的第三符号,以及与该第一临时文本片段后相邻的第四符号;
[0021]将第一符号和第二符号分别与第三符号和第四符号进行匹配;
[0022]基于匹配的结果确定第二文本中与该第一文本片段匹配的第二文本片段。
[0023]在一些实施例中,基于匹配的结果确定第二文本中与该第一文本片段匹配的第二文本片段,包括:
[0024]若匹配的结果为:第一符号与第三符号相同,且第二符号与第四符号相同,则确定该第二文本片段的起始位置为第一符号,且结束位置为第二符号;
[0025]若匹配的结果为:第一符号与第三符号相同,且第二符号与第四符号不同,则确定该第二文本片段的起始位置为第一符号,且结束位置为该第二文本片段的片尾;
[0026]若匹配的结果为:第一符号与第三符号不同,且第二符号与第四符号相同,则确定该第二文本片段的起始位置为该第二文本片段的片首,且结束位置为第二符号;
[0027]若匹配的结果为:第一符号与第三符号不同,且第二符号与第四符号不同,则确定该第二文本片段的起始位置为该第二文本片段的片首,且结束位置为该第二文本片段的片尾。
[0028]在一些实施例中,所述方法还包括:
[0029]若在第三文本中未查找到与第一临时文本片段相同的第二临时文本片段,则将该第一文本片段与下一个第一文本片段合并,得到合并文本片段;
[0030]确定该第一文本片段的上一个第一文本片段在第二文本中的结束位置为合并文本片段在第二文本中的起始位置;
[0031]确定下一个第一文本片段在第二文本中的结束位置为合并文本片段在第二文本中的结束位置。
[0032]在一些实施例中,确定用于音频转换的多个第一文本片段和用于阅读展示的第二文本包括:
[0033]获取初始文本,并基于初始文本确定用于音频转换的第一文本和用于阅读展示的第二文本;
[0034]将第一文本拆分为多个第一文本片段。
[0035]在一些实施例中,基于初始文本确定用于音频转换的第一文本和用于阅读展示的第二文本,包括:
[0036]将初始文本进行第一文本规范处理,得到第一文本;
[0037]将初始文本进行第二文本规范处理,得到第二文本。
[0038]在一些实施例中,第一文本规范处理包括以下一个或多个:删除初始文本中满足第一预设条件的目标内容、截断超出长度阈值的句子;
[0039]第二文本规范处理包括:删除初始文本中满足第二预设条件的目标内容。
[0040]在一些实施例中,将第一文本拆分为多个第一文本片段,包括:
[0041]确定第一文本中的一个或多个符号,基于符号对第一文本进行拆分,得到多个第一文本片段。
[0042]在一些实施例中,所述方法还包括:
[0043]将各音频片段合成为完整音频,并确定各音频片段在完整音频中的音频起始时间;
[0044]基于与各音频片段相同步的第二文本片段,确定音频起始时间与第二文本片段在第二文本中的文本起始位置的同步关系。
[0045]在一些实施例中,所述方法还包括:将完整语音、第二文本和同步关系进行关联,得到关联关系。
[0046]第二方面,本公开实施例还提供一种音频和文本的同步方法,包括:
[0047]获取多个音频片段,以及获取与各音频片段相同步的文本片段;
[0048]响应播放操作,播放一个或多个音频片段;
[0049]在播放的同时,展示与播放的音频片段相同步的文本片段。
[0050]第三方面,本公开实施例还提供一种音频和文本的同步装置,包括:
[0051]第一确定单元,用于确定用于音频转换的多个第一文本片段和用于阅读展示的第二文本;其中,多个第一文本片段和第二文本来自初始文本;
[0052]转换单元,用于将各第一文本片段转换为音频片段,得到第一文本片段与音频片段之间的第一映射关系;
[0053]匹配单元,用于将各第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频和文本的同步方法,其特征在于,包括:确定用于音频转换的多个第一文本片段和用于阅读展示的第二文本;其中,所述多个第一文本片段和所述第二文本来自初始文本;将各所述第一文本片段转换为音频片段,得到所述第一文本片段与所述音频片段之间的第一映射关系;将各所述第一文本片段与所述第二文本进行匹配,得到所述第一文本片段与所述第二文本中的第二文本片段之间的第二映射关系;基于所述第一映射关系和所述第二映射关系,确定与各所述音频片段相同步的第二文本片段。2.根据权利要求1所述的方法,其特征在于,所述将各所述第一文本片段与所述第二文本进行匹配,包括:基于各所述第一文本片段中的一个或多个符号以及所述第二文本中的一个或多个符号,将各所述第一文本片段与所述第二文本进行匹配。3.根据权利要求2所述的方法,其特征在于,所述基于各所述第一文本片段中的一个或多个符号以及所述第二文本中的一个或多个符号,将各所述第一文本片段与所述第二文本进行匹配,包括:删除所述第二文本中的符号,得到第三文本;针对各所述第一文本片段:删除该第一文本片段中的符号,得到第一临时文本片段;在所述第三文本中查找与所述第一临时文本片段相同的第二临时文本片段;在所述第二文本中,查找与所述第二临时文本片段前相邻的第一符号,以及与所述第二临时文本片段后相邻的第二符号;基于所述第一符号和所述第二符号,确定所述第二文本中与该第一文本片段匹配的第二文本片段。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一符号和所述第二符号,确定所述第二文本中与该第一文本片段匹配的第二文本片段,包括:基于该第一文本片段,确定与该第一临时文本片段前相邻的第三符号,以及与该第一临时文本片段后相邻的第四符号;将所述第一符号和所述第二符号分别与所述第三符号和所述第四符号进行匹配;基于所述匹配的结果确定所述第二文本中与该第一文本片段匹配的第二文本片段。5.根据权利要求4所述的方法,其特征在于,所述基于所述匹配的结果确定所述第二文本中与该第一文本片段匹配的第二文本片段,包括:若所述匹配的结果为:所述第一符号与所述第三符号相同,且所述第二符号与所述第四符号相同,则确定该第二文本片段的起始位置为所述第一符号,且结束位置为所述第二符号;若所述匹配的结果为:所述第一符号与所述第三符号相同,且所述第二符号与所述第四符号不同,则确定该第二文本片段的起始位置为所述第一符号,且结束位置为该第二文本片段的片尾;若所述匹配的结果为:所述第一符号与所述第三符号不同,且所述第二符号与所述第
四符号相同,则确定该第二文本片段的起始位置为该第二文本片段的片首,且结束位置为所述第二符号;若所述匹配的结果为:所述第一符号与所述第三符号不同,且所述第二符号与所述第四符号不同,则确定该第二文本片段的起始位置为该第二文本片段的片首,且结束位置为该第二文本片段的片尾。6.根据权利要求3所述的方法,其特征在于,所述方法还包括:若在所述第三文本中未查找到与所述第一临时文本片段相同的第二临时文本片段,则将该第一文本片段与下一个第一文本片段合并,得到合并文本片段;确定该第一文本片段的上一个第一文本片段在所述第二文本中的结束位置为所述合并文本片段在所述第二文本...

【专利技术属性】
技术研发人员:熊佳新冯宏曾豪张同新
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1