一种混杂语句对齐方法、电子装置和存储介质制造方法及图纸

技术编号:28465389 阅读:20 留言:0更新日期:2021-05-15 21:31
本发明专利技术公开了一种混杂语句对齐方法、电子装置和存储介质,包括:获取混杂文本和目标音频;所述混杂文本包含规范语块与非规范语块;所述混杂文本和所述目标音频具有时间上的对应关系;使用预先训练好的神经网络模型识别出所述混杂文本中的非规范语块与规范语块,产生分类结果;根据所述分类结果,对齐所述混杂文本和所述目标音频,获取音频文本时间链接。本发明专利技术的技术效果:靶向性地识别文本中的外语或其他非规范语块,只需进行局部的语音识别,大大降低了计算量,提升了语音对齐的整体速度和性能。性能。性能。

【技术实现步骤摘要】
一种混杂语句对齐方法、电子装置和存储介质


[0001]本专利技术涉及自然语言处理,特别涉及一种混杂语句对齐方法、电子装置和存储介质。

技术介绍

[0002]为了使虚拟人说话时的口型逼真、生动、准确,需要将语音与说话的内容进行对齐。但虚拟人回答的中文文本中有时会涉及大量的夹杂多语言或符号的内容,如外语文字、特殊符号等,目前的语音对齐技术对这些未知的非规范语块的处理效果不太理想,很大程度上影响了用户的交互体验。目前针对混合多语言的中文文本的对齐方法主要有两种:基于字典的对齐和句子级别的语音识别文本对齐。这两种方法都存在较为明显的不足,无法满足对高准确率、简易快速的对齐需求。具体如下:
[0003]基于字典的对齐需要为世界上所有语言建立词典,将外文文字映射为音素。对齐时,在进行语言判别后,使用各语言的模型,将所有文字统一映射成音素,进行强制对齐。该方法准确率虽然高,但是工作量巨大——需要对世界上所有语言的全部单词建立发音字典。此外,对于特殊符号、缩写以及数字等的读音也无法穷举。
[0004]句子级别的语音识别文本对齐,根据音频和参考文本对,使用语音识别引擎来解码整个音频数据,获得语音识别文本。使用动态编程算法进行特征最大匹配,从而实现句子级别的对齐。但这种方法需要用到大的声学模型和语言模型,计算量非常大,降低了对齐速度。同时语音识别结果受引擎识别能力和中文混杂文本复杂度的影响,对齐效果差,不能获得精确的时间信息。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供一种混杂语句对齐方法、电子装置和存储介质,具体的技术方案如下:
[0006]一种混杂语句对齐方法,包括:
[0007]获取混杂文本和目标音频;所述混杂文本包含规范语块与非规范语块;所述混杂文本和所述目标音频具有时间上的对应关系;
[0008]使用预先训练好的神经网络模型识别出所述混杂文本中的非规范语块与规范语块,产生分类结果;
[0009]根据所述分类结果,对齐所述混杂文本和所述目标音频,获取音频文本时间链接。
[0010]优选地,还包括:训练所述神经网络模型,具体包括:
[0011]获取训练文本集;所述训练文本集包含纯中文文本、混杂文本;
[0012]将所述训练集中的非规范语块标记为未知音素;
[0013]根据所述训练文本集训练所述神经网络模型。
[0014]优选地,所述对齐所述混杂文本和所述目标音频,包括:
[0015]使用规范语块发音词典,将混合文本中的规范语块转换为规范音素序列。
[0016]进一步优选地,所述对齐所述混杂文本和所述目标音频,包括:
[0017]根据所述规范音素序列,使用强制对齐算法,标记所有所述规范语块及所有所述非规范语块在所述目标音频上的起止时间;
[0018]根据各所述非规范语块在所述目标音频上的起止时间,对各所述非规范语句块所对应的音频片段进行规范语句语音识别,获取非规范音素序列;
[0019]合并所述规范音素序列和所述非规范音素序列,获取音频文本时间链接。
[0020]进一步优选地,还包括:以识别准确率为最终导向,对所述神经网络模型进行区分度训练。
[0021]进一步优选地,还包括:所述根据所述训练文本集训练所述神经网络模型,基于以交叉熵损失最小化为准则进行训练。
[0022]进一步优选地,所述神经网络模型基于时延深度神经网络。
[0023]进一步优选地,所述训练文本集还包括:文字符号混杂文本、字母缩写文本。
[0024]另一方面,提供一种电子装置,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器,用于执行所述存储器上所存放的计算机程序,实现所述一种混杂语句对齐方法。
[0025]另一方面,提供一种存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现所述一种混杂语句对齐方法。
[0026]本专利技术至少包括以下一项技术效果:
[0027](1)通过输入任意一段音频和相对应的包含多语言的中文文本,可准确输出音素序列中每个音素的起始和结束时间。相比较于传统的对齐方法,本方法可以靶向性地识别文本中的外语或其他非规范语块,只需进行局部的语音识别,大大降低了计算量,提升了语音对齐的整体速度和性能;
[0028](2)纯中文语块不受语音识别引擎能力的影响,大大提升了对齐效果;
[0029](3)充分利用了已有的中文信息,最大限度地避免了误识,具有简单快速、准确率高的优点。
附图说明
[0030]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0031]图1为本专利技术实施例1的流程示意图;
[0032]图2为本专利技术实施例2的流程示意图;
[0033]图3为本专利技术实施例3的流程示意图;
[0034]图4为本专利技术的训练部分流程示意图;
[0035]图5为本专利技术对齐部分流程示意图。
具体实施方式
[0036]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具
体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0037]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。
[0038]为使图面简洁,各图中只示意性地表示出了与本专利技术相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘出了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
[0039]还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0040]另外,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0041]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对照附图说明本专利技术的具体实施方式。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
[0042]实施例1:
[0043]如图1、4、5所示,本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混杂语句对齐方法,其特征在于,包括:获取混杂文本和目标音频;所述混杂文本包含规范语块与非规范语块;所述混杂文本和所述目标音频具有时间上的对应关系;使用预先训练好的神经网络模型识别出所述混杂文本中的非规范语块与规范语块,产生分类结果;根据所述分类结果,对齐所述混杂文本和所述目标音频,获取音频文本时间链接。2.根据权利要求1所述的一种混杂语句对齐方法,其特征在于,还包括:训练所述神经网络模型,具体包括:获取训练文本集;所述训练文本集包含纯中文文本、混杂文本;将所述训练集中的非规范语块标记为未知音素;根据所述训练文本集训练所述神经网络模型。3.根据权利要求1所述的一种混杂语句对齐方法,其特征在于,所述对齐所述混杂文本和所述目标音频,,包括:使用规范语块发音词典,将混合文本中的规范语块转换为规范音素序列。4.根据权利要求3所述的一种混杂语句对齐方法,其特征在于,所述对齐所述混杂文本和所述目标音频,包括:根据所述规范音素序列,使用强制对齐算法,标记所有所述规范语块及所有所述非规范语块在所述目标音频上的起止时间;根据各所述非规范语块在所述目标音频上的起止时间,对各所述非规范语句块所对应的音频片段进...

【专利技术属性】
技术研发人员:顾文元张雪源
申请(专利权)人:元梦人文智能国际有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1