一种混杂语句对齐方法、电子装置和存储介质制造方法及图纸

技术编号：28465389 阅读：20 留言：0更新日期：2021-05-15 21:31

本发明专利技术公开了一种混杂语句对齐方法、电子装置和存储介质，包括：获取混杂文本和目标音频；所述混杂文本包含规范语块与非规范语块；所述混杂文本和所述目标音频具有时间上的对应关系；使用预先训练好的神经网络模型识别出所述混杂文本中的非规范语块与规范语块，产生分类结果；根据所述分类结果，对齐所述混杂文本和所述目标音频，获取音频文本时间链接。本发明专利技术的技术效果：靶向性地识别文本中的外语或其他非规范语块，只需进行局部的语音识别，大大降低了计算量，提升了语音对齐的整体速度和性能。性能。性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种混杂语句对齐方法、电子装置和存储介质

[0001]本专利技术涉及自然语言处理，特别涉及一种混杂语句对齐方法、电子装置和存储介质。

技术介绍

[0002]为了使虚拟人说话时的口型逼真、生动、准确，需要将语音与说话的内容进行对齐。但虚拟人回答的中文文本中有时会涉及大量的夹杂多语言或符号的内容，如外语文字、特殊符号等，目前的语音对齐技术对这些未知的非规范语块的处理效果不太理想，很大程度上影响了用户的交互体验。目前针对混合多语言的中文文本的对齐方法主要有两种：基于字典的对齐和句子级别的语音识别文本对齐。这两种方法都存在较为明显的不足，无法满足对高准确率、简易快速的对齐需求。具体如下：
[0003]基于字典的对齐需要为世界上所有语言建立词典，将外文文字映射为音素。对齐时，在进行语言判别后，使用各语言的模型，将所有文字统一映射成音素，进行强制对齐。该方法准确率虽然高，但是工作量巨大——需要对世界上所有语言的全部单词建立发音字典。此外，对于特殊符号、缩写以及数字等的读音也无法穷举。
[0004]句子级别的语音识别文本对齐，根据音频和参考文本对，使用语音识别引擎来解码整个音频数据，获得语音识别文本。使用动态编程算法进行特征最大匹配，从而实现句子级别的对齐。但这种方法需要用到大的声学模型和语言模型，计算量非常大，降低了对齐速度。同时语音识别结果受引擎识别能力和中文混杂文本复杂度的影响，对齐效果差，不能获得精确的时间信息。

技术实现思路

[0005]为解决上述技术问题，本专利技术提供一种混杂语句对齐方...

【技术保护点】

【技术特征摘要】
1.一种混杂语句对齐方法，其特征在于，包括：获取混杂文本和目标音频；所述混杂文本包含规范语块与非规范语块；所述混杂文本和所述目标音频具有时间上的对应关系；使用预先训练好的神经网络模型识别出所述混杂文本中的非规范语块与规范语块，产生分类结果；根据所述分类结果，对齐所述混杂文本和所述目标音频，获取音频文本时间链接。2.根据权利要求1所述的一种混杂语句对齐方法，其特征在于，还包括：训练所述神经网络模型，具体包括：获取训练文本集；所述训练文本集包含纯中文文本、混杂文本；将所述训练集中的非规范语块标记为未知音素；根据所述训练文本集训练所述神经网络模型。3.根据权利要求1所述的一种混杂语句对齐方法，其特征在于，所述对齐所述混杂文本和所述目标音频，，包括：使用规范语块发音词典，将混合文本中的规范语块转换为规范音素序列。4.根据权利要求3所述的一种混杂语句对齐方法，其特征在于，所述对齐所述混杂文本和所述目标音频，包括：根据所述规范音素序列，使用强制对齐算法，标记所有所述规范语块及所有所述非规范语块在所述目标音频上的起止时间；根据各所述非规范语块在所述目标音频上的起止时间，对各所述非规范语句块所对应的音频片段进...

【专利技术属性】
技术研发人员：顾文元，张雪源，
申请(专利权)人：元梦人文智能国际有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人