用于语音处理的方法和设备技术

技术编号：30778262 阅读：15 留言：0更新日期：2021-11-16 07:38

公开了一种用于语音处理的方法和设备。所述方法包括：从语音信号确定目标段；通过对目标段进行解码来确定与目标段对应的目标字符序列；基于编辑距离来确认目标字符序列与先前字符序列之间的第一重叠部分；以及基于第一重叠部分对目标字符序列和先前字符序列进行合并。基于在编辑距离执行的操作的类型、将被操作的字符是否位于第一重叠部分中和将被操作的字符是否匹配中的任何一个或者任何两个或更多个的任何组合来确定编辑距离的成本。更多个的任何组合来确定编辑距离的成本。更多个的任何组合来确定编辑距离的成本。

全部详细技术资料下载

【技术实现步骤摘要】
用于语音处理的方法和设备
[0001]本申请要求于2020年4月28日提交到韩国知识产权局的第10
‑
2020
‑
0051269号韩国专利申请的权益，所述韩国专利申请的全部公开出于所有目的通过引用包含于此。

[0002]下面的描述涉及一种具有语音处理的方法和设备。

技术介绍

[0003]语音识别技术可用于识别用户的语音。识别的用户的语音可通过语音识别被转换为文本。随着语音识别技术的发展，用户越来越需要语音命令来控制装置或充当代理。然而，由于用于执行语音识别的模型的有限训练数据或语音信号中的环境噪声，难以保证最佳性能。

技术实现思路

[0004]提供本
技术实现思路
以简化的形式介绍在以下具体实施方式中进一步描述的构思的选择。本
技术实现思路
既不意在标识要求保护的主题的关键特征或必要特征，也不意在用于帮助确定要求保护的主题的范围。
[0005]在一个总体方面，一种方法，所述方法包括：从语音信号确定目标段；通过对目标段进行解码来确定与目标段对应的目标字符序列；基于编辑距离来确认目标字符序列与先前字符序列之间的第一重叠部分；以及基于第一重叠部分对目标字符序列和先前字符序列进行合并。基于在编辑距离执行的操作的类型、将被操作的字符是否位于第一重叠部分中和将被操作的字符是否匹配中的任何一个或者任何两个或更多个的任何组合来确定应用于编辑距离的成本。
[0006]编辑距离的成本可被不同地应用于目标字符序列与先前字符序列之间的第一重叠部分和非重叠部分。
[0...

【技术保护点】

【技术特征摘要】
1.一种用于语音处理的方法，所述方法包括：从语音信号确定目标段；通过对目标段进行解码来确定与目标段对应的目标字符序列；基于编辑距离来确认目标字符序列与先前字符序列之间的第一重叠部分；以及基于第一重叠部分对目标字符序列和先前字符序列进行合并，其中，编辑距离表示目标字符序列与先前字符序列之间的差异程度，所述差异程度通过量化将单个字符序列转换为另一字符序列所需的最小操作成本来获得。2.根据权利要求1所述的方法，其中，基于编辑距离的成本来来确认目标字符序列与先前字符序列之间的第一重叠部分，其中，基于对目标字符序列和先前字符序列执行的操作的类型、目标字符序列与先前字符序列是否位于第一重叠部分中和目标字符序列与先前字符序列在第一重叠部分中是否匹配中的任何一个或者任何两个或更多个的任何组合来确定编辑距离的成本。3.根据权利要求1所述的方法，其中，基于第一重叠部分对目标字符序列和先前字符序列进行合并的步骤包括：确认第一重叠部分中的词边界，将确认的词边界指定为转换候选，从指定的转换候选选择位于最靠近第一重叠部分的中心的一个转换候选作为转换点，通过将先前字符序列中的转换点之前的所有词连接到目标字符序列中的转换点之后的所有词，来对先前字符序列和目标字符序列进行合并。4.根据权利要求2所述的方法，其中，编辑距离的成本被不同地应用于目标字符序列与先前字符序列之间的第一重叠部分和非重叠部分。5.根据权利要求2所述的方法，其中，在目标字符序列与先前字符序列之间的非重叠部分中发生的编辑距离的插入成本小于在第一重叠部分中发生的编辑距离的插入成本。6.根据权利要求2所述的方法，其中，编辑距离的匹配成本小于在目标字符序列与先前字符序列之间的非重叠部分中发生的编辑距离的插入成本。7.根据权利要求2所述的方法，其中，在第一重叠部分中发生的编辑距离的插入成本、删除成本和替换成本是正数。8.根据权利要求2所述的方法，其中，编辑距离的匹配成本是负数，并且在目标字符序列与先前字符序列之间的非重叠部分中发生的编辑距离的插入成本为零。9.根据权利要求1所述的方法，其中，从语音信号确定目标段的步骤包括：基于段长度和段之间的重叠长度从语音信号确定目标段。10.根据权利要求9所述的方法，其中，基于执行所述方法的设备的可用资源来确定段之间的重叠长度。11.根据权利要求1所述的方法，其中，确认的步骤包括：根据用户在段之间的重叠长度期间说出的最大字符长度，来确认目标字符序列与从先前字符序列提取的部分序列之间的第二重叠部分。12.根据权利要求1至11中的任意一项所述的方法，其中，基于对与语音信号中的目标段部分重叠的先前段进行解码的结果来确定先前字符序列。
13.根据权利要求12所述的方法，其中，确认的步骤包括：确认目标字符序列与先前字符序列中的对先前段进行解码获得的字符序列之间的第三重叠部分。14.根据权利要求12所述的方法，其中，目标段中的第一重叠部分小于目标段的一半。15.一种用于语音处理的设备，所述设备包括：一个或多个处理器，被配置为：从语音信号确定目标段，通过对目标段进行解码来确定与目标段对应的目标字符序列，基于编辑距离来确认目标字符序列与先前字符序列之间的重叠部分，以及基于重叠部分对目标字符序列和先前字符序列进行合并，其中，编辑距离表示目标字符序列与先前字符序列之间的差异程度，所述差异程度通过量化将单个字符序列转换为另一字符序列所需的最小操作成本来获得。16.根据权利要求15所述的设备，其中，基于编辑距离的成本来确认目标字符序列与先前字符序列之间的重叠部分，其中，基于对目标字符序列和先前字符序列执行的操作的类型、目标字符序列与先前字符序列是否位于重叠部分中和...

【专利技术属性】
技术研发人员：姜泰均，
申请(专利权)人：三星电子株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人