用于语音处理的方法和设备技术

技术编号:30778262 阅读:15 留言:0更新日期:2021-11-16 07:38
公开了一种用于语音处理的方法和设备。所述方法包括:从语音信号确定目标段;通过对目标段进行解码来确定与目标段对应的目标字符序列;基于编辑距离来确认目标字符序列与先前字符序列之间的第一重叠部分;以及基于第一重叠部分对目标字符序列和先前字符序列进行合并。基于在编辑距离执行的操作的类型、将被操作的字符是否位于第一重叠部分中和将被操作的字符是否匹配中的任何一个或者任何两个或更多个的任何组合来确定编辑距离的成本。更多个的任何组合来确定编辑距离的成本。更多个的任何组合来确定编辑距离的成本。

【技术实现步骤摘要】
用于语音处理的方法和设备
[0001]本申请要求于2020年4月28日提交到韩国知识产权局的第10

2020

0051269号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。


[0002]下面的描述涉及一种具有语音处理的方法和设备。

技术介绍

[0003]语音识别技术可用于识别用户的语音。识别的用户的语音可通过语音识别被转换为文本。随着语音识别技术的发展,用户越来越需要语音命令来控制装置或充当代理。然而,由于用于执行语音识别的模型的有限训练数据或语音信号中的环境噪声,难以保证最佳性能。

技术实现思路

[0004]提供本
技术实现思路
以简化的形式介绍在以下具体实施方式中进一步描述的构思的选择。本
技术实现思路
既不意在标识要求保护的主题的关键特征或必要特征,也不意在用于帮助确定要求保护的主题的范围。
[0005]在一个总体方面,一种方法,所述方法包括:从语音信号确定目标段;通过对目标段进行解码来确定与目标段对应的目标字符序列;基于编辑距离来确认目标字符序列与先前字符序列之间的第一重叠部分;以及基于第一重叠部分对目标字符序列和先前字符序列进行合并。基于在编辑距离执行的操作的类型、将被操作的字符是否位于第一重叠部分中和将被操作的字符是否匹配中的任何一个或者任何两个或更多个的任何组合来确定应用于编辑距离的成本。
[0006]编辑距离的成本可被不同地应用于目标字符序列与先前字符序列之间的第一重叠部分和非重叠部分。
[0007]在目标字符序列与先前字符序列之间的非重叠部分中发生的编辑距离的插入成本可小于在第一重叠部分中发生的插入成本。
[0008]编辑距离的匹配成本可小于在目标字符序列与先前字符序列之间的非重叠部分中发生的编辑距离的插入成本。
[0009]在第一重叠部分中发生的编辑距离的插入成本、删除成本和替换成本可以是正数。
[0010]编辑距离的匹配成本可以是负数,并且在目标字符序列与先前字符序列之间的非重叠部分中发生的编辑距离的插入成本可以为零。
[0011]从语音信号确定目标段的步骤可包括:基于段长度和段之间的重叠长度从语音信号确定目标段。
[0012]可基于执行所述方法的设备的可用资源来确定段之间的重叠长度。
[0013]确认的步骤可包括:根据用户在段之间的重叠长度期间说出的最大字符长度来确
认目标字符序列与从先前字符序列提取的部分序列之间的第二重叠部分。
[0014]可基于对与语音信号中的目标段部分重叠的先前段进行解码的结果来确定先前字符序列。
[0015]确认的步骤可包括:确认目标段与包括在先前字符序列中的对先前段进行解码的结果之间的第三重叠部分。
[0016]目标段中的第一重叠部分可小于目标段的一半。
[0017]一种非暂时性计算机可读存储介质可存储指令,所述指令在被一个或多个处理器执行时配置所述一个或多个处理器以执行所述方法。
[0018]在另一整体方面,一种设备,包括:一个或多个处理器,被配置为:从语音信号确定目标段,通过对目标段进行解码来确定与目标段对应的目标字符序列,基于编辑距离来确认目标字符序列与先前字符序列之间的重叠部分,以及基于重叠部分对目标字符序列和先前字符序列进行合并。基于在编辑距离执行的操作的类型、将被操作的字符是否位于重叠部分中和将被操作的字符是否匹配中的任何一个或者任何两个或更多个的任何组合来确定应用于编辑距离的成本。
[0019]编辑距离的成本可被不同地应用于目标字符序列与先前字符序列之间的非重叠部分和重叠部分。
[0020]编辑距离的匹配成本可小于在目标字符序列与先前字符序列之间的非重叠部分中发生的编辑距离的插入成本。
[0021]在目标字符序列与先前字符序列之间的重叠部分中发生的编辑距离的插入成本、删除成本和替换成本可以是正数。
[0022]所述一个或多个处理器可被配置为:基于段长度和段之间的重叠长度从语音信号确定目标段。
[0023]可基于设备的可用资源来确定段之间的重叠长度。
[0024]可基于对与语音信号中的目标段部分重叠的先前段进行解码的结果来确定先前字符序列。
[0025]在另一总体方面,一种方法包括:从语音信号确定多个段;通过对所述多个段进行解码来分别确定所述多个段的多个字符序列;基于所述多个字符序列中的相邻字符序列的对应的编辑距离来确认所述多个字符序列中的相邻字符序列之间的重叠部分;以及基于重叠部分中的对应的重叠部分来对所述多个字符序列中的相邻字符序列进行合并。基于在编辑距离中的对应的编辑距离执行的操作的类型、将被操作的字符是否位于重叠部分中的对应的重叠部分中和将被操作的字符是否匹配中的任何一个或者任何两个或更多个的任何组合来确定应用于对应的编辑距离中的每个编辑距离的成本。
[0026]应用于对应的编辑距离中的每个编辑距离的成本可被不同地应用于所述多个字符序列中的相邻字符序列之间的重叠部分中的对应的重叠部分和非重叠部分中的对应的非重叠部分。
[0027]非重叠部分中的对应的非重叠部分中的对应的编辑距离的插入成本和重叠部分中的对应的重叠部分中的对应的编辑距离的插入成本可以是不同的。
[0028]在重叠部分中发生的编辑距离的插入成本、删除成本和替换成本可以是正数。
[0029]可基于各个段长度和相邻段之间的重叠长度从语音信号确定所述多个段。
[0030]可基于执行所述方法的设备的可用资源来确定相邻段之间的重叠长度。
[0031]从下面的具体实施方式、附图和权利要求,其他特征和方面将是清楚的。
附图说明
[0032]图1示出基于神经网络处理语音的示例。
[0033]图2和图3示出语音识别处理的示例。
[0034]图4至图6示出对字符序列进行整合的示例。
[0035]图7示出编辑距离的示例。
[0036]图8示出语音处理方法的示例。
[0037]图9示出语音处理设备的示例。
[0038]图10和图11示出语音处理设备的示例。
[0039]贯穿附图和具体实施方式,除非另有描述或提供,否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例,并且为了清楚、说明和方便,附图中的元件的相对尺寸、比例和描绘可被夸大。
具体实施方式
[0040]提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或系统的各种变化、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不限于在此阐述的那些顺序,而是除了必须以特定顺序发生的操作之外,可如在理解本申请的公开之后将清楚的那样变化。此外,为了更加清楚和简明,可省略对在理解本申请的公开之后已知的特征的描述。
[0041]在此描述的特征可以以不同形式实现,并且将不被解释为限于在此描述的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于语音处理的方法,所述方法包括:从语音信号确定目标段;通过对目标段进行解码来确定与目标段对应的目标字符序列;基于编辑距离来确认目标字符序列与先前字符序列之间的第一重叠部分;以及基于第一重叠部分对目标字符序列和先前字符序列进行合并,其中,编辑距离表示目标字符序列与先前字符序列之间的差异程度,所述差异程度通过量化将单个字符序列转换为另一字符序列所需的最小操作成本来获得。2.根据权利要求1所述的方法,其中,基于编辑距离的成本来来确认目标字符序列与先前字符序列之间的第一重叠部分,其中,基于对目标字符序列和先前字符序列执行的操作的类型、目标字符序列与先前字符序列是否位于第一重叠部分中和目标字符序列与先前字符序列在第一重叠部分中是否匹配中的任何一个或者任何两个或更多个的任何组合来确定编辑距离的成本。3.根据权利要求1所述的方法,其中,基于第一重叠部分对目标字符序列和先前字符序列进行合并的步骤包括:确认第一重叠部分中的词边界,将确认的词边界指定为转换候选,从指定的转换候选选择位于最靠近第一重叠部分的中心的一个转换候选作为转换点,通过将先前字符序列中的转换点之前的所有词连接到目标字符序列中的转换点之后的所有词,来对先前字符序列和目标字符序列进行合并。4.根据权利要求2所述的方法,其中,编辑距离的成本被不同地应用于目标字符序列与先前字符序列之间的第一重叠部分和非重叠部分。5.根据权利要求2所述的方法,其中,在目标字符序列与先前字符序列之间的非重叠部分中发生的编辑距离的插入成本小于在第一重叠部分中发生的编辑距离的插入成本。6.根据权利要求2所述的方法,其中,编辑距离的匹配成本小于在目标字符序列与先前字符序列之间的非重叠部分中发生的编辑距离的插入成本。7.根据权利要求2所述的方法,其中,在第一重叠部分中发生的编辑距离的插入成本、删除成本和替换成本是正数。8.根据权利要求2所述的方法,其中,编辑距离的匹配成本是负数,并且在目标字符序列与先前字符序列之间的非重叠部分中发生的编辑距离的插入成本为零。9.根据权利要求1所述的方法,其中,从语音信号确定目标段的步骤包括:基于段长度和段之间的重叠长度从语音信号确定目标段。10.根据权利要求9所述的方法,其中,基于执行所述方法的设备的可用资源来确定段之间的重叠长度。11.根据权利要求1所述的方法,其中,确认的步骤包括:根据用户在段之间的重叠长度期间说出的最大字符长度,来确认目标字符序列与从先前字符序列提取的部分序列之间的第二重叠部分。12.根据权利要求1至11中的任意一项所述的方法,其中,基于对与语音信号中的目标段部分重叠的先前段进行解码的结果来确定先前字符序列。
13.根据权利要求12所述的方法,其中,确认的步骤包括:确认目标字符序列与先前字符序列中的对先前段进行解码获得的字符序列之间的第三重叠部分。14.根据权利要求12所述的方法,其中,目标段中的第一重叠部分小于目标段的一半。15.一种用于语音处理的设备,所述设备包括:一个或多个处理器,被配置为:从语音信号确定目标段,通过对目标段进行解码来确定与目标段对应的目标字符序列,基于编辑距离来确认目标字符序列与先前字符序列之间的重叠部分,以及基于重叠部分对目标字符序列和先前字符序列进行合并,其中,编辑距离表示目标字符序列与先前字符序列之间的差异程度,所述差异程度通过量化将单个字符序列转换为另一字符序列所需的最小操作成本来获得。16.根据权利要求15所述的设备,其中,基于编辑距离的成本来确认目标字符序列与先前字符序列之间的重叠部分,其中,基于对目标字符序列和先前字符序列执行的操作的类型、目标字符序列与先前字符序列是否位于重叠部分中和...

【专利技术属性】
技术研发人员:姜泰均
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1