支持语音识别的电子设备及其操作方法技术

技术编号:39067712 阅读:57 留言:0更新日期:2023-10-12 20:00
本公开的各个实施例涉及一种在能够执行自然语言处理的电子设备中支持自动语音识别的装置及其操作方法。为此,所述电子设备可以基于从输入音频信号顺序地识别的一个或更多个部分文本,来识别从麦克风输入的音频信号的语音类型。所述电子设备能够基于语音类型自适应地确定保持时间,并且通过应用所确定的保持时间来检测所述音频信号的语音结束。时间来检测所述音频信号的语音结束。时间来检测所述音频信号的语音结束。

【技术实现步骤摘要】
【国外来华专利技术】支持语音识别的电子设备及其操作方法


[0001]本公开涉及一种在能够执行自然语言处理的电子设备中支持自动语音识别(ASR)的装置及其操作方法。

技术介绍

[0002]人工智能技术已经发展到足以提供以类似人类的方式说话或显示文本的模型。其示例可以是“聊天机器人(chatbot)”或“聊天机器人(chatterbot)”。聊天机器人(chatbot/chatterbot)可以是计算机程序,该计算机程序被设计成通过集成语音识别技术基于通过语音与人对话来执行指定任务。
[0003]人工智能技术可以基于“自然语言处理”技术,例如,作为用于理解人类语音的语音识别技术。自然语言处理技术可以在语音识别的前提下实现。自然语言处理技术可以包括允许机器计算机理解人类语言的技术。“自然语言”可以指人类长期使用时自然产生的语言。与此相反,可以有“机器语言”或“编程语言”。“机器语言”或“编程语言”可以指计算机语言。例如,用于编码的计算机语言已被开发成与自然语言具有许多类似性。然而,仍可能需要自然语言处理来输入指令以便计算机能够理解。
[0004]通常,自然语言处理可以通过自然语言分析、自然语言理解和/或自然语言生成操作来执行。自然语言分析可以对应于根据语法分析自然语言的操作。自然语言理解可以对应于计算机根据用自然语言给出的输入来执行指定动作的操作。自然语言生成可以对应于将表格或视频的内容转换成人类可理解的自然语言的操作。

技术实现思路

[0005]技术问题
[0006]电子设备可以采用自然语言分析技术并支持自动语音识别。自然语言可以具有若干语法单元,诸如词形、句法和/或句子。所述自然语言分析技术是形态学分析和句法分析中的一者,并且可以被简单地分类为用于基于句子的含义来解释该句子的语义分析和用于确定在实际中在句子中隐含哪种含义的语用分析。
[0007]因此,对于自然语言分析,支持自动语音识别的电子设备将支持从用户话语输入的音频信号获得语音持续时间和停顿持续时间,并基于获得的结果检测话语结束的结束。
[0008]问题的解决方案
[0009]根据本公开的示例实施例,一种电子设备可以包括:麦克风,所述麦克风被配置成将通过话语从外部施加的信号转换为电音频信号并输出;存储器;以及至少一个处理器,所述至少一个处理器电耦接到所述麦克风和所述存储器。所述存储器可以存储有指令,所述指令在被执行时使所述至少一个处理器:基于从经由所述麦克风输入的输入音频信号顺序地识别的一个或更多个部分文本识别所述音频信号的话语类型,基于所识别的话语类型来自适应地确定拖尾时间,以及通过应用所述拖尾时间来检测所述音频信号的所述话语的结束。所述输入音频信号的话语类型可以对应于完整句子、不完整句子和模糊句子中的一者。
所述完整句子可以是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是可识别的。所述不完整句子可以是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是不可识别的。所述模糊句子可以是未被分类为所述完整句子或所述不完整句子的文本。
[0010]根据本公开的示例实施例,一种操作电子设备的方法可以包括:基于从输入音频信号顺序地识别的一个或更多个部分文本来识别所述音频信号的话语类型,所述音频信号是从通过话语从外部施加的信号转换而来的电信号;基于所识别的话语类型来自适应地确定拖尾时间;以及通过应用所述拖尾时间来检测所述音频信号的所述话语的结束。所述输入音频信号的话语类型可以对应于完整句子、不完整句子和模糊句子中的一者。所述完整句子可以是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是可识别的。所述不完整句子可以是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是不可识别的。所述模糊句子可以是未被分类为所述完整句子或所述不完整句子的文本。
[0011]此外,在本公开中描述的任何实施例的一个或更多个选择的特征可以与本文中描述的任何其他实施例的一个或更多个选择的特征组合,假定这些特征的替代组合至少部分地减轻本公开中讨论的一个或更多个技术问题,或者至少部分地减轻本领域技术人员从本公开可辨别的技术问题,并且进一步假定由此形成的实施例特征的特定组合或排列将不会被本领域技术人员理解为不相容的。
[0012]在可能的情况下,本公开的任何描述的示例实施方式中的两个或更多个物理上不同的部件可以替代地集成到单个部件中,只要由此形成的单个部件执行相同的功能。相反,在适当的情况下,本公开中描述的任何实施例的单个部件可以替代地实现为两个或更多个不同的部件以实现相同的功能。
[0013]本公开的各个示例实施例可以至少部分地减轻或消除与现有技术相关联的所述问题和/或缺点中的至少一者。某些实施例可以提供以下描述的优点中的至少一者。
[0014]本专利技术的有益效果
[0015]可以提供本公开的各个实施例以解决上述问题并且至少提供以下描述的优点。
[0016]本公开的实施例提供了一种基于部分文本自适应地调整用于确定话语的结束的拖尾时间的电子设备及其操作方法。
[0017]本公开的实施例提供了一种响应于用户话语来识别用户的上下文以确定语声活动结束时间点的电子设备及其操作方法。
附图说明
[0018]从以下结合附图的详细描述中,某些实施例的以上和其他方面、特征和优点将更加容易理解。
[0019]图1是图示了根据各个实施例的网络环境中的电子设备的框图。
[0020]图2图示了根据各个实施例的可以用作电子设备中的语音识别的基本单元的一个语声活动持续时间(VAD);
[0021]图3图示了根据实施例的在电子设备中检测语声活动结束时间点的示例;
[0022]图4是根据各个实施例的在电子设备中支持语音识别的框图;
[0023]图5图示了根据实施例的用于在电子设备中执行基于语音识别的操作的控制流
程;
[0024]图6a、图6b和图6c图示了根据各个实施例的确定每个话语类型的拖尾时间的示例;
[0025]图7a、图7b和图7c图示了根据各个实施例的确定电子设备中的每个话语类型的拖尾时间的示例;
[0026]图8图示了根据实施例的电子设备中基于话语类型的操作的示例;
[0027]图9图示了根据实施例的电子设备中基于话语类型的操作的另一示例;
[0028]图10图示了根据实施例的在电子设备中执行基于语音识别的操作的配置;
[0029]图11图示了根据实施例的在电子设备中执行语音识别的配置;
[0030]图12图示了根据实施例的用于在电子设备中检测用户话语的结束的控制流程;
[0031]图13图示了根据实施例的在电子设备中执行语音识别的配置;
[0032]图14图示了根据实施例的用于在电子设备中支持语音识别的模型学习的流程;
[0033]图15图示了根据实施例的用于电子设备中的语音识别的深度学习模型的数据格式;
[0034]图16、图17和图18图示了根据实施例的学本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种电子设备,所述电子设备包括:麦克风,所述麦克风被配置成将通过话语从外部施加的信号转换为电音频信号并输出;存储器;以及至少一个处理器,所述至少一个处理器电耦接到所述麦克风和所述存储器,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:基于从经由所述麦克风输入的输入音频信号顺序地识别的一个或更多个部分文本来识别所述音频信号的话语类型;基于所识别的话语类型来自适应地确定拖尾时间;以及通过应用所述拖尾时间来检测所述音频信号的所述话语的结束,其中,所述输入音频信号的话语类型对应于完整句子、不完整句子和模糊句子中的一者,其中,所述完整句子是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是可识别的,其中,所述不完整句子是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是不可识别的,并且其中,所述模糊句子是未被分类为所述完整句子或所述不完整句子的文本。2.根据权利要求1所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:基于停顿被保持了所述拖尾时间,确定检测到所述话语的结束。3.根据权利要求1所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:在使用语音识别技术识别出所述话语类型是所述完整句子时,减少所述拖尾时间。4.根据权利要求3所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:在使用所述语音识别技术识别出所述话语类型是所述不完整句子时,增加所述拖尾时间。5.根据权利要求4所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:在使用所述语音识别技术识别出所述话语类型是所述模糊句子时,保持所述拖尾时间。6.根据权利要求1所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:基于直到所述拖尾时间流逝停顿一直被保持,处理将要作为机器语言输出的、从所述输入音频信号识别的全文本。7.根据权利要求1所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:连同所识别的话语类型,一起考虑特征数据来自适应地设置所述拖尾时间,其中,用户的特征数据是指示语音速率、话语之间的停顿时间、停顿计数、性别、年龄、区域和情绪中的至少一者的程度的值。8.根据权利要求7所述...

【专利技术属性】
技术研发人员:崔明用戈达瓦里
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1