当前位置: 首页 > 专利查询>O·内策尔专利>正文

自动语音识别制造技术

技术编号:21176576 阅读:25 留言:0更新日期:2019-05-22 12:09
它描绘了由处理器在连续语音片段上顺序执行的语音识别方法,该方法包括:获得语音片段的数字信息,即频谱图表示,并从频谱图表示中提取表征该片段的语音特征。然后,确定基于语音特征的一致结构片段矢量,在其上部署机器学习以确定片段矢量的至少一个标签。还描述了在连续语音片段上由处理器顺序执行的语音识别和图像识别的方法。还提供了用于执行语音、话音和图像识别的系统,其包括用于获得和显示信息的客户端设备,用于基于特征确定一致结构片段矢量的片段矢量生成器,以及用于确定片段矢量的至少一个标签的机器学习服务器。

Automatic speech recognition

It describes a speech recognition method that is sequentially executed by a processor on a continuous speech segment. The method includes obtaining the digital information of the speech segment, i.e. spectrum representation, and extracting the speech features representing the segment from the spectrum representation. Then, a consistent structured fragment vector based on speech features is determined, on which machine learning is deployed to determine at least one tag of the fragment vector. The methods of speech recognition and image recognition performed sequentially by processors on continuous speech segments are also described. A system for performing voice, voice and image recognition is also provided, including a client device for obtaining and displaying information, a segment vector generator for identifying consistent structure segment vectors based on features, and a machine learning server for determining at least one tag of segment vectors.

【技术实现步骤摘要】
【国外来华专利技术】自动语音识别
本专利技术涉及计算语言学的跨学科子领域,其包括:语言学,计算机科学和电气工程。更具体地,本专利技术涉及用于将口语识别和翻译成文本及口语分类的方法和技术的开发。
技术介绍
自动语音识别(ASR)也称为“计算机语音识别”(CSR)或“语音到文本”(STT)。本质上,语音识别是将语音信号转换为词语或其他语言单元序列转换成书面形式的计算机化过程。与ASR相反,术语话音识别或说话者识别是指识别说话者而不是所说的话。话音识别系统用于鉴定或验证说话者的身份,作为安全过程的一部分。然而,识别说话者简化了已经针对特定话音训练的系统的语音识别任务。一些ASR系统使用“训练”,其中单个说话者将文本记录到系统中。ASR分析单个特定话音并利用它来微调对单个语音的识别,从而提高准确性。与不使用训练的扬声器独立系统相比,这种ASR系统被分类为扬声器相关系统。ASR应用通常代替诸如汽车系统之类的领域中的手动控制输入;文档处理,治疗,军事和培训,电话,游戏,教育,支持残疾人。例如,通过方向盘上的手指控制,启用语音识别系统,并通过音频提示向驾驶员发出信号。在音频提示之后,系统具有“监听窗口”,在该窗口期间它可以接受用于识别的语音输入。语音识别可以在文档处理的前端或后端实现。前端语音识别是在提供者向语音识别引擎口述的情况下,识别的词语在说出时显示,并且口述者负责编辑和签署文档。长期使用语音识别软件与文字处理器相结合已经显示出对脑AVM患者的短期记忆再加强的益处。ASR系统已成功应用于战斗机,应用包括:设置无线电频率,指挥自动驾驶系统,设置转向点坐标和武器投放参数,以及控制飞行显示。电话、计算机游戏和模拟中的ASR现在司空见惯。语音识别可以用于学习,特别是在语言学习中。除了帮助一个人发展他们的说话技巧流利,它还可以帮助教授正确的发音。对于听力受损的个人,语音识别软件用于自动生成对话的隐藏字幕,例如会议室中的讨论、课堂讲座和/或宗教服务。与传统的输入方法(例如,按下按钮或与计算机屏幕交互)不同,语音识别(即对设备说话)具有一些挑战。尽管在语音识别领域的最近十年取得了进展,但商业上可获得的ASR结果具有与输入语音信号的可靠性相关的不确定性,并且事实上ASR系统固有地返回概率,而不是确定性。本公开主题的目的是对上述不确定性引入补救措施。专利技术概述根据本专利技术的第一方面,由处理器在多个连续语音片段上顺序执行的语音识别方法,该方法包括:获得语音片段的数字信息,其中所述数字信息包括频谱图表示;从所述频谱图表示中提取表征该片段的多个语音特征;基于所述语音特征确定一致的结构片段矢量;部署机器学习以确定片段矢量的至少一个标签;以及输出所述至少一个标签。在一些示例性实施方案中,所述获得数字信息的步骤还包括:由处理器数字化模拟话音信号,所述模拟话音信号源自选自包括以下各项的组的设备:实时声音传感器;以及声音存储设备;其中,所述模拟声音信号包括模拟话音部分和非话音部分;并且其中模拟话音部分的数字化产生片段的数字信息。在一些示例性实施方案中,所述片段表示从包括以下各项的组中选择的语音元素:音节;多个音节;词;词语的小部分;多个词;及其组合。在一些示例性实施方案中,所述提取多个语音特征还包括组装具有相同数量的单元的多个矩阵和索引矩阵,其中所述多个矩阵中的每个矩阵表示所述多个语音特征中的不同语音特征,其中组装所述索引矩阵是基于具有时间帧和频带的频谱图,其中所述索引矩阵维度与频谱图的时间帧和频带相关,其中所述多个矩阵与所述索引矩阵重叠,并且其中,所述多个矩阵中的每个矩阵的每个单元的内容表示由索引矩阵指示的时间帧和频带的语音特征值。在一些示例性实施方案中,从所述索引矩阵和所述多个矩阵中滤出所述索引矩阵的频带的低于连续时间帧的最小数量的阈值的一个或多个部分。在一些示例性实施方案中,包含相似语音特征值的连续时间帧被所述索引矩阵和所述多个矩阵中的时间间隔替换。在一些示例性实施方案中,所述确定一致结构片段矢量还包括:编译多个分量,每个分量包括相等数量的操作数,其中,所述多个分量中的第一分量是与所述索引矩阵对应的索引分量,而所述多个分量中的其余部分是与特征矩阵相对应的特征分量,其中操作数的总数是频带对(对)的所有可能组合,并且其中所述索引分量指示在所述片段矢量中具有对存在的操作数。在一些示例性实施方案中,所述片段矢量还包括携带所述语音识别所需的额外信息的内部关系。在一些示例性实施方案中,通过计算聚合对集合之间的交叉效应来确定每个特征分量的具有对存在的操作数的属性,其中每个聚合对集合与所述语音片段的预定时区相关联。在一些示例性实施方案中,部署机器学习还包括基于先前的片段矢量及其标签对片段矢量进行分类,其中每个矢量具有至少一个标签,该标签包括话音片段的至少一个字母数字字符表现形式。根据本专利技术的另一方面,由处理器在多个连续话音片段上顺序执行的话音识别方法,该方法包括:获得话音片段的数字信息,其中所述数字信息包括频谱图表示;从所述频谱图表示中提取表征该片段的多个话音特征;基于所述话音特征确定一致的结构片段矢量;部署机器学习以确定所述片段矢量的至少一个标签;以及输出所述至少一个标签。在一些示例性实施方案中,所述获得数字信息的步骤还包括:由处理器数字化源自选自包括以下各项的组的设备的模拟声音信号:实时声音传感器;以及声音存储设备;其中,所述模拟声音信号包括模拟话音部分和非话音部分;并且其中所述模拟话音部分的数字化产生片段的数字信息。在一些示例性实施方案中,所述片段表示从包括以下各项的组中选择的语音元素:音节;多个音节;词;词语的小部分;多个词;及其组合。在一些示例性实施方案中,所述提取多个语音特征还包括组装多个矩阵和索引矩阵,所述矩阵和索引矩阵具有相同数量的单元,其中所述多个矩阵中的每个矩阵表示所述话音特征中的不同话音特征,其中组装所述索引矩阵是基于具有时间帧和频带的频谱图,其中所述索引矩阵维度与所述频谱图的时间帧和频带相关,其中所述多个矩阵与所述索引矩阵重叠,并且其中,所述多个矩阵中的每个矩阵的每个单元的内容表示由索引矩阵指示的时间帧和频带的话音特征值。在一些示例性实施方案中,从所述索引矩阵和所述多个矩阵中滤出所述索引矩阵的频带的低于连续时间帧的最小数量的阈值的一个或多个部分。在一些示例性实施方案中,包含相似话音特征值的连续时间帧被所述索引矩阵和所述多个矩阵中的时间间隔替换。在一些示例性实施方案中,确定一致结构片段矢量还包括编译多个分量,每个分量包括相等数量的操作数,其中所述多个分量中的第一分量是与所述索引矩阵对应的索引分量,而所述多个分量中的其余分量是与所述特征矩阵对应的特征分量,其中操作数的总数是频带对(对)的所有可能组合,并且其中所述索引分量指示在所述片段矢量中具有对存在的操作数。在一些示例性实施方案中,通过计算聚合对集合之间的交叉效应来确定具有每个特征分量的对存在的操作数的属性,其中每个聚合对集合与所述话音片段的预定时区相关联。在一些示例性实施方案中,部署机器学习还包括基于先前的片段矢量及其标签对片段矢量进行分类,其中每个矢量具有至少一个标签,该标签包括话音片段的至少一个字母数字字符表现形式。根据本专利技术的又一方面,由处理器在多个图像片段上执行的图像识别方法,其中图像本文档来自技高网...

【技术保护点】
1.由处理器在多个连续语音片段上顺序执行的语音识别方法,该方法包括:获得语音片段的数字信息,其中所述数字信息包括频谱图表示;从所述频谱图表示中提取表征该片段的多个语音特征;基于所述语音特征确定一致的结构片段矢量;部署机器学习以确定片段矢量的至少一个标签;以及输出所述至少一个标签。

【技术特征摘要】
【国外来华专利技术】2016.06.14 US 62/349,6761.由处理器在多个连续语音片段上顺序执行的语音识别方法,该方法包括:获得语音片段的数字信息,其中所述数字信息包括频谱图表示;从所述频谱图表示中提取表征该片段的多个语音特征;基于所述语音特征确定一致的结构片段矢量;部署机器学习以确定片段矢量的至少一个标签;以及输出所述至少一个标签。2.如权利要求1所述的方法,其中,所述获得数字信息的步骤还包括:由处理器数字化模拟话音信号,所述模拟话音信号源自选自包括以下各项的组的设备:实时声音传感器;以及声音存储设备;其中,所述模拟声音信号包括模拟话音部分和非话音部分;并且其中模拟话音部分的数字化产生片段的数字信息。3.如权利要求1所述的方法,其中,所述片段表示从包括以下各项的组中选择的语音元素:音节;多个音节;词;词语的小部分;多个词;及其组合。4.如权利要求1所述的方法,其中,所述提取多个语音特征还包括组装具有相同数量的单元的多个矩阵和索引矩阵,其中所述多个矩阵中的每个矩阵表示所述多个语音特征中的不同语音特征,其中组装所述索引矩阵是基于具有时间帧和频带的频谱图,其中所述索引矩阵维度与频谱图的时间帧和频带相关,其中所述多个矩阵与所述索引矩阵重叠,并且其中,所述多个矩阵中的每个矩阵的每个单元的内容表示由索引矩阵指示的时间帧和频带的语音特征值。5.如权利要求4所述的方法,其中,从所述索引矩阵和所述多个矩阵中滤出所述索引矩阵的频带的低于连续时间帧的最小数量的阈值的一个或多个部分。6.如权利要求4所述的方法,其中,包含相似语音特征值的连续时间帧被所述索引矩阵和所述多个矩阵中的时间间隔替换。7.如权利要求4所述的方法,其中,所述确定一致结构片段矢量还包括:编译多个分量,每个分量包括相等数量的操作数,其中,所述多个分量中的第一分量是与所述索引矩阵对应的索引分量,而所述多个分量中的其余部分是与特征矩阵相对应的特征分量,其中操作数的总数是频带对的所有可能组合,并且其中所述索引分量指示在所述片段矢量中具有频带对存在的操作数。8.如权利要求7所述的方法,其中,所述片段矢量还包括携带所述语音识别所需的额外信息的内部关系。9.如权利要求7所述的方法,其中,通过计算聚合对集合之间的交叉效应来确定每个特征分量的具有对存在的操作数的属性,其中每个聚合对集合与所述语音片段的预定时区相关联。10.如权利要求7所述的方法,其中,部署机器学习还包括基于先前的片段矢量及其标签对片段矢量进行分类,其中每个矢量具有至少一个标签,该标签包括话音片段的至少一个字母数字字符表现形式。11.由处理器在多个连续话音片段上顺序执行的话音识别方法,该方法包括:获得话音片段的数字信息,其中所述数字信息包括频谱图表示;从所述频谱图表示中提取表征该片段的多个话音特征;基于所述话音特征确定一致的结构片段矢量;部署机器学习以确定所述片段矢量的至少一个标签;以及输出所述至少一个标签。12.如权利要求10所述的方法,其中,所述获得数字信息的步骤还包括:由处理器数字化源自选自包括以下各项的组的设备的模拟声音信号:实时声音传感器;以及声音存储设备;其中,所述模拟声音信号包括模拟话音部分和非话音部分;并且其中所述模拟话音...

【专利技术属性】
技术研发人员:O·内策尔
申请(专利权)人:O·内策尔
类型:发明
国别省市:以色列,IL

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1