It describes a speech recognition method that is sequentially executed by a processor on a continuous speech segment. The method includes obtaining the digital information of the speech segment, i.e. spectrum representation, and extracting the speech features representing the segment from the spectrum representation. Then, a consistent structured fragment vector based on speech features is determined, on which machine learning is deployed to determine at least one tag of the fragment vector. The methods of speech recognition and image recognition performed sequentially by processors on continuous speech segments are also described. A system for performing voice, voice and image recognition is also provided, including a client device for obtaining and displaying information, a segment vector generator for identifying consistent structure segment vectors based on features, and a machine learning server for determining at least one tag of segment vectors.
【技术实现步骤摘要】
【国外来华专利技术】自动语音识别
本专利技术涉及计算语言学的跨学科子领域,其包括:语言学,计算机科学和电气工程。更具体地,本专利技术涉及用于将口语识别和翻译成文本及口语分类的方法和技术的开发。
技术介绍
自动语音识别(ASR)也称为“计算机语音识别”(CSR)或“语音到文本”(STT)。本质上,语音识别是将语音信号转换为词语或其他语言单元序列转换成书面形式的计算机化过程。与ASR相反,术语话音识别或说话者识别是指识别说话者而不是所说的话。话音识别系统用于鉴定或验证说话者的身份,作为安全过程的一部分。然而,识别说话者简化了已经针对特定话音训练的系统的语音识别任务。一些ASR系统使用“训练”,其中单个说话者将文本记录到系统中。ASR分析单个特定话音并利用它来微调对单个语音的识别,从而提高准确性。与不使用训练的扬声器独立系统相比,这种ASR系统被分类为扬声器相关系统。ASR应用通常代替诸如汽车系统之类的领域中的手动控制输入;文档处理,治疗,军事和培训,电话,游戏,教育,支持残疾人。例如,通过方向盘上的手指控制,启用语音识别系统,并通过音频提示向驾驶员发出信号。在音频提示之后,系统具有“监听窗口”,在该窗口期间它可以接受用于识别的语音输入。语音识别可以在文档处理的前端或后端实现。前端语音识别是在提供者向语音识别引擎口述的情况下,识别的词语在说出时显示,并且口述者负责编辑和签署文档。长期使用语音识别软件与文字处理器相结合已经显示出对脑AVM患者的短期记忆再加强的益处。ASR系统已成功应用于战斗机,应用包括:设置无线电频率,指挥自动驾驶系统,设置转向点坐标和武器投放参数,以及控制飞行显示 ...
【技术保护点】
1.由处理器在多个连续语音片段上顺序执行的语音识别方法,该方法包括:获得语音片段的数字信息,其中所述数字信息包括频谱图表示;从所述频谱图表示中提取表征该片段的多个语音特征;基于所述语音特征确定一致的结构片段矢量;部署机器学习以确定片段矢量的至少一个标签;以及输出所述至少一个标签。
【技术特征摘要】
【国外来华专利技术】2016.06.14 US 62/349,6761.由处理器在多个连续语音片段上顺序执行的语音识别方法,该方法包括:获得语音片段的数字信息,其中所述数字信息包括频谱图表示;从所述频谱图表示中提取表征该片段的多个语音特征;基于所述语音特征确定一致的结构片段矢量;部署机器学习以确定片段矢量的至少一个标签;以及输出所述至少一个标签。2.如权利要求1所述的方法,其中,所述获得数字信息的步骤还包括:由处理器数字化模拟话音信号,所述模拟话音信号源自选自包括以下各项的组的设备:实时声音传感器;以及声音存储设备;其中,所述模拟声音信号包括模拟话音部分和非话音部分;并且其中模拟话音部分的数字化产生片段的数字信息。3.如权利要求1所述的方法,其中,所述片段表示从包括以下各项的组中选择的语音元素:音节;多个音节;词;词语的小部分;多个词;及其组合。4.如权利要求1所述的方法,其中,所述提取多个语音特征还包括组装具有相同数量的单元的多个矩阵和索引矩阵,其中所述多个矩阵中的每个矩阵表示所述多个语音特征中的不同语音特征,其中组装所述索引矩阵是基于具有时间帧和频带的频谱图,其中所述索引矩阵维度与频谱图的时间帧和频带相关,其中所述多个矩阵与所述索引矩阵重叠,并且其中,所述多个矩阵中的每个矩阵的每个单元的内容表示由索引矩阵指示的时间帧和频带的语音特征值。5.如权利要求4所述的方法,其中,从所述索引矩阵和所述多个矩阵中滤出所述索引矩阵的频带的低于连续时间帧的最小数量的阈值的一个或多个部分。6.如权利要求4所述的方法,其中,包含相似语音特征值的连续时间帧被所述索引矩阵和所述多个矩阵中的时间间隔替换。7.如权利要求4所述的方法,其中,所述确定一致结构片段矢量还包括:编译多个分量,每个分量包括相等数量的操作数,其中,所述多个分量中的第一分量是与所述索引矩阵对应的索引分量,而所述多个分量中的其余部分是与特征矩阵相对应的特征分量,其中操作数的总数是频带对的所有可能组合,并且其中所述索引分量指示在所述片段矢量中具有频带对存在的操作数。8.如权利要求7所述的方法,其中,所述片段矢量还包括携带所述语音识别所需的额外信息的内部关系。9.如权利要求7所述的方法,其中,通过计算聚合对集合之间的交叉效应来确定每个特征分量的具有对存在的操作数的属性,其中每个聚合对集合与所述语音片段的预定时区相关联。10.如权利要求7所述的方法,其中,部署机器学习还包括基于先前的片段矢量及其标签对片段矢量进行分类,其中每个矢量具有至少一个标签,该标签包括话音片段的至少一个字母数字字符表现形式。11.由处理器在多个连续话音片段上顺序执行的话音识别方法,该方法包括:获得话音片段的数字信息,其中所述数字信息包括频谱图表示;从所述频谱图表示中提取表征该片段的多个话音特征;基于所述话音特征确定一致的结构片段矢量;部署机器学习以确定所述片段矢量的至少一个标签;以及输出所述至少一个标签。12.如权利要求10所述的方法,其中,所述获得数字信息的步骤还包括:由处理器数字化源自选自包括以下各项的组的设备的模拟声音信号:实时声音传感器;以及声音存储设备;其中,所述模拟声音信号包括模拟话音部分和非话音部分;并且其中所述模拟话音...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。