语音识别方法和装置制造方法及图纸

技术编号:11784792 阅读:76 留言:0更新日期:2015-07-28 01:46
本发明专利技术公开了语音识别方法,包括:记录客户端设备所在位置附近的背景音;根据记录的客户端设备所在位置附近的背景音生成噪音模型;根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理;以及对降噪后的语音文件进行语音识别得到识别后的文本。本发明专利技术还公开了执行上述方法的边缘节点、语音识别引擎以及控制服务器。在本发明专利技术中,用于干扰消除的背景音是由客户端设备所在位置附近的边缘节点捕获并记录的,能及时并且准确地反映出客户端设备所在位置附近的环境噪音或外部声音情况,因此,以此背景音声称噪音模型并进行降噪可以获得非常好的降噪效果,从而可以大大提高语音识别的识别率。

【技术实现步骤摘要】

本申请涉及语音识别
,特别涉及一种语音识别方法和装置
技术介绍
语音识别技术简要来说就是让机器通过识别和理解过程把语音信号转变为相应 的文本或命令的技术。语音识别技术主要包括声音特征提取技术、模式匹配准则及模型训 练技术等方面。 目前语音识别技术已经得到快速的发展以及广泛的使用。但是,在环境噪声较大 的环境下,例如在体育场等嘈杂环境下,语音识别技术的应用却受到了很大的限制。可以理 解,用户说话时的背景噪声越大,语音识别的识别率就会越低。甚至受到背景噪声的影响, 很多时候无法完成语音结束检测(utteranceEndingDetection),也即无法检测出用户什 么时候停止说话的。
技术实现思路
为了解决上述问题,本专利技术的实施例提出了一种语音识别的方法及执行该方法的 装置,可以提高噪声环境下语音识别的识别率。 本专利技术实施例所述的语音识别方法包括:记录客户端设备所在位置附近的背景 音,并根据记录的背景音生成噪音模型;根据生成的噪音模型对来自所述客户端设备的语 音文件进行降噪处理;以及对降噪后的语音文件进行语音识别得到识别后的文本。 上述记录用户所在位置附近的背景音包括:服务所述用户的边缘节点记录自身周 围的背景音。 其中,上述语音文件包含时间戳;则根据记录的背景音生成噪音模型包括:所述 边缘节点根据语音文件对应的时间戳查找所述时间戳所指示时间对应的背景音,根据所述 背景音生成噪音模型。 上述根据记录的背景音生成噪音模型包括:边缘节点根据接收到语音文件的时间 查找与所述时间对应的背景音,并根据查找到的背景音生成噪音模型。 或者,上述根据记录的背景音生成噪音模型包括:边缘节点在收到客户端上传的 语音信号后开始记录背景音,并根据记录的背景音生成噪音模型。 又或者,上述根据记录的背景音生成噪音模型包括:语音识别引擎向控制服务器 发送背景音记录上传请求;以及在收到控制服务器上传的背景音后,语音识别引擎根据控 制服务器上传的背景音生成噪音模型。 上述根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理包括:所述 边缘节点根据生成的噪音模型对语音文件进行降噪处理,并对降噪处理后的语音文件进行 语音输入结束检测;对降噪后的语音文件进行语音识别得到识别后的文本包括:边缘节点 对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本,并将识别后的文 本上传至应用服务器。 又或者,根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理包括: 所述边缘节点根据生成的噪音模型对语音文件进行降噪处理,对降噪处理后的语音文件进 行语音输入结束检测,并将语音输入结束检测处理后的语音文件上传至语音识别引擎;对 降噪后的语音文件进行语音识别得到识别后的文本包括:语音识别引擎对语音输入结束检 测处理后的语音文件进行语音识别得到识别后的文本,并将识别后的文本上传至应用服务 器。 再或者,根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理包括: 所述边缘节点根据生成的噪音模型对语音文件进行降噪处理,并将降噪处理后的语音文件 上传至语音识别引擎;对降噪后的语音文件进行语音识别得到识别后的文本包括:语音识 别引擎对降噪处理后的语音文件进行语音输入结束检测,对语音输入结束检测处理后的语 音文件进行语音识别得到识别后的文本,并将识别后的文本上传至应用服务器。 上述根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理包括:所述 语音识别引擎根据生成的噪音模型对从边缘节点接收的语音文件进行降噪处理,并对降噪 处理后的语音文件进行语音输入结束检测;对降噪后的语音文件进行语音识别得到识别后 的文本包括:所述语音识别引擎对语音输入结束检测处理后的语音文件进行语音识别得到 识别后的文本,并将识别后的文本上传至应用服务器。 上述方法在根据记录的用户所在位置附近的背景音生成噪音模型之前进一步包 括:对记录的背景音进行传播损耗估计,并根据传播损耗估计结果对自身记录的背景音进 行补偿。 本专利技术实施例所述的边缘节点包括:背景音记录模块401,用于记录自身所在位 置附近的背景音。 边缘节点可以进一步包括:请求接收模块1201,用于接收来自控制服务器的背景 音记录上传请求;以及背景音上传模块1202,用于将自身记录的背景音上传至控制服务 器。 或者,上述边缘节点进一步包括:噪音模型生成模块402,用于根据记录的背景音 生成噪音模型;降噪模块403,用于根据生成的噪音模型对接收的语音文件进行降噪处理; 语音输入结束检测模块404,用于将降噪处理后的语音文件在各个时刻的幅值与预先设置 的静音门限进行比较,如果从某个时刻开始,各个时刻的幅值小于预先设置的静音门限,则 从语音文件中删除这个时刻之后的部分;语音识别模块405,用于对语音输入结束检测处 理后的语音文件进行语音识别得到识别后的文本;以及文本上传模块406,用于将识别后 的文本上传至应用服务器。 又或者,上述边缘节点进一步包括:噪音模型生成模块402,用于根据记录的背景 音生成噪音模型;降噪模块403,用于根据生成的噪音模型对接收的语音文件进行降噪处 理;语音输入结束检测模块404,用于将降噪处理后的语音文件在各个时刻的幅值与预先 设置的静音门限进行比较,如果从某个时刻开始,各个时刻的幅值小于预先设置的静音门 限,则从语音文件中删除这个时刻之后的部分;以及文件上传模块601,用于将语音输入结 束检测后的语音文件上传至语音识别引擎。 再或者,上述边缘节点进一步包括:噪音模型生成模块402,用于根据记录的背景 音生成噪音模型;降噪模块403,用于根据生成的噪音模型对接收的语音文件进行降噪处 理;以及第二文件上传模块901,用于将降噪后的语音文件上传至语音识别引擎。 上述边缘节点进一步包括:传播损耗估计模块,用于对所记录的背景音进行传播 损耗估计,并根据传播损耗估计结果对所记录的背景音进行补偿。 本专利技术实施例所述的语音识别引擎包括:语音库701,用于存储各种不同类型声 音,针对同一文本内容的发音;语言库702,用于存储各种不同语言的词汇信息;搜索和解 码单元703,用于根据语音库和语言库,对所接收的语音文件进行搜索和解码得到识别后的 文本;以及文本上传模块406,用于将识别后的文本上传至应用服务器。 上述语音识别引擎进一步包括:语音输入结束检测模块404,用于将降噪处理后 的语音文件在各个时刻的幅值与预先设置的静音门限进行比较,如果从某个时刻开始,各 个时刻的幅值小于预先设置的静音门限,则从语音文件中删除这个时刻之后的部分。 更进一步,语音识别引擎可以包括:控制模块1401,用于在收到语音文件后判断 是否需要进行降噪处理,如果不需要降噪处理,则触发语音输入结束检测模块404对语音 文本进行语音输入结束检测;而如果需要降噪处理,则控制请求模块1402向控制服务器发 送背景音记录上传请求;请求模块1402,用于向控制服务器发送背景音记录上传请求;背 景音接收模块1403,用于从控制服务器接收服务客户端设备的边缘节点记录的背景音;噪 音模型生成模块402,用于根据所接收的背景音生成噪音模型;以及降噪模块403,用于根 据生成的噪音模型对接收的语音文件进行降噪处理,并触发语音输入结本文档来自技高网...

【技术保护点】
一种语音识别方法,其特征在于,包括:记录客户端设备所在位置附近的背景音,并根据记录的背景音生成噪音模型;根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理;以及对降噪后的语音文件进行语音识别得到识别后的文本。

【技术特征摘要】

【专利技术属性】
技术研发人员:王晓利曾勇波张永生
申请(专利权)人:株式会社NTT都科摩
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1