一种结合爬虫技术的轻量级实时语音识别及翻译装置制造方法及图纸

技术编号:19829030 阅读:21 留言:0更新日期:2018-12-19 17:04
本发明专利技术提供一种结合爬虫技术的轻量级实时语音识别及翻译装置,设置在连入互联网的终端中,通过与服务器交互进行语音识别及翻译,从而实现该装置的轻量化,其特征在于,包括:画面存储部、输入显示部、获取控制部、声音流获取部、声音流分块部、音频块缓存部、音频块缓存控制部、噪音筛选部、声音流判断部、留白判断部、音频块存储部、识别请求文件处理部、识别请求交互部、识别结果获取部、翻译请求文件处理部、翻译请求交互部、翻译结果获取部以及通信部;画面存储部存储有用户输入操作画面、语音识别画面以及语音翻译画面。

【技术实现步骤摘要】
一种结合爬虫技术的轻量级实时语音识别及翻译装置
本专利技术涉及一种语言识别及翻译装置。
技术介绍
互联网快速发展带来的是以视频媒介传递的信息越来越多,很多人苦于无法在观看视频或者在现场听演讲时无法获取语音的文本内容。主流的方法是一边听,一边通过打字从而获取听到的内容,这种做法的效率非常低下。现有的语音识别技术,能够实现语音听写、语音转写等语音技术,提供在线的语音识别服务,并具有高识别准确度。但是上述语音识别技术,需要较好的硬件设备支持,也无法实时的实现文本的翻译,即使通过一些翻译网站,由于语言识别的断句导致文本出现的一些问题,在翻译之后会使文本更加混乱。
技术实现思路
为解决上述问题,提供一种实时语音识别及翻译装置,本专利技术采用了如下技术方案:本专利技术提供了一种结合爬虫技术的轻量级实时语音识别及翻译装置,设置在连入互联网的终端中,通过与服务器交互进行语音识别及翻译,其特征在于,包括:画面存储部、输入显示部、获取控制部、声音流获取部、声音流分块部、音频块缓存部、噪音筛选部、声音流判断部、音频块存储部、识别请求文件处理部、识别请求交互部、识别结果获取部、翻译请求文件处理部、翻译请求交互部、翻译结果获取部以及通信部;画面存储部存储有用户输入操作画面、语音识别画面以及语音翻译画面,输入显示部显示用户输入操作画面让用户选择需要进行识别的待识别文件,获取控制部控制声音流获取部从待识别文件中获取待识别声音流,声音流分块部将待识别声音流切分成音频块,音频块缓存部对音频块进行暂存,噪音筛选部依次筛选音频块并丢弃属于噪音的音频块,声音流判断部依次判断噪音筛选部处理后的音频块是否具有声音流,音频块存储部将声音流判断部判断为具有声音流的音频块作为有效音频块进行存储,识别请求文件处理部将需要识别的有效音频块处理为可以发送给识别服务器的识别请求文件,识别请求交互部通过通信部与识别服务器交互并发送识别请求文件,识别结果获取部根据识别服务器返回的结果获取最终的识别结果文本,输入显示部在语音识别画面的文本区中显示识别结果文本,翻译请求文件处理部将需要翻译的识别结果文本处理为可以发送给翻译服务器的翻译请求文件,翻译请求交互部通过通信部与翻译服务器交互并发送翻译请求文件,翻译结果获取部根据翻译服务器返回的结果获取与识别结果文本对应的翻译结果,输入显示部在语音翻译画面的文本区显示翻译结果。本专利技术提供的实时语音识别及翻译装置,还可以具有这样的技术特征,还包括:留白判断部,其中,留白判断部依次判断声音流判断部处理后的有效音频块,判断为留白过多时,获取控制部控制声音流获取部停止对待识别声音流的获取。本专利技术提供的实时语音识别及翻译装置,还可以具有这样的技术特征,还包括:留白判断部;终端还具有麦克风;其中,输入操作画面还具有麦克风录音选择画面,用户选择通过麦克风录入待识别文件,获取控制部控制麦克风开始录音,进一步控制声音流获取部从麦克风的录音中获取待识别声音流,留白判断部依次判断声音流判断部处理后的音频块,判断为留白过多时,获取控制部控制声音流获取部停止获取识别声音流,并控制麦克风停止录音。本专利技术提供的实时语音识别及翻译装置,还可以具有这样的技术特征,还包括:音频块缓存控制部,其中,音频块以14秒为一段,在音频块缓存部中的缓存数量在20个以下,当音频块的数量超出20个时,音频块缓存控制部控制音频块缓存部将新的音频块覆盖当前最早生成的音频块。本专利技术提供的实时语音识别及翻译装置,还可以具有这样的技术特征,其中,识别请求文件处理部、识别请求交互部以及识别结果获取部的语音识别过程运行基于如下步骤:步骤A1,通过预先设定的api参数拼接识别服务器的url地址;步骤A2,向识别服务器发送request请求;步骤A3,对识别服务器返回的参数筛选获得token参数;步骤A4,依次读取需要识别的音频块,并由token参数监听读取的过程;步骤A5,将音频块转化为字节类型的多个参数;步骤A6,将多个参数打包为字典参数;步骤A7,将字典参数与token参数作为识别请求文件发送给识别服务器;步骤A8,获取识别服务器返回的结果并筛选出识别内容;步骤A9,将识别结构内容转化为文本并输出。本专利技术提供的实时语音识别及翻译装置,还可以具有这样的技术特征,其中,翻译请求文件处理部、翻译请求交互部以及翻译结果获取部的语音翻译过程运行基于如下步骤:步骤B1,获取预先设定的翻译网站地址;步骤B2,向翻译网站地址的翻译服务器发送预设单词,请求响应,查看其产生的动态参数;步骤B3,将动态参数打包为参数字典;步骤B4,将需要翻译的识别结果文本根据参数字典打包为翻译请求文件;步骤B5,将参数字典发送给翻译服务器;步骤B6,以post的方式模拟浏览器请求发起过程,将翻译请求发送给翻译服务器;步骤B7,获取翻译服务器返回的响应字典;步骤B8,将响应字典转化为响应字符串;步骤B9,解析响应字符串,获取对应翻译内容的译文字符串;步骤B10,将译文字符串转化为译文字典;步骤B11,将译文字典转化为与识别结果文本对应的翻译结果。专利技术作用与效果根据本专利技术的实时语音识别及翻译装置,提供了对视频或是现场演讲的实时翻译,可以自动、实时地提取视频或是现场演讲的语音文本内容,通过根据语音中的断句将声音流分块,同时滤去其中噪音的音频块,能够使语音识别更好地处理断句;该装置还可以实现多语言的识别或翻译,并支持在识别过程中将语言直接翻译输出;由于大部分的识别以及运算都交由服务器执行,因此该装置具有轻量化的特征,不需要很好的硬件、软件支持,可以被安装在普通的电脑或者小设备中,节约经济成本。附图说明图1是本专利技术实施例的装置的结构框图;图2是本专利技术实施例的装置的语音识别过程的流程图;以及图3是本专利技术实施例的装置的语音翻译过程的流程图。具体实施方式以下结合附图来说明本专利技术的具体实施方式。<实施例>图1是本专利技术实施例的装置的结构框图。如图1所示,本实施例提供的结合爬虫技术的轻量级实时语音识别及翻译装置100包括:画面存储部11、输入显示部12、获取控制部13、声音流获取部14、声音流分块部15、音频块缓存部16、音频块缓存控制部17、噪音筛选部18、声音流判断部19、留白判断部20、音频块存储部21、识别请求文件处理部22、识别请求交互部23、识别结果获取部24、翻译请求文件处理部25、翻译请求交互部26、翻译结果获取部27、通信部28以及控制上述各部运行的系统控制部29。画面存储部11存储有用户输入操作画面、语音识别画面以及语音翻译画面。用户输入操作画面包括有待识别文件选择画面以及麦克风录音选择画面。输入显示部12显示所述用户输入操作画面让用户选择需要进行识别的待识别文件或是选择使用麦克风录入待识别文件。用户直接选择待识别文件时,获取控制部13控制声音流获取部14从所述待识别文件中获取待识别声音流;用户选择使用麦克风录入待识别文件时,获取控制部13控制麦克风开始录音,进一步控制声音流获取部14从麦克风的录音中获取待识别声音流。声音流分块部15将所述待识别声音流切分成音频块。音频块每块的时长为14秒。音频块缓存部16对音频块进行暂存。音频块缓存控制部17控制音频块缓存部16中的音频块数量在20个以下。当音频块数本文档来自技高网...

【技术保护点】
1.一种结合爬虫技术的轻量级实时语音识别及翻译装置,设置在连入互联网的终端中,通过与服务器交互进行语音识别及翻译,其特征在于,包括:画面存储部、输入显示部、获取控制部、声音流获取部、声音流分块部、音频块缓存部、噪音筛选部、声音流判断部、音频块存储部、识别请求文件处理部、识别请求交互部、识别结果获取部、翻译请求文件处理部、翻译请求交互部、翻译结果获取部以及通信部;所述画面存储部存储有用户输入操作画面、语音识别画面以及语音翻译画面,所述输入显示部显示所述用户输入操作画面让用户选择需要进行识别的待识别文件,所述获取控制部控制所述声音流获取部从所述待识别文件中获取待识别声音流,所述声音流分块部将所述待识别声音流切分成音频块,所述音频块缓存部对所述音频块进行暂存,所述噪音筛选部依次筛选所述音频块并丢弃属于噪音的所述音频块,所述声音流判断部依次判断所述噪音筛选部处理后的所述音频块是否具有声音流,所述音频块存储部将所述声音流判断部判断为具有声音流的所述音频块作为有效音频块进行存储,所述识别请求文件处理部将需要识别的所述有效音频块处理为可以发送给识别服务器的识别请求文件,所述识别请求交互部通过所述通信部与所述识别服务器交互并发送所述识别请求文件,所述识别结果获取部根据所述识别服务器返回的结果获取最终的识别结果文本,所述输入显示部在所述语音识别画面的文本区中显示所述识别结果文本,所述翻译请求文件处理部将需要翻译的所述识别结果文本处理为可以发送给翻译服务器的翻译请求文件,所述翻译请求交互部通过所述通信部与所述翻译服务器交互并发送所述翻译请求文件,所述翻译结果获取部根据所述翻译服务器返回的结果获取与所述识别结果文本对应的翻译结果,所述输入显示部在所述语音翻译画面的文本区显示所述翻译结果。...

【技术特征摘要】
1.一种结合爬虫技术的轻量级实时语音识别及翻译装置,设置在连入互联网的终端中,通过与服务器交互进行语音识别及翻译,其特征在于,包括:画面存储部、输入显示部、获取控制部、声音流获取部、声音流分块部、音频块缓存部、噪音筛选部、声音流判断部、音频块存储部、识别请求文件处理部、识别请求交互部、识别结果获取部、翻译请求文件处理部、翻译请求交互部、翻译结果获取部以及通信部;所述画面存储部存储有用户输入操作画面、语音识别画面以及语音翻译画面,所述输入显示部显示所述用户输入操作画面让用户选择需要进行识别的待识别文件,所述获取控制部控制所述声音流获取部从所述待识别文件中获取待识别声音流,所述声音流分块部将所述待识别声音流切分成音频块,所述音频块缓存部对所述音频块进行暂存,所述噪音筛选部依次筛选所述音频块并丢弃属于噪音的所述音频块,所述声音流判断部依次判断所述噪音筛选部处理后的所述音频块是否具有声音流,所述音频块存储部将所述声音流判断部判断为具有声音流的所述音频块作为有效音频块进行存储,所述识别请求文件处理部将需要识别的所述有效音频块处理为可以发送给识别服务器的识别请求文件,所述识别请求交互部通过所述通信部与所述识别服务器交互并发送所述识别请求文件,所述识别结果获取部根据所述识别服务器返回的结果获取最终的识别结果文本,所述输入显示部在所述语音识别画面的文本区中显示所述识别结果文本,所述翻译请求文件处理部将需要翻译的所述识别结果文本处理为可以发送给翻译服务器的翻译请求文件,所述翻译请求交互部通过所述通信部与所述翻译服务器交互并发送所述翻译请求文件,所述翻译结果获取部根据所述翻译服务器返回的结果获取与所述识别结果文本对应的翻译结果,所述输入显示部在所述语音翻译画面的文本区显示所述翻译结果。2.根据权利要求1所述的,其特征在于,还包括:留白判断部,其中,所述留白判断部依次判断所述声音流判断部处理后的所述有效音频块,判断为留白过多时,所述获取控制部控制所述声音流获取部停止对所述待识别声音流的获取。3.根据权利要求1所述的,其特征在于,还包括:留白判断部;所述终端还具有麦克风;其中,所述输入操作画面还具有麦克风录音选择画面,用户选择通过所述麦克风录入所述待识别文件,所述获取控制部控制所述麦克风开始录音,...

【专利技术属性】
技术研发人员:牛亚运仲梁维王培成王俊杨钰博
申请(专利权)人:上海理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1