当前位置: 首页 > 专利查询>湖南大学专利>正文

具有语音控制和哼唱检索功能的多媒体播放装置制造方法及图纸

技术编号:9878843 阅读:97 留言:0更新日期:2014-04-04 17:54
本实用新型专利技术公开了一种具有语音控制和哼唱检索功能的多媒体播放装置,包括人机交互模块、语音输入模块、语音数据处理模块、中央处理器、媒体存储模块、播放解码模块、音频输出模块和网络接口模块,语音输入模块与语音数据处理模块的输入端相连,语音数据处理模块与中央处理器相连,中央处理器还分别与人机交互模块、媒体存储模块、网络接口模块相连,且所述中央处理器的输出端通过播放解码模块与音频输出模块相连。本实用新型专利技术具有能够解放用户的双手、用户体验好、使用方便、哼唱检测精确、应用范围广的优点。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
【专利摘要】本技术公开了一种具有语音控制和哼唱检索功能的多媒体播放装置,包括人机交互模块、语音输入模块、语音数据处理模块、中央处理器、媒体存储模块、播放解码模块、音频输出模块和网络接口模块,语音输入模块与语音数据处理模块的输入端相连,语音数据处理模块与中央处理器相连,中央处理器还分别与人机交互模块、媒体存储模块、网络接口模块相连,且所述中央处理器的输出端通过播放解码模块与音频输出模块相连。本技术具有能够解放用户的双手、用户体验好、使用方便、哼唱检测精确、应用范围广的优点。【专利说明】具有语音控制和哼唱检索功能的多媒体播放装置
本技术涉及多媒体设备领域,具体涉及一种具有语音控制和哼唱检索功能的多媒体播放装置。
技术介绍
现有技术的音乐播放装置所具备的仅仅是对音频文件手动的播放、暂停、上一曲等等常规的操控,对于数字音频的资源搜索也仅仅是通过用户输入歌曲名、歌唱者等等限制条件来完成。这一些限制条件使得用户在使用播放器时,并不能解放出自己的双手,同时对于自己不确定名称的歌曲无法搜索到歌曲资源,这些都极大的降低了用户的体验度。
技术实现思路
本技术要解决的技术问题是提供一种能够解放用户的双手、用户体验好、使用方便、哼唱检测精确、应用范围广的具有语音控制和哼唱检索功能的多媒体播放装置。为了解决上述技术问题,本技术采用的技术方案为:一种具有语音控制和哼唱检索功能的多媒体播放装置,包括人机交互模块、语音输入模块、语音数据处理模块、中央处理器、媒体存储模块、播放解码模块、音频输出模块和网络接口模块,所述语音输入模块与语音数据处理模块的输入端相连,所述语音数据处理模块与中央处理器相连,所述中央处理器还分别与人机交互模块、媒体存储模块、网络接口模块相连,且所述中央处理器的输出端通过播放解码模块与音频输出模块相连。作为上述技术方案的进一步改进:所述人机交互模块为触摸显示屏模块。所述语音数据处理模块为DSP处理器。所述网络接口模块为3G接口模块、GPRS接口模块、WIFI接口模块中的一种。本技术具有下述优点:本技术包括人机交互模块、语音输入模块、中央控制模块、媒体存储模块、播放解码模块、音频输出模块、哼唱数据处理模块和网络接口模块,中央控制模块分别与人机交互模块、语音输入模块、播放解码模块、哼唱数据处理模块、网络接口模块相连,哼唱数据处理模块分别与媒体存储模块、网络接口模块相连,播放解码模块的数据输入端与媒体存储模块相连,播放解码模块的音频数据输出端与音频输出模块相连,本技术结合语音控制和哼唱检索,用户能够实现两种方式的音频播放控制以及资源管理,第一种通过触屏的方式,第二种通过语音输入控制指令的方式完成系统的控制与管理,语音控制基于网络方式传输识别请求,具有实现简单的特点,同时用户通过哼唱数据处理模块可以实现无手动控制,解放了用户的双手,特别适合于用户在车载、加工操作等场合中。哼唱数据处理模块利用用户提供简单的一段哼唱旋律实现数字音频资源的搜索,并通过网络传输的方式返回用户所搜索的音频资源,避免了用户在忘记歌曲名称和歌唱者时无法获取音频资源的尴尬情况。综上所述,本技术相对于传统的音频播放装置极大的提升了应用场合的适应性和用户体验度,能够解放用户的双手,具有用户体验好、使用方便、哼唱检测精确、应用范围广的优点。【专利附图】【附图说明】图1为本技术实施例方法的实施流程示意图。图2为本技术实施例的框架结构示意图。图3为本技术实施例中人机交互模块的电路原理示意图。图4为本技术实施例中语音输入模块、播放解码模块和音频输出模块的电路原理示意图。图5为本技术实施例中网络接口模块的电路原理示意图。图6为本技术实施例中语音数据处理模块的框架结构示意图。图7为本技术实施例中匹配搜索服务端的框架结构示意图。图8为本技术实施例中语音控制模式的工作原理示意图。图9为本技术实施例中哼唱检索模式的工作原理示意图。图例说明:1、人机交互模块;2、语音输入模块;3、语音数据处理模块;31、预处理模块;311、分帧子模块;312、加窗子模块;313、短时能量计算子模块;314、过零率计算子模块;315、端点判断子模块;316、语音增强子模块;32、哼唱数据处理模块;321、短时平均幅度差计算子模块;322、基音序列提取子模块;323、音符序列转换子模块;4、中央处理器;5、媒体存储模块;6、播放解码模块;7、音频输出模块;8、网络接口模块;9、匹配搜索服务端;91、广度搜索子模块;92、精细匹配子模块;10、语音识别服务端。【具体实施方式】如图1所示,本实施例具有语音控制和哼唱检索功能的多媒体播放装置包括人机交互模块1、语音输入模块2、语音数据处理模块3、中央处理器4、媒体存储模块5、播放解码模块6、音频输出模块7和网络接口模块8,语音输入模块2与语音数据处理模块3的输入端相连,语音数据处理模块3与中央处理器4相连,中央处理器4还分别与人机交互模块1、媒体存储模块5、网络接口模块8相连,且中央处理器4的输出端通过播放解码模块6与音频输出模块7相连。本实施例中,人机交互模块I用于接收用户选择包括语音控制模式和哼唱检索模式在内的工作模式;语音输入模块2用于采集语音数据;语音数据处理模块3用于对采集的语音数据进行预处理,以及在哼唱检索模式下进一步根据预处理后的语音数据提取基音序列并转换为音符序列;中央处理器4用于在语音控制模式下将预处理后的语音数据与语法规则上传至互联网上的语音识别服务端10进行语音识别,根据语音识别服务端10返回的识别结果对本地的多媒体资源进行播放控制或者资源管理,以及在哼唱检索模式下将音符序列发送给互联网上的匹配搜索服务端9,通过匹配搜索服务端9在音符特征数据库中进行匹配搜索找到与音符序列相匹配的多媒体资源身份信息,并根据多媒体资源身份信息从互联网下载对应的多媒体资源并存储到媒体存储模块;媒体存储模块5用于存储本地的多媒体资源;播放解码模块6用于对播放控制的多媒体资源进行解码;音频输出模块7用于将多媒体资源解码后得到的音频输出;网络接口模块8用于为中央处理器提供互联网访问语音识别服务端和匹配搜索服务端的功能;匹配搜索服务端9用于在音符特征数据库中进行匹配搜索找到与音符序列相匹配的多媒体资源身份信息并返回给中央处理器4,语音数据处理模块3的输入端与语音输入模块2相连,中央处理器4分别与人机交互模块1、语音数据处理模块3、媒体存储模块5相连,中央处理器4通过网络接口模块8与互联网的语音识别服务端10和匹配搜索服务端9相连,中央处理器4的输出端通过播放解码模块6与音频输出模块7相连。如图2所示,本实施例的工作过程如下:1)用户通过人机交互模块I选择工作模式,语音输入模块2采集语音数据并通过专用语音数据处理芯片(语音数据处理模块3)进行预处理,当用户选择的工作模式为语音控制模式则跳转执行步骤2),如果用户选择的工作模式为哼唱检索模式则跳转执行步骤3);2)中央处理器4将预处理后的语音数据与语法规则上传至互联网上的语音识别服务端10进行语音识别,根据语音识别服务端10返回的识别结果对本地的多媒体资源进行播放控制或者资源管理;3)中央处理器4将预处理后的语音数据通过专本文档来自技高网...

【技术保护点】
一种具有语音控制和哼唱检索功能的多媒体播放装置,其特征在于:包括人机交互模块(1)、语音输入模块(2)、语音数据处理模块(3)、中央处理器(4)、媒体存储模块(5)、播放解码模块(6)、音频输出模块(7)和网络接口模块(8),所述语音输入模块(2)与语音数据处理模块(3)的输入端相连,所述语音数据处理模块(3)与中央处理器(4)相连,所述中央处理器(4)还分别与人机交互模块(1)、媒体存储模块(5)、网络接口模块(8)相连,且所述中央处理器(4)的输出端通过播放解码模块(6)与音频输出模块(7)相连。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵欢王飞陈佐干文洁
申请(专利权)人:湖南大学
类型:新型
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1