语音交互式播音系统及其中的音箱、计算机存储介质技术方案

技术编号:18952533 阅读:27 留言:0更新日期:2018-09-15 13:46
本发明专利技术创造涉及语音交互领域,尤其是一种语音交互式播音系统及其中的音箱,系统中存储有计算机可读存储介质,该计算机可读存储介质上的程序可被系统中的芯片执行,系统通过将手机作为语音交互式音箱的外接设备,在手机上安装特定的app,app运行手机现有的硬件资源,从而实现本该由语音交互式音箱负责的歌曲下载功能和语音识别任务,如此,语音交互式音箱则可省去内置的WIFI模块,且语音交互式音箱的芯片也可采用底层资源较少的非语音识别芯片,在同样实现音箱的语音交互功能的情况下,降低语音交互式音箱的成本。

Voice interactive broadcasting system and speakers, computer storage medium

The invention relates to the field of voice interaction, in particular to a voice interactive broadcasting system and a speaker therein, in which a computer-readable storage medium is stored, and programs on the computer-readable storage medium can be executed by a chip in the system. The system uses a mobile phone as an external device of the voice interactive speaker, and the system uses a mobile phone as an external device of the voice interactive speaker. With a specific app installed on the phone, the app runs the existing hardware resources of the phone, thus realizing the song download function and speech recognition tasks that should be handled by the voice interactive speaker. Thus, the voice interactive speaker can omit the built-in WIFI module, and the chip of the voice interactive speaker can also use non-language with less underlying resources. The voice recognition chip can reduce the cost of the voice interactive speaker under the condition of realizing the voice interactive function of the speaker.

【技术实现步骤摘要】
语音交互式播音系统及其中的音箱、计算机存储介质
本专利技术创造涉及语音交互领域,尤其是一种语音交互式播音系统及其中的音箱,系统中存储有计算机可读存储介质,该计算机可读存储介质上的程序可被系统中的芯片执行。
技术介绍
语音交互式音箱主要依靠内置的芯片来对麦克风采集的用户语音进行语音识别,识别出用户所说的歌曲名称后,通过内置的WIFI模块来从网络服务器中下载相应的歌曲。进行语音识别的过程中,芯片需要对用户的语音进行预处理,包括语音信号的采样、滤波降噪、语音增强、特征提取等多个处理步骤,用以从语音信号波形中提取一组或几组能够描述语音信号的特征参数,然后用特征参数与模式库中相应模板进行相似度配对,从而获得识别结果。由于涉及的算法复杂繁多,底层资源少、通信速率低的芯片无法胜任语音识别任务,需用市面上特定的语音识别芯片来制作语音交互式音箱,但是语音识别芯片作为系统级芯片,价格较高,导致语音交互式音的成本提升。
技术实现思路
本专利技术创造的目的是降低语音交互式音箱的成本。专利技术人发现手机作为一种人人皆有的通用设备,其上有移动通信模块,可以替代语音交互式音箱中的WIFI模块,实现网络歌曲下载功能,且手机上的芯片基本上是高性能芯片,该芯片的底层资源和通信速率足够胜任语音识别任务,籍此专利技术人想到将手机作为语音交互式音箱的外接设备,通过在手机上安装特定的app,app运行手机现有的硬件资源,从而实现本该由语音交互式音箱负责的歌曲下载功能和语音识别任务,如此,语音交互式音箱则可省去内置的WIFI模块,且语音交互式音箱的芯片也可采用底层资源较少的非语音识别芯片,在同样实现音箱的语音交互功能的情况下,降低语音交互式音箱的成本。籍此,专利技术人提供一种语音交互式播音系统的硬件结构,当软件人员对播音系统中的芯片和移动通信终端进行编程后,播音系统得以运行,运行时语音交互式音箱无需WIFI模块也能实现语音交互功能,并降低语音交互式音箱的成本。具体地,播音系统的硬件结构中包括音箱,音箱内设有芯片、DAC解码器、扬声器和麦克风,芯片、DAC解码器、扬声器依序电连接,麦克风把采集到的用户语音发送给芯片,系统还包括移动通信终端和数据线,音箱还设有有线接口,数据线两端分别可插拔连接所述移动通信终端和有线接口。其中,所述有线接口为USB串口母座,所述数据线是USB数据线。其中,所述芯片是具备USB串口资源的非语音识别芯片。其中,所述麦克风设有多个,音箱内还设有FPGA阵列,各个麦克风分别与FPGA阵列电连接。其中,所述音箱内还设有ADC编码器,ADC编码器的输入端与扬声器的输入端电连接,ADC编码器的输出端电连接至FPGA阵列。其中,所述音箱内还设有限幅电路,该限幅电路串接在扬声器的输入端与ADC编码器的输入端之间。专利技术人还提供一种计算机存储介质,该计算机存储介质中存储有程序,程序被所述播音系统执行时实现播音系统进行语音交互的方法,该方法具体包括以下步骤:上传步骤:芯片把麦克风采集回来的原始人声信号直接上传给移动通信终端;识别步骤:移动通信终端对原始人声信号进行语音识别;下载步骤:移动通信终端通过网络下载歌曲并传输给芯片。其中,方法还包括在上传步骤之前执行的合并步骤:所述FPGA阵列把各个麦克风采集的原始人声信号按时分复用的形式合并成一个数据帧。其中,方法还包括在合并步骤之前执行的回音消除步骤:所述移动通信终端把每个麦克风的采集信号与ADC编码器的输出信号进行差值处理,从而获得该麦克风采集到的原始人声信号。附图说明利用附图对本专利技术创造作进一步说明,但附图中的实施例不构成对本专利技术创造的任何限制,对于本领域的普通技术用户员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。图1是本专利技术创造的播音系统的硬件结构示意图。图2是芯片的电路图。图3是DAC解码器及扬声器的电路图。图4是FPGA阵列的电路图。图5是数字麦克风的电路图。图6是ADC编码器的电路图。图7是播音系统的程序流程图。具体实施方式结合以下实施例对本专利技术创造作进一步描述。见图1,图1为播音系统的硬件结构示意图,在图1中,播音系统主要由音箱1和手机2组成,手机2通过USB数据线与音箱1上的USB串口母座14进行可插拔通信。音箱1的内部设有如图2所示的芯片11,该芯片11是具备USB串口资源的非语音识别芯片,价格上比语音识别芯片要便宜。音箱1中还设有如图3所示的DAC解码器12以及扬声器13,芯片11、DAC解码器12、扬声器13这三者依序电连接。手机2下载好歌曲后,将歌曲传输给USB串口母座14,芯片11把USB串口母座14上的歌曲转发给DAC解码器12进行解码放大,解码后的音频通过扬声器13播放出来。音箱1内还设有一个如图4所示的FPGA阵列15和六个如图5所示的数字麦克风,六个数字麦克风形成一个麦克风阵列,麦克风阵列上各个麦克风的音频采集端均朝向同一个方向,从而通过阵列增益的方式来更好地采集用户语音,达到beamforming效果。六个数字麦克风的输出线分别连接FPGA阵列15,使用时FPGA阵列15对六个数字麦克风的采集信号进行合并处理,然后发给芯片11,由芯片11上传给手机2。需要说明的是,之所以采用芯片11加FPGA阵列15这种组合方式,是由于数字麦克风需要接时钟、数据等多根引线,一般芯片11本身并非门阵列结构,其封装上并无这么多根引脚来支持麦克风阵列,故需利用FPGA阵列复用技术来复合六个数字麦克风,FPGA阵列15再将合并后的信号发给芯片11,如此芯片11的可选择范围就增大了,市面上的一些低配置芯片也可用在语音交互式音箱1上。由于用户在说话时,经常伴有音箱1在播音,此时音箱1所播放的音乐会混杂在用户的人声中,一同被麦克风采集,故麦克风采集的信号是混音。为了从混音中分离出人声,音箱1中设置一个如图6所示的ADC编码器16,ADC编码器16的输入端与扬声器13的输入端电连接,ADC编码器16的输出端电连接至FPGA阵列15。通过把每个麦克风的采集信号与ADC编码器16的输出信号进行差值处理,使采集信号只剩原始人声信号。此外,由于扬声器13输入端处的信号幅值较大,在扬声器13的输入端与ADC编码器16的输入端之间串接一个二极管限幅电路17,通过二极管限幅电路17来将ADC编码器16输入端上的信号限定在FPGA阵列15可识别处理的幅值范围内。见图7,当播音系统被运行时,实现以下确定的方法:S1、用户对准音箱1上的麦克风阵列说出想要播放的歌曲名称时,麦克风阵列上的六个麦克风分别进行语音采集并发送给FPGA阵列15;S2、FPGA阵列15把六个麦克风的采集信号按时分复用的形式合并成一个数据帧,并在帧尾处添加ADC编码器16的输出信号,从而完成一个完整数据帧,然后把数据帧发给芯片11;S3、芯片11直接把数据帧按USB协议格式上传给手机上的app。S4、手机上的app获得数据帧后,先把六个麦克风的采集信号分别与ADC编码器16的输出信号进行差值处理,从而获得六个原始人声信号;然后将六个原始人声信号进行叠加,再参照现有的语音识别过程,对叠加后的原始人声信号进行采样、滤波降噪、语音增强、特征提取、相似度配对,从而获得识别结果,明确用户所说的歌曲名称;S5、明确歌曲名称后,手机app根据S4本文档来自技高网...

【技术保护点】
1.语音交互式播音系统,包括音箱,音箱内设有芯片、DAC解码器、扬声器和麦克风,芯片、DAC解码器、扬声器依序电连接,麦克风把采集到的用户语音发送给芯片,其特征在于:系统还包括移动通信终端和数据线,音箱还设有有线接口,数据线两端分别可插拔连接所述移动通信终端和有线接口。

【技术特征摘要】
1.语音交互式播音系统,包括音箱,音箱内设有芯片、DAC解码器、扬声器和麦克风,芯片、DAC解码器、扬声器依序电连接,麦克风把采集到的用户语音发送给芯片,其特征在于:系统还包括移动通信终端和数据线,音箱还设有有线接口,数据线两端分别可插拔连接所述移动通信终端和有线接口。2.根据权利要求1所述的语音交互式播音系统,其特征在于:所述有线接口为USB串口母座,所述数据线是USB数据线。3.根据权利要求2所述的语音交互式播音系统,其特征在于:所述芯片是具备USB串口资源的非语音识别芯片。4.根据权利要求3所述的语音交互式播音系统,其特征在于:所述麦克风设有多个,音箱内还设有FPGA阵列,各个麦克风分别与FPGA阵列电连接。5.根据权利要求4所述的语音交互式播音系统,其特征在于:所述音箱内还设有ADC编码器,ADC编码器的输入端与扬声器的输入端电连接,ADC编码器的输出端电连接至FPGA阵列。6.根据权利要求5所述的语音交互式播音系统,其特征在于:所述音箱内还设有限幅电路,该限幅电路串接在扬声器...

【专利技术属性】
技术研发人员:陈洪太胡中骥
申请(专利权)人:广东思派康电子科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1