一种快速实现语音交互功能的系统技术方案

技术编号:26169897 阅读:18 留言:0更新日期:2020-10-31 13:35
本申请涉及一种快速实现语音交互功能的系统,其中,该一种快速实现语音交互功能的系统通过I2S标准麦克风阵列采集用户的第一模拟语音数据;语音转换单元将第一模拟语音数据转换为第一数字语音数据,以及将第二数字语音数据转换为第二模拟语音数据;语音处理单元对第一数字语音数据进行全链路语音处理,以生成与第一数字语音数据相对应的第二数字语音数据,其中,语音处理单元独立运行于安卓设备的操作系统;I2S标准播放器播放第二模拟语音数据。通过本申请,解决了现有技术中语音交互功能开发难度高、周期长、不具有可移植性以及复杂度高的问题,实现了快速开发语音交互功能的技术效果。

A system for fast realization of voice interaction

【技术实现步骤摘要】
一种快速实现语音交互功能的系统
本申请涉及语音交互领域,特别是涉及一种快速实现语音交互功能的系统。
技术介绍
随着人工智能技术的普及,语音识别技术也发展的越来越快,且被应用于各种安卓设备上,用以提升安卓设备的操控便捷性和人机交互体验。现有的安卓设备的语音交互功能的开发流程一般为如下步骤:硬件选型,根据语音交互功能对算力、RAM(RandomAccessMemory,随机存取存储器)、ROM(Read-OnlyMemory,只读存储器)等资源的需求,选择相应CPU(CentralProcessingUnit,中央处理器)、DDRSDRAM(DoubleDataRateSynchronousDynamicRandomAccessMemory,双倍速率同步动态随机存储器)、麦克风和喇叭等硬件;识别引擎移植,根据安卓设备部署的操作系统,在对语音识别引擎的算法进行交叉编译和调试的情况下,将语音识别引擎移植到安卓设备上;录音和放音开发测试,对已经选择好的硬件进行开发调试,如在对麦克风阵列录音质量测试的情况下,需要对麦克风进行增益测试、一致性测试,并且也需要对驱动程序进行开发和调试;上层应用语音开发,对上述语音识别引擎的调试、录音能力以及放音能力的开发调试进行整合,即调用麦克风阵列采集用户的指令录音,并将指令录音发送到语音识别引擎得到指令文本,然后语音识别引擎解析该指令文本以执行与指令文本相对应的执行动作,然后对指令动作完成播报;上层应用业务开发,在应用语音能力开发的情况下,需要在应用语音能力的基础上逐步实现业务需求,即基于应用语音能力开发各种业务功能,如GUI(GraphicalUserInterface,图形用户界面)动画渲染、拟人播报应答。相关技术中,在对语音交互功能进行开发的情况下,一般难度较高,需要软件工程师、硬件工程师以及算法工程师共同参与设计和实现;且在对语音交互功能进行开发的情况下,从设计、实现到调优,周期较长,需要耗费大量的时间成本;并且针对于不同的安卓设备的硬件和产品需求,语音识别引擎中语音控制部分不具有可移植性;在对语音交互功能进行开发的情况下,软件工程师既要实现语音识别殷勤的识别播报能力,又要实现具体业务需求,难以并行开发,复杂度较高。目前针对相关技术中语音交互功能开发难度高、周期长、不具有可移植性以及复杂度高的问题,尚未提出有效地解决方案。
技术实现思路
本申请实施例提供了一种快速实现语音交互功能的系统,以至少解决相关技术中语音交互功能开发难度高、周期长、不具有可移植性以及复杂度高的问题。本专利技术提供了一种快速实现语音交互功能的系统,应用于安卓设备,包括:I2S标准麦克风阵列,用于采集用户的第一模拟语音数据;语音转换单元,用于将所述第一模拟语音数据转换为第一数字语音数据,以及将第二数字语音数据转换为第二模拟语音数据;语音处理单元,用于对所述第一数字语音数据进行全链路语音处理,以生成与所述第一数字语音数据相对应的所述第二数字语音数据,其中,所述语音处理单元独立运行于所述安卓设备的操作系统,所述全链路语音处理包括语音识别、语义理解、对话管理、自然语言生成以及文本转语音;I2S标准播放器,用于播放所述第二模拟语音数据。进一步地,还包括:I2S标准接口,用于接收所述I2S标准麦克风阵列发送的所述第一模拟语音数据、并将所述第一模拟语音数据发送到所述语音转换单元,以及接收所述语音转换单元发送的所述第二模拟语音数据、并将所述第二模拟语音数据发送到所述I2S标准播放器。进一步地,所述语音处理单元包括:语音识别模块,用于识别所述第一数字语音数据以获取用户意图,并将所述用户意图发送到所述安卓设备的应用层,其中,所述语音识别模块具有可移植性,能够使所述语音处理单元运行在若干种处理器架构上。进一步地,所述语音处理单元还包括:语音合成模块,用于在所述安卓设备的应用层生成与所述用户意图相对应的执行动作的执行动作结果的情况下,根据所述执行动作结果合成所述第二数字语音数据。进一步地,所述语音处理单元还包括:配置模块,用于配置所述I2S标准麦克风阵列的参数。进一步地,还包括:JNI标准动态链接库,用于接收所述语音转换单元发送的所述第一数字语音数据,并将所述第一数字语音数据发送到所述语音处理单元。进一步地,所述语音处理单元还包括:通信接口,用于与所述安卓设备的应用层进行进程间通信。进一步地,所述通信接口包括:调用接口,用于调用所述语音处理单元执行与所述第一数字语音数据相对应的执行动作。进一步地,所述通信接口还包括:事件通报接口,用于向所述安卓设备的应用层通报执行结果。进一步地,所述语音转换单元可以为Tinyalsa音频驱动。相比于相关技术,本申请实施例提供的一种快速实现语音交互功能的系统,包括:I2S标准麦克风阵列,用于采集用户的第一模拟语音数据;语音转换单元,用于将第一模拟语音数据转换为第一数字语音数据,以及将第二数字语音数据转换为第二模拟语音数据;语音处理单元,用于对第一数字语音数据进行全链路语音处理,以生成与第一数字语音数据相对应的第二数字语音数据,其中,语音处理单元独立运行于安卓设备的操作系统,全链路语音处理包括语音识别、语义理解、对话管理、自然语言生成以及文本转语音;I2S标准播放器,用于播放第二模拟语音数据。解决了现有技术中语音交互功能开发难度高、周期长、不具有可移植性以及复杂度高的问题,实现了快速开发语音交互功能的技术效果。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是本专利技术实施例的一种快速实现语音交互功能的系统的结构框图一;图2是本专利技术实施例的一种快速实现语音交互功能的系统的结构框图二;图3是本专利技术实施例的一种快速实现语音交互功能的系统的结构框图三;图4是本专利技术实施例的一种快速实现语音交互功能的系统的结构框图四;图5是本专利技术实施例的一种快速实现语音交互功能的系统的结构框图五;图6是本专利技术实施例的一种快速实现语音交互功能的系统的结构框图六。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本文档来自技高网
...

【技术保护点】
1.一种快速实现语音交互功能的系统,应用于安卓设备,其特征在于,包括:/nI2S标准麦克风阵列,用于采集用户的第一模拟语音数据;/n语音转换单元,用于将所述第一模拟语音数据转换为第一数字语音数据,以及将第二数字语音数据转换为第二模拟语音数据;/n语音处理单元,用于对所述第一数字语音数据进行全链路语音处理,以生成与所述第一数字语音数据相对应的所述第二数字语音数据,其中,所述语音处理单元独立运行于所述安卓设备的操作系统,所述全链路语音处理包括语音识别、语义理解、对话管理、自然语言生成以及文本转语音;/nI2S标准播放器,用于播放所述第二模拟语音数据。/n

【技术特征摘要】
1.一种快速实现语音交互功能的系统,应用于安卓设备,其特征在于,包括:
I2S标准麦克风阵列,用于采集用户的第一模拟语音数据;
语音转换单元,用于将所述第一模拟语音数据转换为第一数字语音数据,以及将第二数字语音数据转换为第二模拟语音数据;
语音处理单元,用于对所述第一数字语音数据进行全链路语音处理,以生成与所述第一数字语音数据相对应的所述第二数字语音数据,其中,所述语音处理单元独立运行于所述安卓设备的操作系统,所述全链路语音处理包括语音识别、语义理解、对话管理、自然语言生成以及文本转语音;
I2S标准播放器,用于播放所述第二模拟语音数据。


2.根据权利要求1所述的系统,其特征在于,还包括:
I2S标准接口,用于接收所述I2S标准麦克风阵列发送的所述第一模拟语音数据、并将所述第一模拟语音数据发送到所述语音转换单元,以及接收所述语音转换单元发送的所述第二模拟语音数据、并将所述第二模拟语音数据发送到所述I2S标准播放器。


3.根据权利要求1所述的系统,其特征在于,所述语音处理单元包括:
语音识别模块,用于识别所述第一数字语音数据以获取用户意图,并将所述用户意图发送到所述安卓设备的应用层,其中,所述语音识别模块具有可移植性,能够使所述语音处理单元运行在若干种处理器架构上。
...

【专利技术属性】
技术研发人员:刘重凯李旭滨
申请(专利权)人:上海茂声智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1