一种基于人工智能的自动调音终端设备制造技术

技术编号:28041870 阅读:14 留言:0更新日期:2021-04-09 23:25
本发明专利技术公开了一种基于人工智能的自动调音终端设备,本发明专利技术属于人工智能领域,涉及语音识别技术;用于解决但现有语音识别技术无法根据用户的个人语言习惯以及语速形成专属调节数据库,进而导致语音识别成功率降低,影响使用体验的问题;感知模块对使用场景中连入同一个无线网或/和局域网或/和专用网络内的物联网设备进行识别,可以针对性的对用户进行语音训练,同时,新特征采集识别模块内标准指令集可以进行一步缩小用户的语音训练难度,进而提高识别率;通过特征学习模块的设置,进而可以根据用户的语言特色建立对应的数据库,进而提高识别准确率;通过人工智能调节模块的设置进而提高提高识别准确度。

【技术实现步骤摘要】
一种基于人工智能的自动调音终端设备
本专利技术属于人工智能领域,涉及语音识别技术,具体是一种基于人工智能的自动调音终端设备。
技术介绍
语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息
十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等;与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用,例如在翼卡车联网中,只需按一键通客服人员口述即可设置目的地直接导航,安全、便捷。但现有语音识别技术无法根据用户的个人语言习惯以及语速形成专属调节数据库,进而导致语音识别成功率降低,影响使用体验。
技术实现思路
本专利技术的目的在于提供一种基于人工智能的自动调音终端设备,用于解决但现有语音识别技术无法根据用户的个人语言习惯以及语速形成专属调节数据库,进而导致语音识别成功率降低,影响使用体验的问题。本专利技术的目的可以通过以下技术方案实现:一种基于人工智能的自动调音终端设备,包括新特征采集识别模块、特征学习模块、特征生成模块、感知模块、采集模块以及人工智能调节模块;所述,人工智能调节模块用于对识别失败的音频信息进行智能修复,具体步骤如下:步骤一:获取无法识别的音频信息,进行MFCC转换,并与新特征数据库进行匹配,并将无法识别的音频信息对应的最终识别内容进行输出;步骤二:将MFCC转换后的无法识别的音频信息的音素频率图代入坐标内,调取最终识别内容对应的学习音素频率图,并将学习音素频率图代入坐标内;步骤三:比较两个音素频率图内的每个转折点,当出现转折点不同时,获取不同转折点对应的音素,此时将无法识别的音频信息的音素频率图中对应的音素标记为异常音素,将学习音素频率图中对应的音素标记为修正音素,并将其存储;步骤四:将修正音素与异常音素发送至采集模块。进一步地,采集模块用于采集用户的音频信息,并将音频信息进行储存;其中,当采集模块接收到异常音素与对应的修正音素后,再次采集时,若出现异常音素时,采集模块将异常音素替换为修正音素,完成采集。进一步地,所述特征学习模块用于实时收集用户的语音信息,并将收集到的音频代入声学模型进行建模,并获取声学模型中每一帧所对应的音素,并通过MFCC转换,得到学习音素频率图;其中,当学习音素频率图出现某段频率曲线与标准音素频率图相同的频率曲线时,将学习音素频率图中相同的频率曲线标记为关键音素,并将带有关键音素的这段音素进行提取。进一步地,所述特征学习模块内安装有若干语音识别软件,将提取后的这段音素发送至语音识别软件进行认证识别,并获取第一种语音识别软件的识别内容,并将识别内容标记为第一识别文本,获取第二种语音识别软件的识别内容,并将识别内容标记为第二识别文本;对比第一识别文本与第二识别文本,如果相似度低于95%,则将提取后的这段音素发送至第三种语音识别软件进行识别,并获取第三种语音识别软件的识别内容,并将识别内容标记为第三识别文本;将第三识别文本分别与第一识别文本和第二识别文本进行对比,选取相似度高于95%的识别文本为最终识别内容,并将最终识别内容进行存储;其中若干最终识别内容共同组成新特征数据库。进一步地,新特征采集识别模块用于对新用户进行语音判别,其中,新用户具体指第一次使用自动调音终端设备的用户。进一步地,所述新特征采集识别模块内设置有存储单元,存储单元内存储有标准指令集,其中,新用户使用自动调音终端设备时,新特征采集识别模块与感知模块建立数据链接,获取感知模块内的感知数据,并根据感知数据代入标准指令集内让新用户进行反馈。进一步地,所述标准指令集具体为,打开XXX指令,关闭XXX指令,调节XXX指令;具体的XXX为感知数据内所有项目;同时新特征采集识别模块将标准指令集发送给新用户,并记录新用户朗读标准指令集的初始音频信息,并将初始音频信息代入声学模型进行建模,并获取声学模型中每一帧所对应的音素,并将音素发送至特征生成模块。进一步地,所述特征生成模块用于存储声学模型中每一帧所对应的音素,并将音素进行MFCC转换,得到标准音素频率图。进一步地,所述感知模块用于对使用场景内的智能物联网电器进行识别并标记,具体为:生成各设备类型对应的识别标签和特征参量信息,其中,所述特征参量信息是基于不同类型的设备间的差异生成的,每种设备类型对应一个特征参量信息;将所述识别标签与特征参量信息进行关联配置;在有未识别出设备类型的目标设备接入时,获取接入的目标设备的识别标签,根据所述获取的识别标签和所述关联配置,获取与所述目标设备适配的特征参量信息。与现有技术相比,本专利技术的有益效果是:(1)通过感知模块对使用场景中连入同一个无线网或/和局域网或/和专用网络内的物联网设备进行识别,可以可以针对性的对用户进行语音训练,同时,新特征采集识别模块内标准指令集可以进行一步缩小用户的语音训练难度,进而提高识别率;(2)通过特征学习模块的设置,使得实时收集用户的语音信息可以将收集到的音频代入声学模型进行建模,并获取声学模型中每一帧所对应的音素,并通过MFCC转换,得到学习音素频率图当学习音素频率图出现某段频率曲线与标准音素频率图相同的频率曲线时,将学习音素频率图中相同的频率曲线标记为关键音素,并将带有关键音素的这段音素进行提取;此时特征学习模块与语音识别软件建立数据链接,并同时将提取后的这段音素发送至语音识别软件进行认证识别,具体的,获取第一种语音识别软件的识别内容,并将识别内容标记为第一识别文本,获取第二种语音识别软件的识别内容,并将识别内容标记为第二识别文本;需要注意的是第一种语音识别软件与第二种语音识别软件为不同声学模型的软件,具体的语音识别软件可以为讯飞语音识别软件、百度语音识别软、搜狗语音识别软、阿里语音识别软以及腾讯语音识别软,本专利技术在此不做具体限定;对比第一识别文本与第二识别文本,如果相似度低于95%,则将提取后的这段音素发送至第三种语音识别软件进行识别,并获取第三种语音识别软件的识别内容,并将识别内容标记为第三识别文本;将第三识别文本分别与第一识别文本和第二识别文本进行对比,选取相似度高于95%的识别文本为最终识别内容,并将最终识别内容进行存储;其中若干最终识别内容共同组成新特征数据库,若第三识别文本分别与第一识别文本和第本文档来自技高网...

【技术保护点】
1.一种基于人工智能的自动调音终端设备,其特征在于,包括新特征采集识别模块、特征学习模块、特征生成模块、感知模块、采集模块以及人工智能调节模块;/n所述,人工智能调节模块用于对识别失败的音频信息进行智能修复,具体步骤如下:/n步骤一:获取无法识别的音频信息,进行MFCC转换,并与新特征数据库进行匹配,并将无法识别的音频信息对应的最终识别内容进行输出;/n步骤二:将MFCC转换后的无法识别的音频信息的音素频率图代入坐标内,调取最终识别内容对应的学习音素频率图,并将学习音素频率图代入坐标内;/n步骤三:比较两个音素频率图内的每个转折点,当出现转折点不同时,获取不同转折点对应的音素,此时将无法识别的音频信息的音素频率图中对应的音素标记为异常音素,将学习音素频率图中对应的音素标记为修正音素,并将其存储;/n步骤四:将修正音素与异常音素发送至采集模块。/n

【技术特征摘要】
1.一种基于人工智能的自动调音终端设备,其特征在于,包括新特征采集识别模块、特征学习模块、特征生成模块、感知模块、采集模块以及人工智能调节模块;
所述,人工智能调节模块用于对识别失败的音频信息进行智能修复,具体步骤如下:
步骤一:获取无法识别的音频信息,进行MFCC转换,并与新特征数据库进行匹配,并将无法识别的音频信息对应的最终识别内容进行输出;
步骤二:将MFCC转换后的无法识别的音频信息的音素频率图代入坐标内,调取最终识别内容对应的学习音素频率图,并将学习音素频率图代入坐标内;
步骤三:比较两个音素频率图内的每个转折点,当出现转折点不同时,获取不同转折点对应的音素,此时将无法识别的音频信息的音素频率图中对应的音素标记为异常音素,将学习音素频率图中对应的音素标记为修正音素,并将其存储;
步骤四:将修正音素与异常音素发送至采集模块。


2.根据权利要求1所述的一种基于人工智能的自动调音终端设备,其特征在于,采集模块用于采集用户的音频信息,并将音频信息进行储存;
其中,当采集模块接收到异常音素与对应的修正音素后,再次采集时,若出现异常音素时,采集模块将异常音素替换为修正音素,完成采集。


3.根据权利要求2所述的一种基于人工智能的自动调音终端设备,其特征在于,所述特征学习模块用于实时收集用户的语音信息,并将收集到的音频代入声学模型进行建模,并获取声学模型中每一帧所对应的音素,并通过MFCC转换,得到学习音素频率图;
其中,当学习音素频率图出现某段频率曲线与标准音素频率图相同的频率曲线时,将学习音素频率图中相同的频率曲线标记为关键音素,并将带有关键音素的这段音素进行提取。


4.根据权利要求3所述的一种基于人工智能的自动调音终端设备,其特征在于,所述特征学习模块内安装有若干语音识别软件,将提取后的这段音素发送至语音识别软件进行认证识别,并获取第一种语音识别软件的识别内容,并将识别内容标记为第一识别文本,获取第二种语音识别软件的识别内容,并将识别内容标记为第二识别文本;
对比第一识别文本与第二识别文本,如果相似度低于95%,则将提取后的这段音素...

【专利技术属性】
技术研发人员:李本江李本松
申请(专利权)人:江西台德智慧科技有限公司
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1