一种文字音频推送用心跳技术制造技术

技术编号:21365270 阅读:37 留言:0更新日期:2019-06-15 10:10
本发明专利技术公开了一种文字音频推送用心跳技术,属于音频处理技术领域,包括S1.声音处理;S2.分段识别;S3.音频记忆;S4.根据概率识别音频;S5.音频文字推送。通过音频识别设备先将采集到的音频处理成声音波,再根据设备设置的前端点和后端点作为音频识别区间,采集到的音频被分段识别,每识别一段就推送给用户,这样用户在说话时每说完一句在停顿的间隙中,该段音频被识别成文字后推送出去,因此用户接收到的音频文字被分为一段段,每段发送的音频文字占用容量较小,即使网速较慢也可以快速的推送给用户,而且分段的文字便于用户观看。

A Heart Rate Technology for Text Audio Push

The invention discloses a heartbeat technology for text audio push, which belongs to the field of audio processing technology, including S1. sound processing; S2. segment recognition; S3. audio memory; S4. audio recognition based on probability; S5. audio text push. Through the audio recognition equipment, the collected audio is first processed into sound waves, and then the front and back endpoints set by the equipment are used as the audio recognition intervals. The collected audio is recognized by segments, and each segment of recognition is pushed to the user, so that when the user speaks, each sentence is in the pause gap, the segment of audio is recognized as text and pushed out, so the user receives it. Audio text is divided into sections, each section of the audio text sent occupies a smaller capacity, even if the network speed is slow, it can be quickly pushed to users, and the segment text is easy for users to watch.

【技术实现步骤摘要】
一种文字音频推送用心跳技术
本专利技术涉及音频处理
,特别涉及一种文字音频推送用心跳技术。
技术介绍
自动语音识别技术近年来发展迅速,使人们用语言与计算机进行通信与交流已成为可能。与键盘和鼠标等传统的人机交互方式相比,语音提供了一种更为自然的人机交互界面,音频文字自动提取是以语音识别系统的核心模块为基础,对参考文本和对应语音进行强制对准的过程,其目的在于将音频文字转换为文本文字。作为语音识别领域中一种常见的预处理技术,音频文字自动提取广泛应用在模型训练、多媒体检索、广播电视媒体、计算机辅助语言教学等方面,此外,还可为现场直播的新闻、演讲、会议等生成字幕;为语言教学、游戏娱乐、电影制作等生成多媒体库;为歌曲制作同步的歌词显示等。传统的自动语音识别技术在使用时仍存在一定的缺陷,传统的文字音频识别不具备分段识别和推送的功能,通常一大段一起识别推送,文字音频内容较多时占用的容量较大,遇到网络延时较高的时候,较大容量的文字音频推送给用户速率较慢,导致出现卡顿的情况发生,而且传统的语音识别采用人为设定音频的识别区间,该识别区间可以适应绝大部分人,由于每个人说话的语气和音调不同,因此极少数人说话的声音在识别时容易出现错误,准确率不高。
技术实现思路
本专利技术的目的就在于为了解决上述语音识别技术不具备分段识别推送的功能,导致网络延时较高时推送文字速率较慢以及传统的语音识别技术识别准确率低的问题而提供一种文字音频推送用心跳技术,具有类似心跳一样的分段识别推送音频和文字,音频识别具有记忆功能,识别准确率高的优点。本专利技术通过以下技术方案来实现上述目的,一种文字音频推送用心跳技术,包括以下步骤:S1.声音处理:由音频识别设备采集声音,将采集到的声音音频数据通过语音编码技术进行处理,生成声音波形,该波形的X轴为时间轴,单位为毫秒,Y轴为音量轴,单位为分贝;S2.分段识别:设置音频识别设备在前端点到后端点这一区间内识别文字,前端点和后端点均为声音产生到结束的时间间隔,前端点设定为100毫秒,后端点设定为500毫秒,当声音从产生到有效这段时间在100毫秒内时,音频设备开始识别声音,当声音从有效到结束的时间间隔到达500毫秒时,音频设备停止识别声音;S3.音频记忆:音频识别设备识别一次声音后记录声音从开始到结束的频率,通过分布函数计算出音频的平衡值,多次识别声音后将平衡值出现的不同概率以高到低的顺序依次保存到内部处理器中;S4.根据概率识别音频:由于每个人说话的音色不同,每个音频段采用的前端点和后端点不同,音频识别设备识别一段新的音频时,先以出现概率最高的平衡值的音频段作为识别依据,如果该音频为新的音频段时,重复上述S3将平衡值记忆,如果为S3记忆的音频段,直接选取该音频段的前端点和后端点;S5.音频文字推送:音频识别设备根据S1-S4步骤识别的文字通过内部的推送模块推送给用户。优选的,所述音频识别设备采集声音时通过外接的麦克风或者录音设备采集到用户的声音。优选的,所述S2中开始声音为有效声音,该有效声音为人耳可听到的声音,声音频率在20-20000Hz之间,结束声音为无效声音,该无效声音为人耳无法听到的声音,声音频率在0-20Hz之间。优选的,所述S3的分布函数计算平衡值的公式为离散型:连续型:其中E(X)为平衡值,离散型计算公式的x为声音的音量变量,连续型计算公式的x为声音的音量变量。优选的,所述S5的推送模块由主控芯片、解码器和无线网络传输模块组成,通过无线网络将音频和文字推送给服务器或者移动终端。与现有技术相比,本专利技术的有益效果是:通过音频识别设备先将采集到的音频处理成声音波,再根据设备设置的前端点和后端点作为音频识别区间,采集到的音频被分段识别,每识别一段就推送给用户,这样用户在说话时每说完一句在停顿的间隙中,该段音频被识别成文字后推送出去,因此用户接收到的音频文字被分为一段段,每段发送的音频文字占用容量较小,即使网速较慢也可以快速的推送给用户,而且分段的文字便于用户观看,音频识别时具有记忆功能,由于每个人的说话语气和音量不同,因此新的一段音频被识别后通过分布函数取平衡值的算法计算出该段音频的平衡值,根据平衡值出现的概率分类统计保存,当下次在遇到同一平衡值的音频可直接选用相应概率的前端点和后端点来识别音频,因此该音频识别设备使用次数越多,统计的前端点和后端点区间越多,识别起来更加准确。附图说明图1为本专利技术的心跳技术流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1所示,一种文字音频推送用心跳技术,包括以下步骤:S1.声音处理:由音频识别设备采集声音,将采集到的声音音频数据通过语音编码技术进行处理,生成声音波形,该波形的X轴为时间轴,单位为毫秒,Y轴为音量轴,单位为分贝;S2.分段识别:设置音频识别设备在前端点到后端点这一区间内识别文字,前端点和后端点均为声音产生到结束的时间间隔,前端点设定为100毫秒,后端点设定为500毫秒,当声音从产生到有效这段时间在100毫秒内时,音频设备开始识别声音,当声音从有效到结束的时间间隔到达500毫秒时,音频设备停止识别声音;S3.音频记忆:音频识别设备识别一次声音后记录声音从开始到结束的频率,通过分布函数计算出音频的平衡值,多次识别声音后将平衡值出现的不同概率以高到低的顺序依次保存到内部处理器中;S4.根据概率识别音频:由于每个人说话的音色不同,每个音频段采用的前端点和后端点不同,音频识别设备识别一段新的音频时,先以出现概率最高的平衡值的音频段作为识别依据,如果该音频为新的音频段时,重复上述S3将平衡值记忆,如果为S3记忆的音频段,直接选取该音频段的前端点和后端点;S5.音频文字推送:音频识别设备根据S1-S4步骤识别的文字通过内部的推送模块推送给用户。音频识别设备采集声音时通过外接的麦克风或者录音设备采集到用户的声音,S2中开始声音为有效声音,该有效声音为人耳可听到的声音,声音频率在20-20000Hz之间,结束声音为无效声音,该无效声音为人耳无法听到的声音,声音频率在0-20Hz之间。S3的分布函数计算平衡值的公式为离散型:连续型:其中E(X)为平衡值,离散型计算公式的x为声音的音量变量,连续型计算公式的x为声音的音量变量。S5的推送模块由主控芯片、解码器和无线网络传输模块组成,通过无线网络将音频和文字推送给服务器或者移动终端。本专利技术的工作原理:音频识别设备采集到声音后通过编码技术生产声音波形,设定的前端点和后端点的值不是一个具体数值,一般前端点设置100毫秒,后端点设置为500毫秒,该设备在将语音转换成文字时,无效声音到有效声音之间的时间间隔在100毫秒内开始转换成文字,直到有效声音和无效声音之间的时间间隔在500毫秒时停止转换文字,结束转换并将文字音频推送给用户,当一段新的音频数据被采集到后,音频识别设备根据分布函数计算出在可识别区间内的频段平衡值,经过多次统计平衡值计算出每个前端点和后端点出现的概率,下次在遇到同一平衡值的音频直接本文档来自技高网...

【技术保护点】
1.一种文字音频推送用心跳技术,其特征在于,包括以下步骤:S1.声音处理:由音频识别设备采集声音,将采集到的声音音频数据通过语音编码技术进行处理,生成声音波形,该波形的X轴为时间轴,单位为毫秒,Y轴为音量轴,单位为分贝;S2.分段识别:设置音频识别设备在前端点到后端点这一区间内识别文字,前端点和后端点均为声音产生到结束的时间间隔,前端点设定为100毫秒,后端点设定为500毫秒,当声音从产生到有效这段时间在100毫秒内时,音频设备开始识别声音,当声音从有效到结束的时间间隔到达500毫秒时,音频设备停止识别声音;S3.音频记忆:音频识别设备识别一次声音后记录声音从开始到结束的频率,通过分布函数计算出音频的平衡值,多次识别声音后将平衡值出现的不同概率以高到低的顺序依次保存到内部处理器中;S4.根据概率识别音频:由于每个人说话的音色不同,每个音频段采用的前端点和后端点不同,音频识别设备识别一段新的音频时,先以出现概率最高的平衡值的音频段作为识别依据,如果该音频为新的音频段时,重复上述S3将平衡值记忆,如果为S3记忆的音频段,直接选取该音频段的前端点和后端点;S5.音频文字推送:音频识别设备根据S1‑S4步骤识别的文字通过内部的推送模块推送给用户。...

【技术特征摘要】
1.一种文字音频推送用心跳技术,其特征在于,包括以下步骤:S1.声音处理:由音频识别设备采集声音,将采集到的声音音频数据通过语音编码技术进行处理,生成声音波形,该波形的X轴为时间轴,单位为毫秒,Y轴为音量轴,单位为分贝;S2.分段识别:设置音频识别设备在前端点到后端点这一区间内识别文字,前端点和后端点均为声音产生到结束的时间间隔,前端点设定为100毫秒,后端点设定为500毫秒,当声音从产生到有效这段时间在100毫秒内时,音频设备开始识别声音,当声音从有效到结束的时间间隔到达500毫秒时,音频设备停止识别声音;S3.音频记忆:音频识别设备识别一次声音后记录声音从开始到结束的频率,通过分布函数计算出音频的平衡值,多次识别声音后将平衡值出现的不同概率以高到低的顺序依次保存到内部处理器中;S4.根据概率识别音频:由于每个人说话的音色不同,每个音频段采用的前端点和后端点不同,音频识别设备识别一段新的音频时,先以出现概率最高的平衡值的音频段作为识别依据,如果该音频为新的音频段时,重复上述S3将平衡值记忆,...

【专利技术属性】
技术研发人员:虞焰兴
申请(专利权)人:安徽声讯信息技术有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1