The invention discloses a heartbeat technology for text audio push, which belongs to the field of audio processing technology, including S1. sound processing; S2. segment recognition; S3. audio memory; S4. audio recognition based on probability; S5. audio text push. Through the audio recognition equipment, the collected audio is first processed into sound waves, and then the front and back endpoints set by the equipment are used as the audio recognition intervals. The collected audio is recognized by segments, and each segment of recognition is pushed to the user, so that when the user speaks, each sentence is in the pause gap, the segment of audio is recognized as text and pushed out, so the user receives it. Audio text is divided into sections, each section of the audio text sent occupies a smaller capacity, even if the network speed is slow, it can be quickly pushed to users, and the segment text is easy for users to watch.
【技术实现步骤摘要】
一种文字音频推送用心跳技术
本专利技术涉及音频处理
,特别涉及一种文字音频推送用心跳技术。
技术介绍
自动语音识别技术近年来发展迅速,使人们用语言与计算机进行通信与交流已成为可能。与键盘和鼠标等传统的人机交互方式相比,语音提供了一种更为自然的人机交互界面,音频文字自动提取是以语音识别系统的核心模块为基础,对参考文本和对应语音进行强制对准的过程,其目的在于将音频文字转换为文本文字。作为语音识别领域中一种常见的预处理技术,音频文字自动提取广泛应用在模型训练、多媒体检索、广播电视媒体、计算机辅助语言教学等方面,此外,还可为现场直播的新闻、演讲、会议等生成字幕;为语言教学、游戏娱乐、电影制作等生成多媒体库;为歌曲制作同步的歌词显示等。传统的自动语音识别技术在使用时仍存在一定的缺陷,传统的文字音频识别不具备分段识别和推送的功能,通常一大段一起识别推送,文字音频内容较多时占用的容量较大,遇到网络延时较高的时候,较大容量的文字音频推送给用户速率较慢,导致出现卡顿的情况发生,而且传统的语音识别采用人为设定音频的识别区间,该识别区间可以适应绝大部分人,由于每个人说话的语气和音调不同,因此极少数人说话的声音在识别时容易出现错误,准确率不高。
技术实现思路
本专利技术的目的就在于为了解决上述语音识别技术不具备分段识别推送的功能,导致网络延时较高时推送文字速率较慢以及传统的语音识别技术识别准确率低的问题而提供一种文字音频推送用心跳技术,具有类似心跳一样的分段识别推送音频和文字,音频识别具有记忆功能,识别准确率高的优点。本专利技术通过以下技术方案来实现上述目的,一种文字音频推送用 ...
【技术保护点】
1.一种文字音频推送用心跳技术,其特征在于,包括以下步骤:S1.声音处理:由音频识别设备采集声音,将采集到的声音音频数据通过语音编码技术进行处理,生成声音波形,该波形的X轴为时间轴,单位为毫秒,Y轴为音量轴,单位为分贝;S2.分段识别:设置音频识别设备在前端点到后端点这一区间内识别文字,前端点和后端点均为声音产生到结束的时间间隔,前端点设定为100毫秒,后端点设定为500毫秒,当声音从产生到有效这段时间在100毫秒内时,音频设备开始识别声音,当声音从有效到结束的时间间隔到达500毫秒时,音频设备停止识别声音;S3.音频记忆:音频识别设备识别一次声音后记录声音从开始到结束的频率,通过分布函数计算出音频的平衡值,多次识别声音后将平衡值出现的不同概率以高到低的顺序依次保存到内部处理器中;S4.根据概率识别音频:由于每个人说话的音色不同,每个音频段采用的前端点和后端点不同,音频识别设备识别一段新的音频时,先以出现概率最高的平衡值的音频段作为识别依据,如果该音频为新的音频段时,重复上述S3将平衡值记忆,如果为S3记忆的音频段,直接选取该音频段的前端点和后端点;S5.音频文字推送:音频识别设备根据 ...
【技术特征摘要】
1.一种文字音频推送用心跳技术,其特征在于,包括以下步骤:S1.声音处理:由音频识别设备采集声音,将采集到的声音音频数据通过语音编码技术进行处理,生成声音波形,该波形的X轴为时间轴,单位为毫秒,Y轴为音量轴,单位为分贝;S2.分段识别:设置音频识别设备在前端点到后端点这一区间内识别文字,前端点和后端点均为声音产生到结束的时间间隔,前端点设定为100毫秒,后端点设定为500毫秒,当声音从产生到有效这段时间在100毫秒内时,音频设备开始识别声音,当声音从有效到结束的时间间隔到达500毫秒时,音频设备停止识别声音;S3.音频记忆:音频识别设备识别一次声音后记录声音从开始到结束的频率,通过分布函数计算出音频的平衡值,多次识别声音后将平衡值出现的不同概率以高到低的顺序依次保存到内部处理器中;S4.根据概率识别音频:由于每个人说话的音色不同,每个音频段采用的前端点和后端点不同,音频识别设备识别一段新的音频时,先以出现概率最高的平衡值的音频段作为识别依据,如果该音频为新的音频段时,重复上述S3将平衡值记忆,...
【专利技术属性】
技术研发人员:虞焰兴,
申请(专利权)人:安徽声讯信息技术有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。