一种语音媒体处理用语音转文字识别系统技术方案

技术编号:35596898 阅读:12 留言:0更新日期:2022-11-16 15:16
本发明专利技术公开了一种语音媒体处理用语音转文字识别系统,语音输入模块,其与外部终端连接,用于将外部终端语音媒体内的需要转文字的语音数据进行输入;语音转化模块,其与语音输入模块连接,用于将已经输入的语音数据进行拼音转化,并通过搜索词库,将拼音组成文字语句。本发明专利技术通过在语音转文字识别系统中添设置语音转化模块与场景判断模块,并通过词库存储模块的配合,自动将语音拼音化处理,然后根据相似度选择词汇,并根据训练场景的自动匹配,对转化的词汇进行纠错处理,替换合理词汇,从而达到快速语音转文字的效果,同时还对无法匹配场景的语音进行备份,进行新场景训练,丰富历史场景,为后续的语音转化提供场景基础。为后续的语音转化提供场景基础。为后续的语音转化提供场景基础。

【技术实现步骤摘要】
一种语音媒体处理用语音转文字识别系统


[0001]本专利技术涉及语音识别
,具体为一种语音媒体处理用语音转文字识别系统。

技术介绍

[0002]语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。现有的语音媒体在进行语音转文字识别时,直接对比文字库进行语音识别筛选词汇,效率较快,但是准确度缺乏保证,无法通过预设场景对语音进行匹配,导致文字识别出的词汇差别较多,意思相差较大。

技术实现思路

[0003]本专利技术的目的在于提供一种语音媒体处理用语音转文字识别系统,以解决上述
技术介绍
中提出的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:一种语音媒体处理用语音转文字识别系统,包括:
[0005]语音输入模块,其与外部终端连接,用于将外部终端语音媒体内的需要转文字的语音数据进行输入;
[0006]语音转化模块,其与语音输入模块连接,用于将已经输入的语音数据进行拼音转化,并通过搜索词库,将拼音组成文字语句;
[0007]词库存储模块,其与语音转化模块连接,用于储存文字词汇;
[0008]场景判断模块,其与语音转化模块连接,用于进行场景训练,并对比已经转化的文字语句,判断文字是否需要纠错,然后根据场景填充符号;
[0009]文字输出模块,其与场景判断模块和外部终端连接,用于将已经填充好符号的文字语句输出至外部终端语音媒体中。
[0010]优选的,所述语音转化模块包括音节分离单元、词库对接单元、字符拼接单元和停顿处理单元;
[0011]所述音节分离单元用于接收语音数据,并将语音数据根据音节进行拆分,并转化成拼音;
[0012]所述词库对接单元分别与音节分离单元、词库存储模块以及场景判断模块连接,用于将已经转化的拼音在词库中搜索,挑选同音的文字及词汇;
[0013]所述字符拼接单元分别与词库对接单元以及场景判断模块连接,用于与与历史场景对比,辅助词库对接单元挑选出符合当前场景的文字及词汇,并将其拼接为完整的语句;
[0014]所述停顿处理单元与字符拼接单元连接,用于将已经拼接完整的语句根据当前场景以及语音数据原有停顿进行处理,预留符号位。
[0015]优选的,所述词库对接单元在搜索词库时,优先搜索拼音相符的文字和词汇,若无
相关的文字及词汇,则搜索相似拼音的词汇。
[0016]优选的,所述词库对接单元搜索相似拼音的词汇时,优先搜索海明距离最近的拼音。
[0017]优选的,所述场景判断模块包括场景训练单元、文字对比纠错单元、符号填充单元和异常报告单元;
[0018]所述场景训练单元用于训练模拟以及存储场景,
[0019]所述文字对比纠错单元分别与场景训练单元和语音转化模块连接,用于将已存储场景与被转化的文字词汇进行对比,判断文字词汇场景,并将错误文字词汇替换已有场景内的原有词汇;
[0020]所述符号填充单元分别与场景训练单元和语音转化模块连接,用于根据历史场景将符号填充至预留符号位内;
[0021]所述异常报告单元用于将无法匹配场景的语音进行备份与上报。
[0022]优选的,所述场景训练单元包括场景人工预设子单元和场景AI学习子单元,所述场景人工预设子单元用于人工对场景进行预设,填充新场景,所述场景AI学习子单元与词库连接,用于接收词汇并根据重组训练,进行场景填充。
[0023]优选的,所述符号填充单元还用于在没有匹配到场景时,自动为文字词汇填充默认符号。
[0024]优选的,所述场景训练单元还与异常报告单元连接,用于对无法匹配场景的语音进行新场景训练处理。
[0025]与现有技术相比,本专利技术的有益效果是:
[0026]本专利技术通过在语音转文字识别系统中添设置语音转化模块与场景判断模块,并通过词库存储模块的配合,自动将语音拼音化处理,然后根据相似度选择词汇,并根据训练场景的自动匹配,对转化的词汇进行纠错处理,替换合理词汇,从而达到快速语音转文字的效果,同时还对无法匹配场景的语音进行备份,进行新场景训练,丰富历史场景,为后续的语音转化提供场景基础。
附图说明
[0027]图1为本专利技术实施例提供的一种语音媒体处理用语音转文字识别系统的结构框图;
[0028]图2为本专利技术实施例提供的一种语音媒体处理用语音转文字识别系统的语音转化模块的结构框图;
[0029]图3为本专利技术实施例提供的一种语音媒体处理用语音转文字识别系统的场景判断模块的结构框图。
具体实施方式
[0030]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0031]请参阅图1至3,本专利技术提供一种语音媒体处理用语音转文字识别系统,包括:
[0032]语音输入模块,其与外部终端连接,用于将外部终端语音媒体内的需要转文字的语音数据进行输入;
[0033]语音转化模块,其与语音输入模块连接,用于将已经输入的语音数据进行拼音转化,并通过搜索词库,将拼音组成文字语句;
[0034]词库存储模块,其与语音转化模块连接,用于储存文字词汇;
[0035]场景判断模块,其与语音转化模块连接,用于进行场景训练,并对比已经转化的文字语句,判断文字是否需要纠错,然后根据场景填充符号;
[0036]文字输出模块,其与场景判断模块和外部终端连接,用于将已经填充好符号的文字语句输出至外部终端语音媒体中。
[0037]具体的,当外部终端的语音媒体接收到语音输入后,提供语音转文字识别窗口,若窗口内响应,则语音转文字系统开始进行语音转文字。
[0038]进一步的,所述语音转化模块包括音节分离单元、词库对接单元、字符拼接单元和停顿处理单元;
[0039]所述音节分离单元用于接收语音数据,并将语音数据根据音节进行拆分,并转化成拼音;
[0040]所述词库对接单元分别与音节分离单元、词库存储模块以及场景判断模块连接,用于将已经转化的拼音在词库中搜索,挑选同音的文字及词汇;
[0041]所述字符拼接单元分别与词库对接单元以及场景判断模块连接,用于与与历史场景对比,辅助词库对接单元挑选出符合当前场景的文字及词汇,并将其拼接为完整的语句;
[0042]所述停顿处理单元与字符拼接单元连接,用于将已经拼接完整的语句根据当前场景以及语音数据原有停顿进行处理,预留符号位。
[0043]具体的,接收语音后,首先通过语音转化模块对语音进行音节分离,并将其进行拼音化处理,然后将已经拼音数据通过词库搜索以及场景对比选择合适的文字词汇,并将文字词汇拼接成完整的句本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音媒体处理用语音转文字识别系统,其特征在于,包括:语音输入模块,其与外部终端连接,用于将外部终端语音媒体内的需要转文字的语音数据进行输入;语音转化模块,其与语音输入模块连接,用于将已经输入的语音数据进行拼音转化,并通过搜索词库,将拼音组成文字语句;词库存储模块,其与语音转化模块连接,用于储存文字词汇;场景判断模块,其与语音转化模块连接,用于进行场景训练,并对比已经转化的文字语句,判断文字是否需要纠错,然后根据场景填充符号;文字输出模块,其与场景判断模块和外部终端连接,用于将已经填充好符号的文字语句输出至外部终端语音媒体中。2.根据权利要求1所述的语音媒体处理用语音转文字识别系统,其特征在于,所述语音转化模块包括音节分离单元、词库对接单元、字符拼接单元和停顿处理单元;所述音节分离单元用于接收语音数据,并将语音数据根据音节进行拆分,并转化成拼音;所述词库对接单元分别与音节分离单元、词库存储模块以及场景判断模块连接,用于将已经转化的拼音在词库中搜索,挑选同音的文字及词汇;所述字符拼接单元分别与词库对接单元以及场景判断模块连接,用于与与历史场景对比,辅助词库对接单元挑选出符合当前场景的文字及词汇,并将其拼接为完整的语句;所述停顿处理单元与字符拼接单元连接,用于将已经拼接完整的语句根据当前场景以及语音数据原有停顿进行处理,预留符号位。3.根据权利要求2所述的语音媒体处理用语音转文字识别系统,其特征在于,所述词库对接单元在搜索词库时,优先搜索拼音相符的文字和...

【专利技术属性】
技术研发人员:史琦沈林啸马凯
申请(专利权)人:启迪万众网络科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1