语音识别管理系统及方法技术方案

技术编号:37184127 阅读:21 留言:0更新日期:2023-04-20 22:48
本申请公开了一种语音识别管理系统及方法。该系统可以包括实时识别模块、声纹设置模块、本地词库:声纹设置模块设置用户对应的声纹;本地词库用于存储并管理常用词、敏感词、语气词;实时识别模块根据本地词库识别文本文件,根据声纹设置模块识别声纹对应的用户。本发明专利技术通过系统内部算法模型来实现角色区分,降低设备成本以及增加便携性。低设备成本以及增加便携性。低设备成本以及增加便携性。

【技术实现步骤摘要】
语音识别管理系统及方法


[0001]本专利技术涉及语音识别领域,更具体地,涉及一种语音识别管理系统及方法。

技术介绍

[0002]在会议演讲等各种场景中,都需要及时留存文字记录。通常由专门人员负责记录和整理相关文档材料,但在多人发言、语速较快等情况下,人工记录的准确性难以保障,效率较低。尤其在一些不方便录音的场合,对实际情况的准确记录将更加困难。
[0003]已有同类产品功能单一,往往只具备语音转写或声纹识别的功能,不能进行文本编辑,只能满足一些简单的会议记录的应用,缺少针对特定场景的功能。用户需要使用多个产品才能将语音信息转换成格式化的文字数据,过程繁琐,不能有效减少工作量。
[0004]在已有语音转写产品中,语音转写和声纹识别准确率的提升都离不开对用户语音文件的学习。大部分产品采用将用户数据上传到云端的方式,这将带来数据隐私泄漏等方面的安全隐患。而会议等音频内容往往涉及政府机关、企业单位的内部敏感或机密信息,一旦泄漏,后果不堪设想。
[0005]因此,有必要开发一种语音识别管理系统及方法。
[0006]公开于本专利技术
技术介绍
部分的信息仅仅旨在加深对本专利技术的一般
技术介绍
的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

技术实现思路

[0007]本专利技术提出了一种语音识别管理系统及方法,其能够通过系统内部算法模型来实现角色区分,降低设备成本以及增加便携性。
[0008]第一方面,本公开实施例提供了一种语音识别管理系统,包括实时识别模块、声纹设置模块、本地词库:
[0009]所述声纹设置模块设置用户对应的声纹;
[0010]所述本地词库用于存储并管理常用词、敏感词、语气词;
[0011]所述实时识别模块根据所述本地词库识别文本文件,根据所述声纹设置模块识别声纹对应的用户。
[0012]优选地,所述实时识别模块通过端到端的语音识别识别所述文本信息,包括:
[0013]信号处理及特征提取单元,用于从输入信号中提取特征;
[0014]统计声学模型,用于处理提取的所述特征;
[0015]发音词典,包含所述系统所能处理的词汇集及其发音,所述发音词典还包括统计声学模型与语言模型间的映射;
[0016]语言模型,用于对语言中的词语搭配关系进行归纳,抽象成概率模型;
[0017]解码器,根据所述统计声学模型、所述发音词典、所述语言模型,确定所述输入信号对应的词串。
[0018]优选地,所述实时识别模块还包括:
[0019]文本断句单元,基于深度学习从文本中学习语义特征的权重分布,对语音识别的文本文件进行自动标点预测。
[0020]优选地,所述实时识别模块还包括:
[0021]声纹识别单元,用于针对所述文本文件提取声纹,通过深度神经网络模型进行训练,与所述声纹设置模块对比确定所述声纹对应的用户。
[0022]优选地,还包括:
[0023]录音识别模块,用于根据所述本地词库识别音频的文本文件,根据所述声纹设置模块识别声纹对应的用户。
[0024]优选地,还包括:
[0025]地点管理模块,用于设定实时识别的地点,缩小所述声纹设置模块的匹配范围。
[0026]优选地,还包括:
[0027]识别历史模块,用于存储识别的文本文件,用户能够通过所述识别历史模块对所述文本文件进行管理。
[0028]优选地,还包括:
[0029]本地词库管理模块,用于针对外部文本与外部词库进行学习,更新所述本地词库。
[0030]第二方面,本公开实施例还提供了一种语音识别管理方法,包括:
[0031]加载所述本地词库与所述声纹设置模块;
[0032]所述实时识别模块实时识别用户与语音信息;
[0033]根据所述用户与对应的语音信息,获取所述文本文件并存储。
[0034]优选地,所述实时识别模块实时识别用户与语音信息包括:
[0035]判断是否修改所述用户,若是,提取当前用户的声纹并保存至所述声纹设置模块,加载该声纹进行文本识别。
[0036]其有益效果在于:本专利技术不需要外部搭配特定的外部设备来进行区分角色,通过系统内部算法模型来实现角色区分,降低设备成本以及增加便携性。
[0037]本专利技术使用当前最先进的端到端语音识别算法和大数据训练的模型,在各种口音、噪声场景下准确率高;
[0038]联合使用说话人日志和声纹技术,无论是否注册都可以自动进行角色区分和标注,并且不限定一次会议中的角色数量;系统自动计算出角色数量,也可指定;支持会议过程中,实时进行角色区分和标注;以及会议结束之后最终的角色区分和标注。并支持各种自定义模板编辑导出。
[0039]融合基于语义和语音信号的断句技术,能自动断开在时间上连续的不同人的说话内容,并且对断开文本给出正确的标点符号。
[0040]本专利技术的方法和系统具有其它的特性和优点,这些特性和优点从并入本文中的附图和随后的具体实施方式中将是显而易见的,或者将在并入本文中的附图和随后的具体实施方式中进行详细陈述,这些附图和具体实施方式共同用于解释本专利技术的特定原理。
附图说明
[0041]通过结合附图对本专利技术示例性实施例进行更详细的描述,本专利技术的上述以及其它
目的、特征和优势将变得更加明显,其中,在本专利技术示例性实施例中,相同的参考标号通常代表相同部件。
[0042]图1示出了根据本专利技术的一个实施例的一种语音识别管理系统的框图。
[0043]图2示出了根据本专利技术的一个实施例的语音识别管理方法的步骤的流程图。
[0044]附图标记说明:
[0045]1、实时识别模块;101、信号处理及特征提取单元;102、统计声学模型;103、发音词典;104、语言模型;105、解码器;106、文本断句单元;107、声纹识别单元;2、声纹设置模块;3、本地词库;4、录音识别模块;5、地点管理模块;6、识别历史模块;7、本地词库管理模块。
具体实施方式
[0046]下面将更详细地描述本专利技术的优选实施方式。虽然以下描述了本专利技术的优选实施方式,然而应该理解,可以以各种形式实现本专利技术而不应被这里阐述的实施方式所限制。
[0047]为便于理解本专利技术实施例的方案及其效果,以下给出两个具体应用示例。本领域技术人员应理解,该示例仅为了便于理解本专利技术,其任何具体细节并非意在以任何方式限制本专利技术。
[0048]实施例1
[0049]一种语音识别管理系统,包括实时识别模块、声纹设置模块、本地词库:
[0050]声纹设置模块设置用户对应的声纹;
[0051]本地词库用于存储并管理常用词、敏感词、语气词;
[0052]实时识别模块根据本地词库识别文本文件,根据声纹设置模块识别声纹对应的用户。
[0053]在一个示例中,实时识别模块通过端到端的语音识别识别文本信息,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别管理系统,其特征在于,包括实时识别模块、声纹设置模块、本地词库:所述声纹设置模块设置用户对应的声纹;所述本地词库用于存储并管理常用词、敏感词、语气词;所述实时识别模块根据所述本地词库识别文本文件,根据所述声纹设置模块识别声纹对应的用户。2.根据权利要求1所述的语音识别管理系统,其中,所述实时识别模块通过端到端的语音识别识别所述文本信息,包括:信号处理及特征提取单元,用于从输入信号中提取特征;统计声学模型,用于处理提取的所述特征;发音词典,包含所述系统所能处理的词汇集及其发音,所述发音词典还包括统计声学模型与语言模型间的映射;语言模型,用于对语言中的词语搭配关系进行归纳,抽象成概率模型;解码器,根据所述统计声学模型、所述发音词典、所述语言模型,确定所述输入信号对应的词串。3.根据权利要求2所述的语音识别管理系统,其中,所述实时识别模块还包括:文本断句单元,基于深度学习从文本中学习语义特征的权重分布,对语音识别的文本文件进行自动标点预测。4.根据权利要求3所述的语音识别管理系统,其中,所述实时识别模块还包括:声纹识别单元,用于针对所述文本文件提取声纹,通过深度神经网络模型进行训练,与所述声纹设置模块对比确定所述声纹对应的用户。5.根据权利要求1所述的语音识别管理系统...

【专利技术属性】
技术研发人员:阮建山张军张宇蔡佳君李德阳
申请(专利权)人:华迪计算机集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1