实时语音识别方法、装置、设备及介质制造方法及图纸

技术编号:30405471 阅读:12 留言:0更新日期:2021-10-20 11:08
本申请涉及人工智能技术领域,揭露了一种实时语音识别方法,所述方法包括:获取用户输入的第一语音流,通过预设的第一声纹特征实时对所述第一语音流进行噪声去除,得到第二语音流,所述第一声纹特征为用户的历史语音集中所提取到的声纹特征;通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,所述断句特征为用户的历史语音集中所提取到的断句特征;在检测到语音开始点时,实时对所述第二语音流进行语音识别,得到语音文本。此外,本申请还涉及一种实时语音识别方法、装置、设备及存储介质。本申请可解决语音识别的效率较低以及识别结果的可读性较差的问题。的问题。的问题。

【技术实现步骤摘要】
实时语音识别方法、装置、设备及介质


[0001]本申请涉及人工智能
,尤其涉及一种实时语音识别方法、装置及存储介质。

技术介绍

[0002]随着科技的发展,人工智能技术在各个领域的应用越来越广泛。语音识别作为人工智能技术的一项重要应用,被广泛应用于各个领域。例如,客服问答中,通过对用户语音的识别,可实现对用户意图的定位,进而实现针对性的对用户提供个性化服务,或者通过对客服语音的识别,可实现对不同客服的服务态度或业务水平的判断,进而对客服的工作进行监督。
[0003]目前的实时语音识别方法多为获取用户的整段语音,再对整段语音进行识别,将识别的第二语音文本输出给用户。该方法中,当整段语音较长时,语音包含的内容较多,会导致语音识别的效率低下,且直接将语音识别的内容作为结果输出,会导致语音识别结果中包含一些错误,以至于语音识别结果的可读性较低。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种实时语音识别方法、装置及存储介质。
[0005]第一方面,本申请提供了一种实时语音识别方法,所述方法包括:
[0006]获取用户输入的第一语音流,通过预设的第一声纹特征实时对所述第一语音流进行噪声去除,得到第二语音流,所述第一声纹特征为用户的历史语音集中所提取到的声纹特征;
[0007]通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,所述断句特征为用户的历史语音集中所提取到的断句特征;
[0008]在检测到语音开始点时,实时对所述第二语音流进行语音识别,得到语音文本。
[0009]可选地,所述获取用户输入的第一语音流的步骤之前,包括:
[0010]获取用户的所述历史语音集;
[0011]从所述历史语音集中提取所述第一声纹特征和所述断句特征。
[0012]可选地,所述根据所述第一声纹特征对所述第一语音流进行噪声去除,得到第二语音流,包括:
[0013]提取所述第一语音流中各时刻的第二声纹特征;
[0014]计算所述第二声纹特征与所述第一声纹特征的相似度;
[0015]剔除所述第一语音流中相似度小于预设相似度阈值的第二声纹特征,得到第二语音流。
[0016]可选地,所述断句特征包括断句时长阈值与习惯断句词,所述的从所述历史语音集中提取所述断句时长阈值,包括:
[0017]统计所述历史语音集中用户每次断句的断句时长;
[0018]根据所述断句时长计算用户断句的平均时长,并根据所述平均时长确定所述断句时长阈值;以及,
[0019]所述的从所述历史语音集中提取所述习惯断句词,包括:
[0020]统计所述历史语音集中用户每次断句前的词语,得到断句词语集
[0021]计算所述断句词语集中各个词语出现的频率,将所述频率大于预设频率阈值的词语作为所述断句习惯词。
[0022]可选地,所述通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,包括:
[0023]实时检测所述第二语音流是否出现停顿;
[0024]在监测到停顿时,记录所述停顿的持续时间,并识别停顿前的单位时间内所述第二语音流中出现的词语;
[0025]将所述持续时间与所述断句时长阈值进行比对,并将所述词语与所述习惯断句词进行比对;
[0026]若所述持续时间大于所述断句时长阈值,且所述词语是所述习惯断句词,则确定所述停顿出未所述第二语音流的语音开始点。
[0027]可选地,所述对所述第二语音流进行语音识别,得到语音文本,包括:
[0028]对所述第二语音流进行卷积、池化及多重全连接处理,得到语音向量;
[0029]根据预设的文字向量表对所述语音向量进行匹配,得到初始文本;
[0030]对所述初始文本进行文本补全,得到语音文本。
[0031]可选地,所述对所述初始文本进行文本补全,得到语音文本,包括:
[0032]对所述初始文本进行分词处理,得到文本分词;
[0033]从所述文本分词中选取目标分词,并对所述目标分词进行语义关联性检测,得到所述目标分词与前后文本分词的关联系数;
[0034]当所述关联系数小于预设的关联系数阈值时,利用替换词对所述目标分词进行补正,得到语音文本。
[0035]可选地,所述利用替换词对所述目标分词进行补正,得到语音文本,包括:
[0036]获取可替换词,计算所述目标分词之前的文本分词与所述可替换词的前置关联系数;
[0037]计算所述目标分词之后的文本分词与所述可替换词的后置关联系数;
[0038]判断所述前置关联系数和所述后置关联系数是否均大于所述关联系数阈值;
[0039]若所述前置关联系数和所述后置关联系数中有至少一个小于或等于所述关联系数阈值,则返回获取可替换词的步骤,重新获取新的可替换词;
[0040]若所述前置关联系数和所述后置关联系数均大于所述关联系数阈值,则利用所述可替换词对所述目标分词进行替换,得到语音文本。
[0041]第二方面,本申请提供了一种实时语音识别装置,所述装置包括:
[0042]所述噪声去除模块,用于获取用户输入的第一语音流,通过预设的第一声纹特征实时对所述第一语音流进行噪声去除,得到第二语音流,所述第一声纹特征为用户的历史语音集中所提取到的声纹特征;
[0043]所述端点识别模块,用于通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,所述断句特征为用户的历史语音集中所提取到的断句特征;
[0044]所述语音识别模块,用于在检测到语音开始点时,实时对所述第二语音流进行语音识别,得到语音文本。
[0045]第三方面,提供了一种基于隐私信息的语音识别设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0046]存储器,用于存放计算机程序;
[0047]处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的实时语音识别方法的步骤。
[0048]第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的实时语音识别方法的步骤。
[0049]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
[0050]本申请实施例提供的该方法、装置、电子设备及计算机可读存储介质,可通过第一声纹特征对用户的第一语音流进行噪声去除,减少所述第一语音流中的无用信息量,并实现对第一语音流中噪声的精确去除,不仅有利于提高后续进行语音识别时的精确度,还可提高语音识别时的效率;根据断句特征将第二语音流进行语段切分,避免了对完整的语音流进行语音识别,有利于提高了识别的效率;对语音识别获取的语音文本进行文本补全,减少了语音文本中的错误,提高了语音文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实时语音识别方法,其特征在于,所述方法包括:获取用户输入的第一语音流,通过预设的第一声纹特征实时对所述第一语音流进行噪声去除,得到第二语音流,所述第一声纹特征为用户的历史语音集中所提取到的声纹特征;通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,所述断句特征为用户的历史语音集中所提取到的断句特征;在检测到语音开始点时,实时对所述第二语音流进行语音识别,得到语音文本。2.根据权利要求1所述的实时语音识别方法,其特征在于,所述获取用户输入的第一语音流的步骤之前,包括:获取用户的所述历史语音集;从所述历史语音集中提取所述第一声纹特征和所述断句特征。3.根据权利要求1所述的实时语音识别方法,其特征在于,所述根据所述第一声纹特征对所述第一语音流进行噪声去除,得到第二语音流,包括:提取所述第一语音流中各时刻的第二声纹特征;计算所述第二声纹特征与所述第一声纹特征的相似度;剔除所述第一语音流中相似度小于预设相似度阈值的第二声纹特征,得到第二语音流。4.根据权利要求2所述的实时语音识别方法,其特征在于,所述断句特征包括断句时长阈值与习惯断句词,所述的从所述历史语音集中提取所述断句时长阈值,包括:统计所述历史语音集中用户每次断句的断句时长;根据所述断句时长计算用户断句的平均时长,并根据所述平均时长确定所述断句时长阈值;以及,所述的从所述历史语音集中提取所述习惯断句词,包括:统计所述历史语音集中用户每次断句前的词语,得到断句词语集计算所述断句词语集中各个词语出现的频率,将所述频率大于预设频率阈值的词语作为所述断句习惯词。5.根据权利要求4所述的实时语音识别方法,其特征在于,所述通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,包括:实时检测所述第二语音流是否出现停顿;在监测到停顿时,记录所述停顿的持续时间,并识别停顿前的单位时间内所述第二语音流中出现的词语;将所述持续时间与所述断句时长阈值进行比对,并将所述词语与所述习惯断句词进行比对;若所述持续时间大于所述断句时长阈值,且所述词语是所述习惯断句词,则确定所述停顿出未所述第二语音流的语音开始点。6.根据权利要求1至5中任意一项所述的实时语音识别方法,其特征在于,所述对所述第二语音流进行语音识别,得到语音文本,包括:对所述第...

【专利技术属性】
技术研发人员:刘轶聂吉昌
申请(专利权)人:深港产学研基地北京大学香港科技大学深圳研修院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1