语音识别文本的展示方法、装置、设备和存储介质制造方法及图纸

技术编号:28747287 阅读:13 留言:0更新日期:2021-06-06 19:05
本发明专利技术涉及一种语音识别文本的展示方法、装置、设备和存储介质,方法包括:利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别,得到所述当前词组对应的当前识别文本;根据当前识别文本的类型,确定可展示文本;按照预设的时间间隔和预设的字符长度,将所述可展示文本中的文字依次通过显示设备进行展示,实现了持续、不间断地展示语音信息的识别结果,避免识别文本在展示过程中出现卡顿现象,提高了人机交互的质量。提高了人机交互的质量。提高了人机交互的质量。

【技术实现步骤摘要】
语音识别文本的展示方法、装置、设备和存储介质


[0001]本专利技术涉及语音识别
,具体涉及一种语音识别文本的展示方法、装置、设备和存储介质。

技术介绍

[0002]在人机交互过程中,通常在进行语音识别的同时往往通过显示设备将语音识别出的识别文本展示给用户,以提高人机交互效率。
[0003]现有技术,显示设备在显示识别文本时,通常会待识别的语音信息全部识别后,再将识别文本的全部文字展示。由于网络、语音信息长短等原因,可能造成较长的时间才能对语音信息进行识别和展示对应的识别文本,使得识别文本在展示过程中出现卡顿现象,降低了人机交互的质量。

技术实现思路

[0004]本专利技术提供一种语音识别文本的展示方法、装置、设备和存储介质,能够解决现有技术中因识别文本在展示过程中出现卡顿现象,导致人机交互质量较低的技术问题。
[0005]本专利技术解决上述技术问题的技术方案如下:
[0006]一种语音识别文本的展示方法,包括:
[0007]利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别,得到所述当前词组对应的当前识别文本;所述当前词组根据所述语音识别模型对应的词组颗粒度对所述语音信息进行分词得到;
[0008]根据当前识别文本的类型,确定可展示文本;
[0009]按照预设的时间间隔和预设的字符长度,将所述可展示文本中的文字依次通过显示设备进行展示。
[0010]进一步地,上述所述的语音识别文本的展示方法中,根据当前识别文本的类型,确定可展示文本,包括:
[0011]若所述当前识别文本的类型为可变类文本,将已确定的不可变文本和下一段已解码文本作为所述可展示文本;
[0012]若所述当前识别文本的类型为不可变类文本,将已确定的不可变文本、所述当前识别文本累加和下一段已解码文本作为所述可展示文本。
[0013]进一步地,上述所述的语音识别文本的展示方法中,根据当前识别文本的类型,确定可展示文本之后,还包括:
[0014]将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理,得到目标风格的文字;
[0015]对应地,按照预设的时间间隔和预设的字符长度,将所述可展示文本中的文字依次展示于显示屏,包括:
[0016]按照预设的时间间隔和预设的字符长度,将所述目标风格的文字依次展示于显示
屏。
[0017]进一步地,上述所述的语音识别文本的展示方法中,将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理,得到目标风格的文字,包括:
[0018]利用所述多风格字幕生成模型的编码器对所述可展示文本中的文字进行编码得到文字向量,并将所述文字向量与预设的主题分词特征向量进行重组,得到重组向量;
[0019]将所述重组向量输入所述多风格字幕生成模型对应的对抗生成网络,得到所述目标风格的文字。
[0020]进一步地,上述所述的语音识别文本的展示方法中,所述主题分词特征向量按照如下方式设定:
[0021]从预设主题分词中提取所述主题分词特征向量,并设定所述主题分词特征向量;
[0022]从自定义主题分词中提取所述主题分词特征向量,并设定所述主题分词特征向量;其中,所述自定义主题分词为对所述预设主题分词进行重新编辑得到,或者,所述自定义主题分词为在自创建模式下用户自创建得到。
[0023]进一步地,上述所述的语音识别文本的展示方法中,所述预设的字符长度按照如下方式设定:
[0024]响应于配置的文字显示参数设定;或者,按照所述可展示文本中文字的词性确定。
[0025]本专利技术还提供一种语音识别文本的展示装置,包括:
[0026]语音识别模块,用于利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别,得到所述当前词组对应的当前识别文本;所述当前词组根据所述语音识别模型对应的词组颗粒度对所述语音信息进行分词得到;
[0027]确定模块,用于根据当前识别文本的类型,确定可展示文本;
[0028]展示模块,用于按照预设的时间间隔和预设的字符长度,将所述可展示文本中的文字依次通过显示设备进行展示。
[0029]进一步地,上述所述的语音识别文本的展示装置中,所述确定模块,还用于:
[0030]将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理,得到目标风格的文字;
[0031]对应地,所述展示模块,还用于:
[0032]按照预设的时间间隔和预设的字符长度,将所述目标风格的文字依次展示于显示屏。
[0033]本专利技术还提供一种语音识别文本的展示设备,包括:处理器和存储器;
[0034]所述处理器用于执行所述存储器中存储的语音识别文本的展示方法的程序,以实现上述任一项所述的语音识别文本的展示方法。
[0035]本专利技术还提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被执行时实现上述任一项所述的语音识别文本的展示方法。
[0036]本专利技术的有益效果是:
[0037]利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别,得到所述当前词组对应的当前识别文本后,根据当前识别文本的类型,确定可展示文本,并按照预设的时间间隔和预设的字符长度,将所述可展示文本中的文字依次通过显示设备进行展示,实现了持续、不间断地展示语音信息的识别结果,避免识别文本在展示过程中出现卡顿现
象,提高了人机交互的质量。
附图说明
[0038]图1为本专利技术实施例提供的一种语音识别文本的展示方法的流程图;
[0039]图2为本专利技术实施例提供的另一种语音识别文本的展示方法的流程图;
[0040]图3为本专利技术实施例的语音识别文本的展示装置的结构示意图;
[0041]图4为本专利技术实施例提供的语音识别文本的展示设备的结构示意图。
具体实施方式
[0042]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0043]图1为本专利技术实施例提供的一种语音识别文本的展示方法的流程图,如图1所示,本实施例的语音识别文本的展示方法具体可以包括如下步骤:
[0044]100、利用预先构建的语音识别模型对获取的语音信息进行识别,得到当前识别文本;
[0045]本实施例中,可以通过扬声器等语音采集设备采集用户的语音信息,并在获取到用户的语音信息后,将用户的语音信息输入预先构建的语音识别模型,按照预设的词组颗粒度对用户的语音信息进行分词得到当前词组后,对当前词组进行识别,从而得到当前词组对应的当前识别文本。其中,预设的词组颗粒度尽可能的小,例如,可以将超过3个字的语音分割成更小的词组颗粒度,从而提高识别速率。
[0046]101、根据当前识别文本的类型,确定可展示文本;
[0047]在一个具体实现过程中,可以将识别文本的类型划分为可变类文本和不可变类文本。例如,对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别文本的展示方法,其特征在于,包括:利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别,得到所述当前词组对应的当前识别文本;所述当前词组根据所述语音识别模型对应的词组颗粒度对所述语音信息进行分词得到;根据当前识别文本的类型,确定可展示文本;按照预设的时间间隔和预设的字符长度,将所述可展示文本中的文字依次通过显示设备进行展示。2.根据权利要求1所述的语音识别文本的展示方法,其特征在于,根据当前识别文本的类型,确定可展示文本,包括:若所述当前识别文本的类型为可变类文本,将已确定的不可变文本和下一段已解码文本作为所述可展示文本;若所述当前识别文本的类型为不可变类文本,将已确定的不可变文本、所述当前识别文本累加和下一段已解码文本作为所述可展示文本。3.根据权利要求1所述的语音识别文本的展示方法,其特征在于,根据当前识别文本的类型,确定可展示文本之后,还包括:将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理,得到目标风格的文字;对应地,按照预设的时间间隔和预设的字符长度,将所述可展示文本中的文字依次展示于显示屏,包括:按照预设的时间间隔和预设的字符长度,将所述目标风格的文字依次展示于显示屏。4.根据权利要求3所述的语音识别文本的展示方法,其特征在于,将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理,得到目标风格的文字,包括:利用所述多风格字幕生成模型的编码器对所述可展示文本中的文字进行编码得到文字向量,并将所述文字向量与预设的主题分词特征向量进行重组,得到重组向量;将所述重组向量输入所述多风格字幕生成模型对应的对抗生成网络,得到所述目标风格的文字。5.根据权利要求4所述的语音识别文本的展示方法,其特征在于,所述主题分词特征向量按照如下方式设定:从预设主题分词中提取所述...

【专利技术属性】
技术研发人员:王利平陈吉胜
申请(专利权)人:厦门云知芯智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1