语音识别文本的展示方法、装置、设备和存储介质制造方法及图纸

技术编号：28747287 阅读：13 留言：0更新日期：2021-06-06 19:05

本发明专利技术涉及一种语音识别文本的展示方法、装置、设备和存储介质，方法包括：利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别，得到所述当前词组对应的当前识别文本；根据当前识别文本的类型，确定可展示文本；按照预设的时间间隔和预设的字符长度，将所述可展示文本中的文字依次通过显示设备进行展示，实现了持续、不间断地展示语音信息的识别结果，避免识别文本在展示过程中出现卡顿现象，提高了人机交互的质量。提高了人机交互的质量。提高了人机交互的质量。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别文本的展示方法、装置、设备和存储介质

[0001]本专利技术涉及语音识别
，具体涉及一种语音识别文本的展示方法、装置、设备和存储介质。

技术介绍

[0002]在人机交互过程中，通常在进行语音识别的同时往往通过显示设备将语音识别出的识别文本展示给用户，以提高人机交互效率。
[0003]现有技术，显示设备在显示识别文本时，通常会待识别的语音信息全部识别后，再将识别文本的全部文字展示。由于网络、语音信息长短等原因，可能造成较长的时间才能对语音信息进行识别和展示对应的识别文本，使得识别文本在展示过程中出现卡顿现象，降低了人机交互的质量。

技术实现思路

[0004]本专利技术提供一种语音识别文本的展示方法、装置、设备和存储介质，能够解决现有技术中因识别文本在展示过程中出现卡顿现象，导致人机交互质量较低的技术问题。
[0005]本专利技术解决上述技术问题的技术方案如下：
[0006]一种语音识别文本的展示方法，包括：
[0007]利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别，得到所述当前词组对应的当前识别文本；所述当前词组根据所述语音识别模型对应的词组颗粒度对所述语音信息进行分词得到；
[0008]根据当前识别文本的类型，确定可展示文本；
[0009]按照预设的时间间隔和预设的字符长度，将所述可展示文本中的文字依次通过显示设备进行展示。
[0010]进一步地，上述所述的语音识别文本的展示方法中，根据当前识别文本的类型，确定可展示...

【技术保护点】

【技术特征摘要】
1.一种语音识别文本的展示方法，其特征在于，包括：利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别，得到所述当前词组对应的当前识别文本；所述当前词组根据所述语音识别模型对应的词组颗粒度对所述语音信息进行分词得到；根据当前识别文本的类型，确定可展示文本；按照预设的时间间隔和预设的字符长度，将所述可展示文本中的文字依次通过显示设备进行展示。2.根据权利要求1所述的语音识别文本的展示方法，其特征在于，根据当前识别文本的类型，确定可展示文本，包括：若所述当前识别文本的类型为可变类文本，将已确定的不可变文本和下一段已解码文本作为所述可展示文本；若所述当前识别文本的类型为不可变类文本，将已确定的不可变文本、所述当前识别文本累加和下一段已解码文本作为所述可展示文本。3.根据权利要求1所述的语音识别文本的展示方法，其特征在于，根据当前识别文本的类型，确定可展示文本之后，还包括：将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理，得到目标风格的文字；对应地，按照预设的时间间隔和预设的字符长度，将所述可展示文本中的文字依次展示于显示屏，包括：按照预设的时间间隔和预设的字符长度，将所述目标风格的文字依次展示于显示屏。4.根据权利要求3所述的语音识别文本的展示方法，其特征在于，将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理，得到目标风格的文字，包括：利用所述多风格字幕生成模型的编码器对所述可展示文本中的文字进行编码得到文字向量，并将所述文字向量与预设的主题分词特征向量进行重组，得到重组向量；将所述重组向量输入所述多风格字幕生成模型对应的对抗生成网络，得到所述目标风格的文字。5.根据权利要求4所述的语音识别文本的展示方法，其特征在于，所述主题分词特征向量按照如下方式设定：从预设主题分词中提取所述...

【专利技术属性】
技术研发人员：王利平，陈吉胜，
申请(专利权)人：厦门云知芯智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人