语音识别方法、装置、设备及可读存储介质制造方法及图纸

技术编号：27408754 阅读：25 留言：0更新日期：2021-02-21 14:23

本申请公开了一种语音识别方法、装置、设备及可读存储介质。该方法包括：获取与待识别语音相关的多媒体数据；确定多媒体数据包含的内容信息；基于内容信息对预设模型进行训练，得到个性化语音识别模型，至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行语音识别，得到语音识别结果。本申请提供的技术方案，借助与待识别语音相关的多媒体数据得到个性化语音识别模型的过程，能够获取例如专业术语等信息作为先验信息，使得个性化语音识别模型具备更好的识别当前领域专业术语的能力，至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行识别，能够显著提升语音识别结果的准确度。语音识别结果的准确度。语音识别结果的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、设备及可读存储介质

[0001]本申请属于语音识别
，尤其涉及一种语音识别方法、装置、设备及可读存储介质。

技术介绍

[0002]语音识别技术是由电子设备将语音转换为文本的过程。随着语音识别技术的日益成熟，语音识别技术已经广泛应用于各行各业。例如，在会议过程中进行语音识别，将发言人员的语音转换为相应的文本内容。
[0003]目前，传统语音识别模型在通用场景下的识别准确率已经达到令人满意的效果。但是，在某些特殊场景下，待识别语音中存在一些不常见的词汇，例如专业词汇，这类词汇在通用场景下出现的频率较小，传统的语音识别模型对该类词汇的覆盖较差，这导致语音识别的准确率不高。

技术实现思路

[0004]有鉴于此，本申请的目的在于提供一种语音识别方法、装置、设备及可读存储介质，以提高语音识别的准确率。
[0005]为实现上述目的，本申请提供如下技术方案：
[0006]一种语音识别方法，包括：
[0007]获取与待识别语音相关的多媒体数据；
[0008]确定所述多媒体数据包含的内容信息；
[0009]基于所述内容信息对预设模型进行训练，得到个性化语音识别模型，至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别，得到语音识别结果。
[0010]可选的，所述基于所述内容信息对预设模型进行训练，得到个性化语音识别模型，包括：
[0011]在所述内容信息的数据量达到预设数据量阈值的情况下，将所述内容信息作为训...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：获取与待识别语音相关的多媒体数据；确定所述多媒体数据包含的内容信息；基于所述内容信息对预设模型进行训练，得到个性化语音识别模型，至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别，得到语音识别结果。2.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述内容信息对预设模型进行训练，得到个性化语音识别模型，包括：在所述内容信息的数据量达到预设数据量阈值的情况下，将所述内容信息作为训练数据，对所述预设模型进行训练，以得到个性化语音识别模型。3.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述内容信息对预设模型进行训练，得到个性化语音识别模型，包括：在所述内容信息的数据量小于预设数据量阈值的情况下，基于所述内容信息获取辅助语料，将所述辅助语料作为训练数据，对所述预设模型进行训练，以得到个性化语音识别模型。4.根据权利要求3所述的语音识别方法，其特征在于，所述基于所述内容信息获取辅助预料，包括：提取所述内容信息中的关键词，基于所述关键词获取辅助语料；或者，确定所述内容信息的摘要标签，基于所述摘要标签获取辅助语料。5.根据权利要求1所述的语音识别方法，其特征在于，所述至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别，得到语音识别结果，包括：确定所述待识别语音所属的行业领域；结合通用语音识别模型、所述个性化语音识别模型、以及与所述行业领域对应的行业语音识别模型对所述待识别语音进行语音识别，得到语音识别结果。6.根据权利要求1所述的语音识别方法，其特征在于，与待识别语音相关的多媒体数据为包含演讲文档影像的视频；所述确定所述多媒体数据包含的内容信息，包括：提取所述视频中的关键图像帧；对所述关键图像帧进行光学字符识别，以得到所述多媒体数据包含的内容信息。7.根据权利要求6所述的语音识别方法，其特征在于，所述提取所述视频中的关键图像帧，包括：按照预设时间间隔从所述视频中获取多个图像帧；分别提取所述多个图像帧的特征；根据所述多个图像帧的特征在所述多个图像帧中确定跳变图像帧；针对每一跳变图像帧，...

【专利技术属性】
技术研发人员：徐正军，黄爽，
申请(专利权)人：安徽听见科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人