语音识别方法、装置、设备及可读存储介质制造方法及图纸

技术编号:27408754 阅读:25 留言:0更新日期:2021-02-21 14:23
本申请公开了一种语音识别方法、装置、设备及可读存储介质。该方法包括:获取与待识别语音相关的多媒体数据;确定多媒体数据包含的内容信息;基于内容信息对预设模型进行训练,得到个性化语音识别模型,至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行语音识别,得到语音识别结果。本申请提供的技术方案,借助与待识别语音相关的多媒体数据得到个性化语音识别模型的过程,能够获取例如专业术语等信息作为先验信息,使得个性化语音识别模型具备更好的识别当前领域专业术语的能力,至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行识别,能够显著提升语音识别结果的准确度。语音识别结果的准确度。语音识别结果的准确度。

【技术实现步骤摘要】
语音识别方法、装置、设备及可读存储介质


[0001]本申请属于语音识别
,尤其涉及一种语音识别方法、装置、设备及可读存储介质。

技术介绍

[0002]语音识别技术是由电子设备将语音转换为文本的过程。随着语音识别技术的日益成熟,语音识别技术已经广泛应用于各行各业。例如,在会议过程中进行语音识别,将发言人员的语音转换为相应的文本内容。
[0003]目前,传统语音识别模型在通用场景下的识别准确率已经达到令人满意的效果。但是,在某些特殊场景下,待识别语音中存在一些不常见的词汇,例如专业词汇,这类词汇在通用场景下出现的频率较小,传统的语音识别模型对该类词汇的覆盖较差,这导致语音识别的准确率不高。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种语音识别方法、装置、设备及可读存储介质,以提高语音识别的准确率。
[0005]为实现上述目的,本申请提供如下技术方案:
[0006]一种语音识别方法,包括:
[0007]获取与待识别语音相关的多媒体数据;
[0008]确定所述多媒体数据包含的内容信息;
[0009]基于所述内容信息对预设模型进行训练,得到个性化语音识别模型,至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。
[0010]可选的,所述基于所述内容信息对预设模型进行训练,得到个性化语音识别模型,包括:
[0011]在所述内容信息的数据量达到预设数据量阈值的情况下,将所述内容信息作为训练数据,对所述预设模型进行训练,以得到个性化语音识别模型。
[0012]可选的,所述基于所述内容信息对预设模型进行训练,得到个性化语音识别模型,包括:
[0013]在所述内容信息的数据量小于预设数据量阈值的情况下,基于所述内容信息获取辅助语料,将所述辅助语料作为训练数据,对所述预设模型进行训练,以得到个性化语音识别模型。
[0014]可选的,所述基于所述内容信息获取辅助预料,包括:
[0015]提取所述内容信息中的关键词,基于所述关键词获取辅助语料;
[0016]或者,确定所述内容信息的摘要标签,基于所述摘要标签获取辅助语料。
[0017]可选的,所述至少结合通用语音识别模型和所述个性化语音识别模型对所述待识
别语音进行语音识别,得到语音识别结果,包括:
[0018]确定所述待识别语音所属的行业领域;
[0019]结合通用语音识别模型、所述个性化语音识别模型、以及与所述行业领域对应的行业语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。
[0020]可选的,与待识别语音相关的多媒体数据为包含演讲文档影像的视频;所述确定所述多媒体数据包含的内容信息,包括:
[0021]提取所述视频中的关键图像帧;
[0022]对所述关键图像帧进行OCR识别,以得到所述多媒体数据包含的内容信息。
[0023]可选的,所述提取所述视频中的关键图像帧,包括:
[0024]按照预设时间间隔从所述视频中获取多个图像帧;
[0025]分别提取多个图像帧的特征;
[0026]根据所述多个图像帧的特征在所述多个图像帧中确定跳变图像帧;
[0027]针对每一跳变图像帧,判断所述跳变图像帧与位于所述跳变图像帧之后的连续多个图像帧是否相同,如果相同,则将所述跳变图像帧确定为关键图像帧。
[0028]可选的,所述提取所述视频中的关键图像帧,包括:
[0029]按照预设时间间隔从所述视频中获取多个图像帧;
[0030]分别提取多个图像帧的特征;
[0031]根据所述多个图像帧的特征在所述多个图像帧中确定跳变图像帧;
[0032]针对每一跳变图像帧,判断所述跳变图像帧与位于所述跳变图像帧之后的连续多个图像帧是否相同,如果相同,则将所述跳变图像帧确定为备选关键图像帧;
[0033]针对每一备选关键图像帧,确定所述备选关键图像帧与已提取出的关键图像帧的相似度,如果所述相似度低于预设的相似度阈值,则将所述备选关键图像帧确定为关键图像帧。
[0034]可选的,与待识别语音相关的多媒体数据为演讲文档;所述确定所述多媒体数据包含的内容信息,包括:
[0035]解析所述演讲文档,以得到所述演讲文档中每一页对应的第一文本内容;
[0036]将所述演讲文档中的每一页转换为图片,对转换得到的每一个图片进行OCR识别,以得到所述演讲文档中每一页对应的第二文本内容;
[0037]将所述演讲文档中每一页对应的第一文本内容和第二文本内容进行去重处理,以得到所述演讲文档中每一页对应的文本内容,将所述演讲文档中各页对应的文本内容的集合作为所述多媒体数据包含的内容信息。
[0038]一种语音识别装置,包括:
[0039]数据获取单元,用于获取与待识别语音相关的多媒体数据;
[0040]内容信息确定单元,用于确定所述多媒体数据包含的内容信息;
[0041]训练单元,用于基于所述内容信息对预设模型进行训练,得到个性化语音识别模型;
[0042]语音识别单元,用于至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。
[0043]可选的,所述训练单元包括:第一训练子单元,用于在所述内容信息的数据量达到
预设数据量阈值的情况下,将所述内容信息作为训练数据,对所述预设模型进行训练,以得到个性化语音识别模型。
[0044]可选的,所述训练单元包括:辅助语料获取子单元,用于在所述内容信息的数据量小于预设数据量阈值的情况下,基于所述内容信息获取辅助语料;第二训练子单元,用于将所述辅助语料作为训练数据,对所述预设模型进行训练,以得到个性化语音识别模型。
[0045]可选的,所述辅助语料获取子单元包括:第一辅助语料获取模块,用于提取所述内容信息中的关键词,基于所述关键词获取辅助语料;或者,第二辅助语料获取模块,用于确定所述内容信息的摘要标签,基于所述摘要标签获取辅助语料。
[0046]可选的,所述语音识别单元具体用于:确定所述待识别语音所属的行业领域;结合通用语音识别模型、所述个性化语音识别模型、以及与所述行业领域对应的行业语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。
[0047]可选的,与待识别语音相关的多媒体数据为包含演讲文档影像的视频;所述内容信息确定单元包括:关键图像帧提取子单元,用于提取所述视频中的关键图像帧;识别子单元,用于对所述关键图像帧进行OCR识别,以得到所述多媒体数据包含的内容信息。
[0048]可选的,所述关键图像帧提取子单元包括:图像帧获取模块,用于按照预设时间间隔从所述视频中获取多个图像帧;特征提取模块,用于分别提取多个图像帧的特征;跳变图像帧确定模块,用于根据所述多个图像帧的特征在所述多个图像帧中确定跳变图像帧;第一关键图像帧确定模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取与待识别语音相关的多媒体数据;确定所述多媒体数据包含的内容信息;基于所述内容信息对预设模型进行训练,得到个性化语音识别模型,至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述内容信息对预设模型进行训练,得到个性化语音识别模型,包括:在所述内容信息的数据量达到预设数据量阈值的情况下,将所述内容信息作为训练数据,对所述预设模型进行训练,以得到个性化语音识别模型。3.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述内容信息对预设模型进行训练,得到个性化语音识别模型,包括:在所述内容信息的数据量小于预设数据量阈值的情况下,基于所述内容信息获取辅助语料,将所述辅助语料作为训练数据,对所述预设模型进行训练,以得到个性化语音识别模型。4.根据权利要求3所述的语音识别方法,其特征在于,所述基于所述内容信息获取辅助预料,包括:提取所述内容信息中的关键词,基于所述关键词获取辅助语料;或者,确定所述内容信息的摘要标签,基于所述摘要标签获取辅助语料。5.根据权利要求1所述的语音识别方法,其特征在于,所述至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别,得到语音识别结果,包括:确定所述待识别语音所属的行业领域;结合通用语音识别模型、所述个性化语音识别模型、以及与所述行业领域对应的行业语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。6.根据权利要求1所述的语音识别方法,其特征在于,与待识别语音相关的多媒体数据为包含演讲文档影像的视频;所述确定所述多媒体数据包含的内容信息,包括:提取所述视频中的关键图像帧;对所述关键图像帧进行光学字符识别,以得到所述多媒体数据包含的内容信息。7.根据权利要求6所述的语音识别方法,其特征在于,所述提取所述视频中的关键图像帧,包括:按照预设时间间隔从所述视频中获取多个图像帧;分别提取所述多个图像帧的特征;根据所述多个图像帧的特征在所述多个图像帧中确定跳变图像帧;针对每一跳变图像帧,...

【专利技术属性】
技术研发人员:徐正军黄爽
申请(专利权)人:安徽听见科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利