语音识别方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:20007079 阅读:39 留言:0更新日期:2019-01-05 18:40
本发明专利技术实施例提供了一种语音识别方法、装置、计算机设备及计算机可读存储介质,该方法包括:实时有序地接收播音者的语音信号;提取所述语音信号的声纹信息;基于声纹识别模型对所述声纹信息进行识别以识别出所述语音信号的归属者;将所述语音信号转化为文字信息;将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出。本发明专利技术实施例通过语音识别的模型实时识别说话者的语音内容,识别说话者的身份,将说话者的语音内容文本化形成对白或独白文档保存,提高记录语言的记录效率;另外,语音文本化后便于查询或查阅。

Speech Recognition Method, Device, Computer Equipment and Computer Readable Storage Media

The embodiment of the present invention provides a speech recognition method, device, computer equipment and computer readable storage medium. The method includes: receiving the voice signal of the broadcaster in real time and orderly; extracting the voiceprint information of the voice signal; recognizing the voiceprint information based on the voiceprint recognition model to identify the owner of the voice signal; and transforming the voice signal. For text information, the text information is labeled by the owner and output according to the receiving order of the speech signal. The embodiment of the present invention can recognize the speaker's speech content in real time through the model of speech recognition, recognize the speaker's identity, text the speaker's speech content into a dialogue or monologue document to save, improve the recording efficiency of the recording language; in addition, it is easy to query or consult after speech textualization.

【技术实现步骤摘要】
语音识别方法、装置、计算机设备及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种语音识别方法、装置、计算机设备及计算机可读存储介质。
技术介绍
目前,在视频媒体和声音媒体的广播中,会有不同主体的声音,日常中存在记录视频或音频的内容的需求,需要将对话内容文本化后进行保存,以便后续查阅或查询;另外,文本化之后的不同视频或音频的内容之间关联性也更容易被获取。目前一般是通过人工记录视频或音频的内容,工作量大、需要耗费非常多的时间,效率低下。
技术实现思路
本专利技术实施例提供了一种语音识别方法、装置、计算机设备及计算机可读存储介质,旨在提高记录语音内容的效率。第一方面,本专利技术实施例提供了一种语音识别方法,该方法包括:实时有序地接收播音者的语音信号;提取所述语音信号的声纹信息;基于声纹识别模型对所述声纹信息进行识别以识别出所述语音信号的归属者;将所述语音信号转化为文字信息;将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出。第二方面,本专利技术实施例还提供了一种语音识别装置,所述语音识别装置包括用于实现第一方面所述的语音识别方法的单元。第三方面,本专利技术实施例还提本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:实时有序地接收播音者的语音信号;提取所述语音信号的声纹信息;基于声纹识别模型对所述声纹信息进行识别以识别出所述语音信号的归属者;;将所述语音信号转化为文字信息;将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:实时有序地接收播音者的语音信号;提取所述语音信号的声纹信息;基于声纹识别模型对所述声纹信息进行识别以识别出所述语音信号的归属者;;将所述语音信号转化为文字信息;将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出。2.根据权利要求1所述的语音识别方法,其特征在于,所述将所述语音信号转化为文字信息,包括:基于DNN-HMM声学模型识别所述声纹信息对应的音素串;将所述音素串输入至Seq2seq语言模型进行识别以得到对应的文字信息。3.根据权利要求1所述的语音识别方法,其特征在于,所述声纹信息包括梅尔频率倒谱系数的p阶分量以及梅尔频率倒谱系数的一阶差分;所述从所述声音信号中提取声纹信息,包括:将所采集到的声音信号进行采样处理以得到数字声音信号;将所述数字声音信号进行预加重处理;将预加重处理后的数字声音信号进行分帧处理;将分帧处理后的数字声音信号进行加窗处理;将加窗处理后的数字声音信号进行快速傅里叶变换以得到频域的声音信号;通过三角形带通滤波器组对所述频域的声音信号进行滤波以使所述三角形带通滤波器中的每个滤波器分别输出滤波结果,其中,所述三角形带通滤波器包括p个滤波器;将每个滤波器输出的滤波结果分别取对数以得到所述声音信号的p个对数能量;将所得的p个对数能量进行离散余弦变化得到梅尔频率倒谱系数的p阶分量;利用一阶梅尔频率倒谱系数分量和二阶梅尔频率倒谱系数分量计算梅尔频率倒谱系数的一阶差分。4.根据权利要求1所述的语音识别方法,其特征在于,所述播音者为多个;所述将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出,包括:若相邻的若干句文字信息的归属者相同,将所述若干句文字信息合并为一段文字信息;若相邻两句文字信息的归属者不同,按归属者将所述相邻两句文字信息进行分段处理;在段头标记文字信息对应的归属...

【专利技术属性】
技术研发人员:吴壮伟
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1