【技术实现步骤摘要】
语音处理方法、装置、电子设备、介质及程序产品
[0001]本申请涉及语音识别
,尤其涉及一种语音处理方法、装置、电子设备、介质及程序产品。
技术介绍
[0002]语音识别技术可以使机器通过识别和理解过程把语音信号转变为相应的文本。
[0003]在语音会议或视频会议等多人语音的场景下,可以将语音音频按说话人切分成不同的语音片段及对应的文本信息。在相关技术中,可以将文本信息和与之对应的语音片段的说话人关联展示。然而,由于语音识别的准确性问题,存在着关联展示的文本信息和说话人不相符的可能。
技术实现思路
[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种语音处理方法、装置、电子设备、介质及程序产品。
[0005]根据本申请的第一方面,提供了一种语音处理方法,包括:
[0006]获取包含多个说话人的语音数据,对所述语音数据进行语音识别,生成并呈现包括多个文本段信息的原始识别文本信息;其中,每个所述文本段信息关联地显示文本段内容和与所述文本段内容对应的语音片段 ...
【技术保护点】
【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:获取包含多个说话人的语音数据,对所述语音数据进行语音识别,生成并呈现包括多个文本段信息的原始识别文本信息;其中,每个所述文本段信息关联地显示文本段内容和与所述文本段内容对应的语音片段的说话人;响应于针对任一文本段信息的编辑操作,基于所述编辑操作的类型以及所述文本段信息对应的语音片段,重新确定各所述文本段内容所对应的说话人。2.根据权利要求1所述的方法,其特征在于,所述编辑操作包括针对所述任一文本段信息中的文本段内容对应的说话人的用户关联操作,所述基于所述编辑操作的类型以及所述文本段信息对应的语音片段,重新确定各所述文本段内容所对应的说话人,包括:将所述任一文本段信息中的文本段内容对应的说话人更新为所述用户关联操作所指示的目标用户;根据所述任一文本段信息对应的语音片段和所述目标用户,对未进行用户关联操作的文本段信息中的文本段内容对应的说话人进行说话人确定。3.根据权利要求1所述的方法,其特征在于,所述编辑操作包括针对至少一个文本段内容的分段操作,所述基于所述编辑操作的类型以及所述文本段信息对应的语音片段,重新确定各所述文本段内容所对应的说话人,包括:对所述至少一个文本段内容重新进行分段,针对所述分段操作后得到的目标识别文本信息所包含的各文本段内容,对各文本段内容所对应的语音片段进行聚类;基于聚类结果确定各文本段内容的说话人。4.根据权利要求2所述的方法,其特征在于,所述根据所述任一文本段信息对应的语音片段和所述目标用户,对未进行用户关联操作的文本段信息中的文本段内容对应的说话人进行说话人确定,包括:从所述任一文本段信息对应的语音片段中提取所述目标用户的目标语音特征;从未进行用户关联操作的文本段信息对应的语音片段中提取待匹配语音特征;将所述待匹配语音特征与所述目标语音特征进行匹配,如果匹配成功,将未进行用户关联操作的文本段信息中的文本段内容对应的说话人更新为所述目标用户。...
【专利技术属性】
技术研发人员:王斌,杨晶生,姚佳立,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。