语音处理的方法、装置、电子设备和介质制造方法及图纸

技术编号:35413871 阅读:25 留言:0更新日期:2022-11-03 11:11
本公开的实施例涉及语音处理的方法、装置、电子设备和介质。方法包括基于目标语音数据的帧级别声学特征,生成目标语音数据的字符级别语义特征。方法还包括基于帧级别声学特征,生成目标语音数据的字符级别声纹特征。方法还包括基于字符级别语义特征和字符级别声纹特征,确定目标语音数据中的发生说话人转换的字符。根据本公开的实施例,结合说话人的声学特征和语音内容,在字符级别上来检测语音数据中的说话人转换,不需要后期处理就能够直接输出基于说话人的语音识别结果,简化了语音识别过程。别过程。别过程。

【技术实现步骤摘要】
语音处理的方法、装置、电子设备和介质


[0001]本公开的实施例涉及语音处理
,并且更具体地,涉及语音处理的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]随着互联网和人工智能(Artificial Intelligence,AI)技术的快速发展,自动语音识别(Automatic Speech Recognition,ASR)得到给人们的生活带来了极大的便利。在一些场景(例如,远程会议、远程教学)中,存在收集和整理语音内容的需要,希望将按照说话人角色来进行语音识别。然而,可能存在多人交替说话或同时说话的时间,这给语音识别带来了挑战。
[0003]说话人转换检测(Speech Conversion Detect,SCD)旨在定位不同说话人开始说话的时间,SCD系统通常用作说话人分割聚类的子模块,或用作语音识别任务的前端对长语音进行切割。SCD系统性能的好坏将很大程度地影响后续处理任务。

技术实现思路

[0004]有鉴于此,本公开的实施例提出了语音处理的技术方案。
[0005]根据本公开的第一方面,提供了一种语音处理的方法。方法包括:基于目标语音数据的帧级别声学特征,生成目标语音数据的字符级别语义特征;基于帧级别声学特征,生成目标语音数据的字符级别声纹特征;以及基于字符级别语义特征和字符级别声纹特征,确定目标语音数据中的发生说话人转换的字符。
[0006]根据本公开的实施例,结合说话人的声学特征和语音内容,在字符级别上来检测语音数据中的说话人转换,不需要后期处理就能够直接输出基于说话人的语音识别结果,简化了语音识别过程。
[0007]根据本公开的第二方面,提供了一种语音处理的装置。装置包括语义特征生成单元、声纹特征生成单元和检测单元。语义特征生成单元被配置为基于目标语音数据的帧级别声学特征,生成目标语音数据的字符级别语义特征。声纹特征生成单元被配置为基于帧级别声学特征,生成目标语音数据的字符级别声纹特征。检测单元被配置为基于字符级别语义特征和字符级别声纹特征,确定目标语音数据中的发生说话人转换的字符。
[0008]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理单元;至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,指令当由至少一个处理单元执行时,使得设备执行根据本公开的第一方面的方法。
[0009]根据本公开的第四方面,提供了一种计算机可读存储介质,包括机器可执行指令,机器可执行指令在由设备执行时使设备执行根据本公开的第一方面的方法。
[0010]。根据本公开的第五方面,提供了一种计算机程序产品,包括机器可执行指令,机器可执行指令在由设备执行时使设备执行根据本公开的第一方面的方法。
[0011]提供该内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。该内容部分无意标识本公开的关键特征或必要特征,也无意限制本公开的范围。
附图说明
[0012]通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
[0013]图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
[0014]图2示出了根据本公开的实施例的在目标语音数据中检测说话人转换的过程的总体示意图;
[0015]图3示出了根据本公开的实施例的语音处理方法的示意流程图;
[0016]图4示出了根据本公开的实施例的语义特征模型的结构的示意图;
[0017]图5示出了根据本公开的实施例的声纹特征模型的结构的示意图;
[0018]图6示出了根据本公开的实施例的说话人转换检测模型的结构的示意图;
[0019]图7示出了根据本公开的实施例的语音处理装置的示意框图;以及
[0020]图8示出了可以用来实施本公开内容的实施例的示例设备的示意性框图。
具体实施方式
[0021]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
[0022]例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
[0023]作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
[0024]可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
[0025]下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0026]在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的
实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0027]需要说明的是,本公开的使用的任何数值或数字均为示例性,绝不用于限制本公开的范围。
[0028]如上所述,说话人检测(SCD)系统性能的好坏将很大程度地影响语音处理的后续处理任务。一些传统的方法使用了基于距离的方法。这类方法将长语音按固定长度进行切分,然后计算相邻片段中声纹特征之间的距离,一旦距离超过阈值,则判定两个片段之间发生了说话人的切换。然而这种方法的检测精度受限于语音段的切分长度,无法检测出说话人快速转换时的转换。还有一些端到端的方法,这类方法使用了神经网络模型来直接预测说话人转换,而不依赖于距离度量,然而这种方法在语音帧级别上预测说话人转换,对语音数据的标注有比较强的依赖,而且需要后期的语音到文本的识别处理,处理过程复杂。
[0029]有鉴于此,本公开的实施例提供了一种语音处理的方法。在该方法中,将目标语音数据的帧级别声学特征转换为目标语音数据的字符(token)级别语义特征。帧级别声学特征可以具有声学特征序列的形式,其中每个声学特征对应于语音数据中的一个语音帧,而字符级别语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理的方法,包括:基于目标语音数据的帧级别声学特征,生成所述目标语音数据的字符级别语义特征;基于所述帧级别声学特征,生成所述目标语音数据的字符级别声纹特征;以及基于所述字符级别语义特征和所述字符级别声纹特征,确定所述目标语音数据中的发生说话人转换的字符。2.根据权利要求1所述的方法,其中,基于目标语音数据的帧级别声学特征,生成所述目标语音数据的字符级别语义特征,包括:对所述帧级别声学特征进行语义编码以得到帧级别语义编码特征;基于所述帧级别语义编码特征,生成一组权重,所述一组权重中的权重逐帧地对应于所述帧级别语义编码特征中的针对帧的语义编码特征;以及基于所述一组权重和所述帧级别语义编码特征,生成所述字符级别语义特征。3.根据权利要求2所述的方法,其中,基于所述一组权重和所述帧级别语义编码特征生成所述字符级别语义特征序列包括:基于所述一组权重中的连续权重的累加值与阈值的比较,划分所述帧级别语义编码特征;以及基于经划分的帧级别语义编码特征和所述一组权重,生成所述字符级别语义特征。4.根据权利要求3所述的方法,其中,基于经划分的帧级别语义编码特征和所述一组权重,生成所述字符级别语义特征包括:基于经划分的帧级别语义编码特征和所述一组权重,生成所述目标语音数据的字符级别语义编码特征;以及基于所述字符级别语义编码特征,生成所述字符级别语义特征。5.根据权利要求4所述的方法,其中,基于所述字符级别语义编码特征生成所述字符级别语义特征包括:对所述字符级别语义编码特征进行语义解码,以得到字符级别语义解码特征;以及将所述字符级别语义解码特征和所述字符级别语义编码特征进行拼接,以生成所述字符级别语义特征。6.根据权利要求2所述的方法,其中,基于所述帧级别声学特征生成所述目标语音数据的字符级别声纹特征包括:对所述帧级别声学特征进行声纹编码,得到帧级别声纹编码特征;以及基于所述帧级别声纹编码特征和...

【专利技术属性】
技术研发人员:董林昊梁镇麟范志赟刘艺马泽君
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1