本发明专利技术涉及人计算机技术领域,提供了一种包含多说话人的语音标记方法,所述方法包含步骤:基于语音识别模型对待标记语音进行识别,得到组成所述待标记语音的各个音素组、所述待标记语音中各单句对应的文本内容,以及所述各个音素组与所述各个单句的对应关系;基于声纹识别模型分别对所述各个音素组进行分值计算;基于所述对应关系,获取组成各个所述单句的所述音素组的分值;基于所述分值,确定所述单句对应的说话人,并对所述单句进行标记。本实施例所提供的方法,通过结合待标记语音中的音素组的声纹特征,以及文本内容,对识别出的各单句进行说话人标记,可满足各种应用场景的需求,提供说话人识别的准确性。
A speech tagging method with multiple speakers and computer readable storage medium
【技术实现步骤摘要】
一种包含多说话人的语音标记方法及计算机可读存储介质
本专利技术涉及计算机信息
,尤其涉及一种包含多说话人的语音标记方法及计算机可读存储介质。
技术介绍
语音识别技术,也被称为自动语音识别AutomaticSpeechRecognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。应用需求的不断增加,对语音识别技术的发展也提出了更高的要求,从单纯的单人语音识别到多人语音的识别,更是实际应用场景中需解决的问题,如何提高多人语音的识别准确性,已成为行业重要研究课题。
技术实现思路
针对上述问题,本专利技术的实施例提供了一种包含多说话人的语音标记方法,所述方法包含步骤:基于语音识别模型对待标记语音进行识别,得到组成所述待标记语音的各个音素组、所述待标记语音中各单句对应的文本内容,以及所述各个音素组与所述各个单句的对应关系;基于声纹识别模型分别对所述各个音素组进行分值计算;基于所述对应关系,获取组成各个所述单句的所述音素组的分值;基于所述分值,确定所述单句对应的说话人,并对所述单句进行标记。本实施例所提供的方法,通过结合待标记语音中的音素组的声纹特征,以及文本内容,对识别出的各单句进行说话人标记,可满足各种应用场景的需求,提供说话人识别的准确性。以及,一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的包含多说话人的语音标记方法。在一实施中,所述基于分值范围,确定所述单句对应的说话人包含:获取各个说话人的阈值对;基于所述各个音素组的分值与所述阈值对的匹配关系,判断组成所述单句的所述各个音素组所对应的说话人;基于预设条件,确定所述单句对应的说话人。在一实施中,所述获取各个说话人的阈值对包含:基于组成所述各个单句的所述各个音素组的分值,确定出不同的阈值对;基于所述阈值对的个数,明确说话人个数,对应获取各个说话人对应的所述阈值对,作为说话人的所述阈值对。在一实施中,所述基于预设条件,判定所述单句对应的说话人包含:若所述单句中各个所述音素组的分值均匹配同一个所述阈值对,则基于该所述阈值对确定所述单句对应的说话人。在一实施中,所述基于预设条件,判定所述单句对应的说话人包含:若所述单句中各个所述音素组的分值分别匹配于不同的所述阈值对,则确定匹配于不同所述阈值对的所述音素组在所述单句中的位置,并得到不同位置对应的文本内容;基于所述不同位置对应的文本内容,进行连贯性的判断;若前后不连贯,则对所述单句进行分割,并分别确定为不同的说话人;若前后连贯,则确定前后两个位置对应的文本内容归属于前说话人。在一实施中,所述连贯性的判断基于nlp技术实现。在一实施中,所述语音识别模型是kaldi提供的aishell2的tdnn模型。在一实施中,所述声纹识别模型是基于kaldi提供的sre16的v2模型。附图说明一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1绘示本专利技术第一实施例所提供的包含多说话人的语音标记方法流程图;图2绘示图1所示实施例中获取各个说话人的音素组阈值的方法流程图。具体实施方式为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。在本专利技术的第一实施例中,提出了一种包含多说话人的语音标记方法,通过结合应用语音识别模型及声纹识别模型,从不同的角度来对待识别语音中的多说话人进行识别确认,提高识别效率及准确性。值得一提的是,虽然本专利技术的实施例仅针对语音标记的应用场景对保护的技术方案进行描述,但其同时也适合其他应用场景,而不局限于语音的标记。具体请参照图1,图1绘示本专利技术第一实施例所提供的包含多说话人的语音标记方法流程图。如图1所示,所述方法具体包含步骤:步骤101,基于语音识别模型对待标记语音进行识别,得到组成所述待标记语音的各个音素组、所述待标记语音中各单句对应的文本内容,以及所述各个音素组与所述各个单句的对应关系。在本实施中,待标记语音可以是用于其他模型训练使用的样本数据,也可以是应用场景中,需要直接输出的数据,本专利技术不作限制。音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节啊(ā)只有一个音素,代(dài)有两个音素等。音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。音素组则是由多个音素构成的组合,其可对应为一个字、一个词组或一个小语音片段。在本实施例中,可理解为一个字或一个词组。本实施中,语音识别模型可以使基于kaldi提供的aishell2的tdnn(Time-DelayNeuralNetwork,时延神经网络)模型,其输入为待标记语音的MFCC(MelFrequencyCepstrumCoefficient,梅尔频率倒谱系数)特征、音高特征和IVECTOR(Identity-Vector)矢量特征,输入层进入模型之后,先是顺序生成组成待标记语音的各个音素,然后基于各个音素得到各个音素组,以及各个音素组构成的单句,并生成各个单句对应的文本内容。如此一来,待标记语音经过语音识别模型的处理,可得组成待标记语音的各个音素组、由单句组成的文本内容,以及各个音素组与各个单句的对应关系。值得注意的是,得到各个音素组即表示可确定各个音素组在待标记语音中的位置信息。步骤102,基于声纹识别模型分别对所述各个音素组进行分值计算。本实施中,声纹识别模型是基于kaldi提供的sre16的v2模型,这个是文本无关的声纹识别模型,可实现对音素组进行分值计算,不同说话人对应的音素组,一般会分布在不同的区间范围内,该区间范围则可对应为一个阈值对。在本步骤中,可对步骤101获得的待标记语音中的各个音素组进行分值计算,从而得到各个音素组对应的分值。步骤103,基于所述对应关系,获取组成各个所述单句的所述音素组的分值。如本文档来自技高网...
【技术保护点】
1.一种包含多说话人的语音标记方法,其特征在于,所述方法包含步骤:/n基于语音识别模型对待标记语音进行识别,得到组成所述待标记语音的各个音素组、所述待标记语音中各单句对应的文本内容,以及所述各个音素组与所述各个单句的对应关系;/n基于声纹识别模型分别对所述各个音素组进行分值计算;/n基于所述对应关系,获取组成各个所述单句的所述音素组的分值;/n基于所述分值,确定所述单句对应的说话人,并对所述单句进行标记。/n
【技术特征摘要】
1.一种包含多说话人的语音标记方法,其特征在于,所述方法包含步骤:
基于语音识别模型对待标记语音进行识别,得到组成所述待标记语音的各个音素组、所述待标记语音中各单句对应的文本内容,以及所述各个音素组与所述各个单句的对应关系;
基于声纹识别模型分别对所述各个音素组进行分值计算;
基于所述对应关系,获取组成各个所述单句的所述音素组的分值;
基于所述分值,确定所述单句对应的说话人,并对所述单句进行标记。
2.如权利要求1所述的方法,其特征在于,所述基于分值范围,确定所述单句对应的说话人包含:
获取各个说话人的阈值对;
基于所述各个音素组的分值与所述阈值对的匹配关系,判断组成所述单句的所述各个音素组所对应的说话人;
基于预设条件,确定所述单句对应的说话人。
3.如权利要求2所述的方法,其特征在于,所述获取各个说话人的阈值对包含:
基于组成所述各个单句的所述各个音素组的分值,确定出不同的取值范围;
基于所述取值范围的个数,明确说话人个数,对应获取各个说话人对应的所述取值范围,作为说话人的所述阈值对。
4.如权利要求2所述的方法,其特征在于,所述基于预设条件,判定所述单句对应的说话...
【专利技术属性】
技术研发人员:张广学,肖龙源,蔡振华,李稀敏,刘晓葳,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。