一种包含多说话人的语音标记方法及计算机可读存储介质技术

技术编号:24582637 阅读:20 留言:0更新日期:2020-06-21 01:20
本发明专利技术涉及人计算机技术领域,提供了一种包含多说话人的语音标记方法,所述方法包含步骤:基于语音识别模型对待标记语音进行识别,得到组成所述待标记语音的各个音素组、所述待标记语音中各单句对应的文本内容,以及所述各个音素组与所述各个单句的对应关系;基于声纹识别模型分别对所述各个音素组进行分值计算;基于所述对应关系,获取组成各个所述单句的所述音素组的分值;基于所述分值,确定所述单句对应的说话人,并对所述单句进行标记。本实施例所提供的方法,通过结合待标记语音中的音素组的声纹特征,以及文本内容,对识别出的各单句进行说话人标记,可满足各种应用场景的需求,提供说话人识别的准确性。

A speech tagging method with multiple speakers and computer readable storage medium

【技术实现步骤摘要】
一种包含多说话人的语音标记方法及计算机可读存储介质
本专利技术涉及计算机信息
,尤其涉及一种包含多说话人的语音标记方法及计算机可读存储介质。
技术介绍
语音识别技术,也被称为自动语音识别AutomaticSpeechRecognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。应用需求的不断增加,对语音识别技术的发展也提出了更高的要求,从单纯的单人语音识别到多人语音的识别,更是实际应用场景中需解决的问题,如何提高多人语音的识本文档来自技高网...

【技术保护点】
1.一种包含多说话人的语音标记方法,其特征在于,所述方法包含步骤:/n基于语音识别模型对待标记语音进行识别,得到组成所述待标记语音的各个音素组、所述待标记语音中各单句对应的文本内容,以及所述各个音素组与所述各个单句的对应关系;/n基于声纹识别模型分别对所述各个音素组进行分值计算;/n基于所述对应关系,获取组成各个所述单句的所述音素组的分值;/n基于所述分值,确定所述单句对应的说话人,并对所述单句进行标记。/n

【技术特征摘要】
1.一种包含多说话人的语音标记方法,其特征在于,所述方法包含步骤:
基于语音识别模型对待标记语音进行识别,得到组成所述待标记语音的各个音素组、所述待标记语音中各单句对应的文本内容,以及所述各个音素组与所述各个单句的对应关系;
基于声纹识别模型分别对所述各个音素组进行分值计算;
基于所述对应关系,获取组成各个所述单句的所述音素组的分值;
基于所述分值,确定所述单句对应的说话人,并对所述单句进行标记。


2.如权利要求1所述的方法,其特征在于,所述基于分值范围,确定所述单句对应的说话人包含:
获取各个说话人的阈值对;
基于所述各个音素组的分值与所述阈值对的匹配关系,判断组成所述单句的所述各个音素组所对应的说话人;
基于预设条件,确定所述单句对应的说话人。


3.如权利要求2所述的方法,其特征在于,所述获取各个说话人的阈值对包含:
基于组成所述各个单句的所述各个音素组的分值,确定出不同的取值范围;
基于所述取值范围的个数,明确说话人个数,对应获取各个说话人对应的所述取值范围,作为说话人的所述阈值对。


4.如权利要求2所述的方法,其特征在于,所述基于预设条件,判定所述单句对应的说话...

【专利技术属性】
技术研发人员:张广学肖龙源蔡振华李稀敏刘晓葳
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1