一种包含多说话人的语音标记方法及计算机可读存储介质技术

技术编号：24582637 阅读：20 留言：0更新日期：2020-06-21 01:20

本发明专利技术涉及人计算机技术领域，提供了一种包含多说话人的语音标记方法，所述方法包含步骤：基于语音识别模型对待标记语音进行识别，得到组成所述待标记语音的各个音素组、所述待标记语音中各单句对应的文本内容，以及所述各个音素组与所述各个单句的对应关系；基于声纹识别模型分别对所述各个音素组进行分值计算；基于所述对应关系，获取组成各个所述单句的所述音素组的分值；基于所述分值，确定所述单句对应的说话人，并对所述单句进行标记。本实施例所提供的方法，通过结合待标记语音中的音素组的声纹特征，以及文本内容，对识别出的各单句进行说话人标记，可满足各种应用场景的需求，提供说话人识别的准确性。

A speech tagging method with multiple speakers and computer readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种包含多说话人的语音标记方法及计算机可读存储介质
本专利技术涉及计算机信息
，尤其涉及一种包含多说话人的语音标记方法及计算机可读存储介质。
技术介绍
语音识别技术，也被称为自动语音识别AutomaticSpeechRecognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。随着数据处理技术的进步以及移动互联网的快速普及，计算机技术被广泛地运用到了社会的各个领域，随之而来的则是海量数据的产生。其中，语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。应用需求的不断增加，对语音识别技术的发展也提出了更高的要求，从单纯的单人语音识别到多人语音的识别，更是实际应用场景中需解决的问题，...

【技术保护点】
1.一种包含多说话人的语音标记方法，其特征在于，所述方法包含步骤：/n基于语音识别模型对待标记语音进行识别，得到组成所述待标记语音的各个音素组、所述待标记语音中各单句对应的文本内容，以及所述各个音素组与所述各个单句的对应关系；/n基于声纹识别模型分别对所述各个音素组进行分值计算；/n基于所述对应关系，获取组成各个所述单句的所述音素组的分值；/n基于所述分值，确定所述单句对应的说话人，并对所述单句进行标记。/n

【技术特征摘要】
1.一种包含多说话人的语音标记方法，其特征在于，所述方法包含步骤：
基于语音识别模型对待标记语音进行识别，得到组成所述待标记语音的各个音素组、所述待标记语音中各单句对应的文本内容，以及所述各个音素组与所述各个单句的对应关系；
基于声纹识别模型分别对所述各个音素组进行分值计算；
基于所述对应关系，获取组成各个所述单句的所述音素组的分值；
基于所述分值，确定所述单句对应的说话人，并对所述单句进行标记。

2.如权利要求1所述的方法，其特征在于，所述基于分值范围，确定所述单句对应的说话人包含：
获取各个说话人的阈值对；
基于所述各个音素组的分值与所述阈值对的匹配关系，判断组成所述单句的所述各个音素组所对应的说话人；
基于预设条件，确定所述单句对应的说话人。

3.如权利要求2所述的方法，其特征在于，所述获取各个说话人的阈值对包含：
基于组成所述各个单句的所述各个音素组的分值，确定出不同的取值范围；
基于所述取值范围的个数，明确说话人个数，对应获取各个说话人对应的所述取值范围，作为说话人的所述阈值对。

4.如权利要求2所述的方法，其特征在于，所述基于预设条件，判定所述单句对应的说话...

【专利技术属性】
技术研发人员：张广学，肖龙源，蔡振华，李稀敏，刘晓葳，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人