一种说话人自动标注方法技术

技术编号:19323358 阅读:34 留言:0更新日期:2018-11-03 12:20
本发明专利技术属于语音信号处理领域,具体涉及一种说话人自动标注方法,目的是提高说话人角色标注的准确性。该方法包括:对待标注的语音进行语音识别,得到文字内容以及静音段位置,并根据静音段位置将语音切分成多个短句;利用预先配置的基于内容的角色模型以及上述识别结果,对各个短句进行角色置信度打分,用得分高的短句语音构成其对应的角色语音数据集合;将当前各角色集合中的语音作为训练数据,得到该角色的说话人识别模型;利用说话人识别模型对其它短句打分,将满足要求的句子语音标记为相应的角色,并加入到该角色语音数据集合中,并更新说话人识别模型;利用更新后的模型对剩余的句子进行说话人识别,从而得到角色标注结果。

A speaker automatic annotation method

The invention belongs to the field of speech signal processing, in particular to a speaker automatic annotation method, aiming at improving the accuracy of speaker role annotation. The method includes: speech recognition for annotated speech, text content and silent segment location are obtained, and voice is divided into several short sentences according to the silent segment location; using the pre-configured content-based role model and the above recognition results, the role confidence of each short sentence is scored, and the short sentences with high score are scored. Sentence voice constitutes the corresponding role voice data set; the current voice of each role set is used as training data to get the speaker recognition model of the role; the speaker recognition model is used to score other short sentences, and the required sentence voice is marked as the corresponding role, and added to the role voice data set. In the end, the speaker recognition model is updated, and the updated model is used to identify the remaining sentences, so as to get the result of role annotation.

【技术实现步骤摘要】
一种说话人自动标注方法
本专利技术属于语音信号处理领域,具体涉及一种说话人自动标注方法。
技术介绍
说话人标注是将多人对话语音中的各个说话人的相关属性标注出来,主要包括语音中的说话人个数、每个说话人语音的起止时间,以及在对话中所处的角色等。说话人标注技术在语音文档信息挖掘、移动交互、身份验证、音频监控等领域有着广泛的应用前景;尤其适用于参与对话的说话人具有明显角色特点的场景,如语音客服、法庭辩护、电视采访等语音对话场景。现有方法在对说话人语音建模并自动分类的基础上进行说话人分隔和角色标注。其前提是假设各个说话人的声纹特征之间存在较大差异并足以区分,并且还需要事先进行说话人注册,以指定某一说话人对应某种角色。当处理一段语音时,先识别说话人身份,再根据该说话人注册的信息得到其对应的角色。说话人识别通常采用统计建模方法,一般包括训练阶段和识别阶段。在训练阶段,系统首先对提供的若干训练语音进行静音剔除和降噪处理,尽可能得到纯净有效的语音片段,然后再对这些语音提取对应的声学特征参数,根据系统的建模算法,得到说话人的特征模型。每个说话人对应的训练语音经过训练阶段后得到一个说话人模型。识别阶段就是本文档来自技高网...

【技术保护点】
1.一种说话人自动标注方法,包括如下步骤:步骤一、对待标注的语音进行语音识别,得到文字内容以及静音段位置,并根据静音段位置将语音切分成多个短句;步骤二、利用预先配置的基于内容的角色模型以及步骤一识别出的文字内容,对各个短句进行角色置信度打分,将得分达到要求的短句语音构成其对应角色的语音数据集合;步骤三、将当前各角色集合中的语音作为训练数据,得到各角色的说话人识别模型;步骤四、利用步骤三得到的说话人识别模型对其它短句打分,将得分达到要求的语音标记为相应角色,并加入到该角色语音数据集合中,将剩余的短句加入到待标注集合;步骤五、利用经步骤四更新的角色集合对各个角色进行说话人识别模型更新;步骤六、利用...

【技术特征摘要】
1.一种说话人自动标注方法,包括如下步骤:步骤一、对待标注的语音进行语音识别,得到文字内容以及静音段位置,并根据静音段位置将语音切分成多个短句;步骤二、利用预先配置的基于内容的角色模型以及步骤一识别出的文字内容,对各个短句进行角色置信度打分,将得分达到要求的短句语音构成其对应角色的语音数据集合;步骤三、将当前各角色集合中的语音作为训练数据,得到各角色的说话人识别模型;步骤四、利用步骤三得到的说话人识别模型对其它短句打分,将得分达到要求的语音标记为相应角色,并加入到该角色语音数据集合中,将剩余的短句加入到待标注集合;步骤五、利用经步骤四更新的角色集合对各个角色进行说话人识别模型更新;步骤六、利用更新后的模型对待标注集合中的语音进行说话人识别,从而得到角色标注结果。2.如权利要求1所述的一种说话人自动标注方法,其特征在于:步骤一中,所述文字内容的识别方法为大词汇连续语音识别方法。3.如权利要求1所述的一种说话人自动标注方法,其特征在于:步骤一中,所述静音段检测与语音内容识别均在识别过程中完成,即将静音作为一个特殊音子来识别,并得到起止时间。4.如权利要求1所述的一种说话人自动标注方法,其特征在于:步骤二中,所述基于内容的角色模型利用文字内容,并采用模糊匹配、关键词匹配、统计机器学习方法或深度学习方法构建。5.如权利要求1所述的一种说话人自动标注方法,其特征在于:步骤二和步骤四中,所述得分达到要求是指最优角色置信分数最高或分数大于某一预设阈值。6.如权利要求1所述的一种说话人自动标注方法...

【专利技术属性】
技术研发人员:庞在虎张志平陈博朱风云
申请(专利权)人:北京灵伴即时智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1