【技术实现步骤摘要】
应用于说话人分离的转折点检测方法、装置以及设备
本专利技术涉及语音处理领域,尤其涉及一种应用于说话人分离的转折点检测方法、装置以及设备。
技术介绍
近年来,随着语音识别技术的逐渐发展,除了获得音频的识别文本之外,获得识别文本对应的说话人角色信息也成为了自动语音识别技术中一个重要的需求点。说话人分离技术是为了解决“何人在何时说话”这一问题的,即把混合多个说话人的音频切分成只包含单一说话人的语音片段并确认说话人角色信息。在实际操作中,说话人分离技术可以作为语音识别的预处理过程,将属于同一人的音频抽取出来之后再进行转写,以提高识别效果;也可以作为语言识别的后处理过程,对识别结果进行说话人角色信息标注,例如电话客服场景对客户和客服角色的标注等。而转折点则是说话人分离技术的一个重要的组成部分,是为了寻找语音流中说话人发生切换的时间点。当确认了说话人转折点之后,就可以对混合多个说话人的音频进行分割,通过对分割音频进行声纹提取以及比对操作即可获得对应的说话人角色信息。当然,对于说话人转折点检测,在基于说话人分离该技术前提下 ...
【技术保护点】
1.一种应用于说话人分离的转折点检测方法,其特征在于,包括:/n获取说话人的音频数据以及相应的转写文本;/n根据所述音频数据和/或转写文本,得到辅助检测信息;/n结合所述转写文本、所述音频数据、所述辅助检测信息以及预设的转折点检测策略,确定出所述转写文本中转折点的位置。/n
【技术特征摘要】
1.一种应用于说话人分离的转折点检测方法,其特征在于,包括:
获取说话人的音频数据以及相应的转写文本;
根据所述音频数据和/或转写文本,得到辅助检测信息;
结合所述转写文本、所述音频数据、所述辅助检测信息以及预设的转折点检测策略,确定出所述转写文本中转折点的位置。
2.根据权利要求1所述的应用于说话人分离的转折点检测方法,其特征在于,所述得到辅助检测信息包括:
利用所述转写文本以及预设的标点检测策略,得到对应于所述转写文本的标点信息。
3.根据权利要求2所述的应用于说话人分离的转折点检测方法,其特征在于,所述利用所述转写文本以及预设的标点检测策略,得到对应于所述转写文本的标点信息包括:
将所述转写文本分词后输入至采用特定网络结构的标点检测模型;
将对应于各分词的所述标点检测模型的输出向量及其相应的中间状态向量进行融合,得到所述标点信息。
4.根据权利要求2所述的应用于说话人分离的转折点检测方法,其特征在于,所述结合所述转写文本、所述音频数据以及所述辅助检测信息包括:
将所述转写文本与所述音频数据对齐,并从所述音频数据中提取到对应文本的声学特征;
根据所述声学特征以及预训练的声纹检测策略获取相应的声纹信息;
提取所述转写文本的文本信息;
将所述文本信息、所述声纹信息以及所述标点信息作为所述转折点检测策略的输入变量。
5.根据权利要求1~4任一项所述的应用于说话人分离的转折点检测方法,其特征在于,所述方法还包括:
根据人工经验或所述辅助检测信息的获取过程,预设所述辅助检测信息的信任度;
基于所述信任度确定输入至所述转折点检测策略的所述转写文本、所述音频数据以及所述辅助检测信息的权重。
6.根据权利要求1~4任一项所述的应用于说话人分离的转折点检测方法,其特征在于,所述转折点检测策略采用基于长短期记忆神...
【专利技术属性】
技术研发人员:王泽玉,高天,万根顺,高建清,刘聪,王智国,胡国平,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。