【技术实现步骤摘要】
一种基于文本信息的辅助说话人分离方法及相关装置
本申请涉及电子设备
,具体涉及一种基于文本信息的辅助说话人分离方法及相关装置。
技术介绍
近年来,随着音频处理技术的不断提高,从海量的数据中,如电话录音、新闻广播、会议录音等,获取感兴趣的特定人声已成为研究热点。说话人分离技术是指从多人对话中自动地将语音依据说话人进行划分,并加以标记的过程,即解决的是“什么时候由谁说”的问题。借助说话人分离技术人们可以实现对音频数据流的一种结构化管理,对音频中的不同人的角色信息进行有效区分,进而为在更高语义层次上实现结构化音频内容提供基础。说话人分离技术具有很多实际应用价值,可以利用分离出的结果来做说话人自适应(SpeakerAdaption),以提高语音识别的识别率;可以辅助电话、会议数据进行自动转写构建话者音频档案,进而实现说话人音频文档管理;另外,还可以通过说话人分离技术,实现语料库的自动跟踪和标注。在说话人分离的过程当中,一般都是采用语音声学特征作为判决的依据,通过语音的音色信息来区分不同的说话人,然而当一段语音中两人的性别相同, ...
【技术保护点】
1.一种基于文本信息的辅助说话人分离方法,其特征在于,包括:/n获取待分离的第一语音信息;/n对所述待分离的第一语音信息进行第一分离处理,得到第一分离结果,所述第一分离处理是指对第一语音信息中的不同说话人进行初步分割和聚类;/n对所述第一分离结果进行语音处理,得到第二语音信息,所述语音处理包括语音识别或语音表征信息采集;/n将所述第二语音信息输入预先训练好的说话人转变点识别模型,确定所述第二语音信息中的说话人的转变点;/n根据所述说话人的转变点和第一分离结果得到目标分离结果。/n
【技术特征摘要】
1.一种基于文本信息的辅助说话人分离方法,其特征在于,包括:
获取待分离的第一语音信息;
对所述待分离的第一语音信息进行第一分离处理,得到第一分离结果,所述第一分离处理是指对第一语音信息中的不同说话人进行初步分割和聚类;
对所述第一分离结果进行语音处理,得到第二语音信息,所述语音处理包括语音识别或语音表征信息采集;
将所述第二语音信息输入预先训练好的说话人转变点识别模型,确定所述第二语音信息中的说话人的转变点;
根据所述说话人的转变点和第一分离结果得到目标分离结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一分离结果进行语音处理,得到第二语音信息,包括:
对所述第一分离结果进行语音表征信息采集,得到所述第二语音信息,所述第二语音信息包括文本表征、置信度表征和语音特征表征;或,
将所述第一分离结果进行语音识别,得到语音文本信息;
根据所述语音文本信息进行语音分词,得到分词结果;
标记所述分词结果的属性信息,所述属性信息包括分词词性和分词词义。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一分离结果进行语音表征信息采集,得到所述第二语音信息,所述第二语音信息包括文本表征、置信度表征和语音特征表征,包括:
将所述第一分离结果通过第一预设表征提取模型提取文本表征;
确定所述第一分离结果中每个字的字边界;
将所述字边界输入第二预设表征提取模型提取语音特征表征;
识别所述第一分离结果的每个字的识别置信度向量;
获取预设置信度向量矩阵;
根据所述识别置信度向量和所述预设置信度向量矩阵确定置信度向量表征。
4.根据权利要求3所述的方法,其特征在于,当所述第二语音信息为文本表征时,所述将所述第二语音信息输入预先训练好的说话人转变点识别模型,确定所述第二语音信息中的说话人的转变点,包括:
将所述文本表征输入预先训练好的说话人转变点识别模型,进行说话人转变点检测,得到检测结果;
根据所述检测结果对所述第一分离结果进行重确认,确定说话人转变点。
5.根据权利要求3所述的方法,其特征在于,所述第二语音信息包括文本表征、置信度表征和语音特征表征,所述将所述第二语音信息输入预先训练好的说话人转变点识别模型,确定所述第二语音信息中的说话人的转变点,包括:
将所述文本表征、置信度表征和语音特征表征进行首尾拼接,得到综合表征向量;
将所述综合表征向量输入预先训练好的说话人转变点识别模型,进行说话人转变点检测,得到检测结果;
根据所述检测结果对所述第一分离结果进行重确认,确定说话人转变点。
6.根据权利要求2所述的方法,其特征在于,所述将所述第二语音信息输入预先训练好的说话人转变点识别模型,确定所述第二语音信息中的说话人的转变...
【专利技术属性】
技术研发人员:方昕,柳林,刘海波,方磊,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。