基于说话人分割的角色识别方法及装置制造方法及图纸

技术编号:36576906 阅读:20 留言:0更新日期:2023-02-04 17:35
本发明专利技术提供一种基于说话人分割的角色识别方法及装置,该方法包括:将待识别会话语音转换为文本数据,基于句子切分模型将所述文本数据切分成多个句子,提取每个句子的文本特征;对所述待识别会话语音切分,获取每个句子对应的音频段,提取每个音频段的声学特征;基于注意力机制对每个句子对应的文本特征和声学特征进行对齐,生成每个句子对应的对齐向量;根据每个句子对应的对齐向量、文本特征和声学特征,基于分类模型获取每个句子对应的说话人类别。本发明专利技术使用文本和音频之间的交互特征进行角色识别,提高角色识别的准确性。提高角色识别的准确性。提高角色识别的准确性。

【技术实现步骤摘要】
基于说话人分割的角色识别方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于说话人分割的角色识别方法及装置。

技术介绍

[0002]目前,对语音会话的角色识别主要包括两个模块,即说话人分割和角色识别。两者在客服语音自动分割识别、智能会议记录等任务中发挥着重要作用。
[0003]其中,说话人分割是指在采集的语音信号流中,分辨出不同说话人的说话时长并标注。角色识别是指为多人对话中的各语音片段标注出说话人。现有技术对语音进行角色识别时,使用音频特征或音频转写后的语义特征进行角色识别,角色识别准确性较低。

技术实现思路

[0004]本专利技术提供一种基于说话人分割的角色识别方法及装置,用以解决现有技术中使用音频特征或音频转写后的语义特征进行角色识别,角色识别准确性较低的缺陷,实现提高角色识别的准确性。
[0005]本专利技术提供一种基于说话人分割的角色识别方法,包括:
[0006]将待识别会话语音转换为文本数据,基于句子切分模型将所述文本数据切分成多个句子,提取每个句子的文本特征;
...

【技术保护点】

【技术特征摘要】
1.一种基于说话人分割的角色识别方法,其特征在于,包括:将待识别会话语音转换为文本数据,基于句子切分模型将所述文本数据切分成多个句子,提取每个句子的文本特征;对所述待识别会话语音切分,获取每个句子对应的音频段,提取每个音频段的声学特征;基于注意力机制对每个句子对应的文本特征和声学特征进行对齐,生成每个句子对应的对齐向量;根据每个句子对应的对齐向量、文本特征和声学特征,基于分类模型获取每个句子对应的说话人类别。2.根据权利要求1所述的基于说话人分割的角色识别方法,其特征在于,所述基于句子切分模型将所述文本数据切分成多个句子,提取每个句子的文本特征,包括:基于语言模型对所述文本数据进行编码,获取所述文本数据中每个字的隐层状态;根据所述文本数据中每个字的隐层状态,基于句子切分模型将所述文本数据切分成多个句子;将每个句子中所有字的隐层状态进行融合,获取每个句子的文本特征。3.根据权利要求1所述的基于说话人分割的角色识别方法,其特征在于,所述基于注意力机制对每个句子对应的文本特征和声学特征进行对齐,生成每个句子对应的对齐向量,包括:基于双向长短时记忆神经网络对每个句子对应的文本特征和声学特征进行编码,获取每个句子对应的文本特征向量和每个音频段的声学特征向量;基于注意力机制对每个句子的文本特征向量和每个句子对应的音频段的声学特征向量进行对齐,生成每个句子对应的对齐向量。4.根据权利要求3所述的基于说话人分割的角色识别方法,其特征在于,通过以下公式所述基于注意力机制对每个句子的文本特征向量和每个句子对应的音频段的声学特征向量进行对齐,生成每个句子对应的对齐向量:生成每个句子对应的对齐向量:p
ij
=tanh(u
T
s
i
+v
T
h
j
+b);其中,表示任一句子中第i个词对应的对齐向量,tanh为双曲正切函数,u、v和b表示参数,u
T
表示u的转置,v
T
表示v的转置,s
i
表示任一句子中第i个词对应的声学特征向量,h
j
表示任一句子中第j个词对应的文本特征向量,N表示任一句子中词的数量。5.根据权利要求3所述的基于说话人分割的角色识别方法,其特征在于,所述根据每个句...

【专利技术属性】
技术研发人员:王瑾张春孙昊丛凌雷杜壮
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1