说话人标注方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37300221 阅读:14 留言:0更新日期:2023-04-21 22:46
本发明专利技术提供一种说话人标注方法、装置、电子设备和存储介质,涉及语音处理技术领域,该方法包括:获取语音数据,并对语音数据进行转写,得到转写文本;对语音数据进行切分,得到至少一个语音片段,并提取每个语音片段的声纹特征;针对每个设定时间段,对设定时间段内的声纹特征进行聚类分析,得到说话人分离结果;利用说话人分离结果对第一历史说话人分离结果进行聚类更新,基于更新后的第一历史说话人分离结果对转写文本进行说话人标注;其中,第一历史说话人分离结果是基于设定时间段之前的至少一个设定时间段对应的说话人分离结果确定的。本发明专利技术提供的技术方案能够对语音转写文本进行说话人标注,提高说话人标注的准确性。提高说话人标注的准确性。提高说话人标注的准确性。

【技术实现步骤摘要】
说话人标注方法、装置、电子设备和存储介质


[0001]本专利技术涉及语音处理
,尤其涉及一种说话人标注方法、装置、电子设备和存储介质。

技术介绍

[0002]语音是人与人之间最自然的沟通方式,也是获取信息的重要途径之一,比如演讲、庭审、会议等场合都是通过语音进行沟通。这些场合通常需要对沟通内容进行记录,整理成会议纪要或工作简报等。
[0003]随着人工智能技术的发展,语音转写系统被越来越多的应用于会议记录和庭审记录等场景中,通过对语音的实时或离线转写,能够将语音内容转写成文字,提高会议记录和庭审记录的效率。对于多人讨论的会议场景,语音转写的文本内容会来自不同的说话人,如果能够对转写形成的文本标注对应的说话人,将有助于阅读者对文档的阅读和存档。

技术实现思路

[0004]本专利技术提供一种说话人标注方法、装置、电子设备和存储介质,以实现语音转写文本的说话人标注,方便后续的文本阅读和存档。
[0005]本专利技术提供一种说话人标注方法,包括:
[0006]获取语音数据,并对所述语音数据进行转写,得到转写文本;
[0007]对所述语音数据进行切分,得到至少一个语音片段,并提取每个所述语音片段的声纹特征;
[0008]针对每个设定时间段,对所述设定时间段内的所述声纹特征进行聚类分析,得到说话人分离结果;
[0009]利用所述说话人分离结果对第一历史说话人分离结果进行聚类更新,基于更新后的第一历史说话人分离结果对所述转写文本进行说话人标注;其中,所述第一历史说话人分离结果是基于所述设定时间段之前的至少一个设定时间段对应的说话人分离结果确定的。
[0010]根据本专利技术提供的一种说话人标注方法,在所述利用所述说话人分离结果对第一历史说话人分离结果进行聚类更新之前,所述方法还包括:
[0011]获取第一设定时间段对应的第一说话人分离结果,所述第一设定时间段为所述设定时间段的前一个设定时间段;
[0012]利用所述第一说话人分离结果对第二历史说话人分离结果进行聚类更新,得到所述第一历史说话人分离结果;其中,所述第二历史说话人分离结果是基于所述第一设定时间段之前的至少一个设定时间段对应的说话人分离结果确定的。
[0013]根据本专利技术提供的一种说话人标注方法,所述基于更新后的第一历史说话人分离结果对所述转写文本进行说话人标注,包括:
[0014]在检测到语音结束指令的情况下,基于最终得到的更新后的第一历史说话人分离
结果,将连续属于同一说话人的语音片段对应的转写文本内容进行整合,得到整合文本内容;
[0015]对所述整合文本内容标注所述说话人的标识信息。
[0016]根据本专利技术提供的一种说话人标注方法,所述对所述整合文本内容标注所述说话人的标识信息,包括:
[0017]获取所述整合文本内容标注的初始标识信息;
[0018]在基于所述最终得到的更新后的第一历史说话人分离结果对所述整合文本内容进行标注的过程中,检测所述初始标识信息是否为人工标注的标识信息;
[0019]在所述整合文本内容标注的所述初始标识信息为人工标注的标识信息的情况下,将所述整合文本内容标注所述人工标注的标识信息。
[0020]根据本专利技术提供的一种说话人标注方法,在所述对所述设定时间段内的所述声纹特征进行聚类分析,得到说话人分离结果之后,所述方法还包括:
[0021]根据所述说话人分离结果对所述设定时间段对应的转写文本内容进行说话人标注,得到说话人标注文本;
[0022]实时显示所述说话人标注文本。
[0023]根据本专利技术提供的一种说话人标注方法,所述方法还包括:
[0024]接收修改指令;
[0025]响应于所述修改指令,对所述说话人标注文本进行修改。
[0026]根据本专利技术提供的一种所述的说话人标注方法,所述更新后的第一历史说话人分离结果包括说话人的标识信息;
[0027]在所述基于更新后的第一历史说话人分离结果对所述转写文本进行说话人标注之后,所述方法还包括:
[0028]基于所述说话人的标识信息,显示说话人标注后的所述转写文本;其中,不同说话人的标识信息的显示参数不同,和/或,通过语音播放进度条的参数信息表征不同说话人的标识信息。
[0029]根据本专利技术提供的一种说话人标注方法,在所述利用所述说话人分离结果对第一历史说话人分离结果进行聚类更新之后,所述方法还包括:
[0030]保存更新后的第一历史说话人分离结果,所述更新后的第一历史说话人分离结果中包括说话人的标识信息和声纹特征。
[0031]本专利技术还提供一种说话人标注装置,包括:
[0032]语音获取模块,用于获取语音数据;
[0033]转写模块,用于对所述语音数据进行转写,得到转写文本;
[0034]处理模块,用于基于语音边界检测对所述语音数据进行切分,得到至少一个语音片段,并提取每个所述语音片段的声纹特征;
[0035]分析模块,用于针对每个设定时间段,对所述设定时间段内的所述声纹特征进行聚类分析,得到说话人分离结果;
[0036]标注模块,用于利用所述说话人分离结果对第一历史说话人分离结果进行聚类更新,基于更新后的第一历史说话人分离结果对所述转写文本进行说话人标注;其中,所述第一历史说话人分离结果是基于所述设定时间段之前的至少一个设定时间段对应的说话人
分离结果确定的。
[0037]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述说话人标注方法。
[0038]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述说话人标注方法。
[0039]本专利技术提供的说话人标注方法、装置、电子设备和存储介质,通过对获取的语音数据进行切分,提取切分得到的每个语音片段的声纹特征,针对每个设定时间段,对该设定时间段内的声纹特征进行聚类分析,得到说话人分离结果,利用说话人分离结果对第一历史说话人分离结果进行聚类更新,并基于更新后的第一历史说话人分离结果对语音数据转写得到的转写文本进行说话人标注,实现了对语音转写文本的说话人标注,通过说话人标注,可以区分文本内容对应的说话人,有助于阅读者理解文本,方便后续的文本阅读和存档。而且,其中的第一历史说话人分离结果是基于设定时间段之前的至少一个设定时间段对应的说话人分离结果确定的,这样,更新后的第一历史说话人分离结果综合考虑了当前时间段及其之前时间段的语音特点,能够提高说话人分离结果的准确性,进而利用该更新后的第一历史说话人分离结果对转写文本进行说话人标注,可以提高说话人标注的准确性。
附图说明
[0040]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种说话人标注方法,其特征在于,包括:获取语音数据,并对所述语音数据进行转写,得到转写文本;对所述语音数据进行切分,得到至少一个语音片段,并提取每个所述语音片段的声纹特征;针对每个设定时间段,对所述设定时间段内的所述声纹特征进行聚类分析,得到说话人分离结果;利用所述说话人分离结果对第一历史说话人分离结果进行聚类更新,基于更新后的第一历史说话人分离结果对所述转写文本进行说话人标注;其中,所述第一历史说话人分离结果是基于所述设定时间段之前的至少一个设定时间段对应的说话人分离结果确定的。2.根据权利要求1所述的说话人标注方法,其特征在于,在所述利用所述说话人分离结果对第一历史说话人分离结果进行聚类更新之前,所述方法还包括:获取第一设定时间段对应的第一说话人分离结果,所述第一设定时间段为所述设定时间段的前一个设定时间段;利用所述第一说话人分离结果对第二历史说话人分离结果进行聚类更新,得到所述第一历史说话人分离结果;其中,所述第二历史说话人分离结果是基于所述第一设定时间段之前的至少一个设定时间段对应的说话人分离结果确定的。3.根据权利要求1所述的说话人标注方法,其特征在于,所述基于更新后的第一历史说话人分离结果对所述转写文本进行说话人标注,包括:在检测到语音结束指令的情况下,基于最终得到的更新后的第一历史说话人分离结果,将连续属于同一说话人的语音片段对应的转写文本内容进行整合,得到整合文本内容;对所述整合文本内容标注所述说话人的标识信息。4.根据权利要求3所述的说话人标注方法,其特征在于,所述对所述整合文本内容标注所述说话人的标识信息,包括:获取所述整合文本内容标注的初始标识信息;在基于所述最终得到的更新后的第一历史说话人分离结果对所述整合文本内容进行标注的过程中,检测所述初始标识信息是否为人工标注的标识信息;在所述整合文本内容标注的所述初始标识信息为人工标注的标识信息的情况下,将所述整合文本内容标注所述人工标注的标识信息。5.根据权利要求1至4任一项所述的说话人标注方法,其特征在于,在所述对所述设定时间段内的所述声纹特征进行聚类分析,得到说话人分离结果之后,所述方法还包括:根...

【专利技术属性】
技术研发人员:李飞高天黄爽徐正军
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1