对话语料提取方法、系统、计算机及存储介质技术方案

技术编号:41707139 阅读:22 留言:0更新日期:2024-06-19 12:38
本发明专利技术提供了对话语料提取方法、系统、计算机及存储介质,所述方法包括获取当前对话数据,对所述当前对话数据进行预处理,以得到当前语音数据;利用单轮非自回归模型对所述当前语音数据进行识别,利用时延自注意力机制对所述对话文字进行标点预测;利用音频处理器根据标点预测出现的时间将所述当前语音数据分割为多个音频数据,利用ResNet34网络模型对每一所述音频数据进行声纹特征提取,得到每一句所述对话文字的声纹特征;对每一句所述对话文字的声纹特征进行聚类分析,以得到所述声纹特征的聚类簇,基于所述聚类簇及标点后的所述对话文字,输出每一人对应的对话语料文档,自适应不确定多少说话人的各种场景。

【技术实现步骤摘要】

本专利技术属于语料识别,具体地涉及对话语料提取方法、系统、计算机及存储介质


技术介绍

1、视频或语音的对话语料提取对于很多实际的媒体内容领域的问题有重大意义,例如自动生成会议文档记录等。在现有的生成对话文档的方法中会使用到生成模型,但是现有的生成模型都存在缺陷,比如:

2、1.sond:使用resnet34网络与混合网络scn来对说话人的语音进行语音识别与声纹识别。可以使用在确定说话人的说话人日志生成任务中,但是并不包括说话人自动识别训练推理部分,无法进行多说话人识别与语音识别。

3、2.cam++:使用残差卷积网络与时延神经网络对语音进行说话人识别,可以使用在说话人识别任务上,但是并不包括语音识别的训练推理部分,不包括标点预测的训练推理部分,不包括说话人自动识别训练推理部分,无法进行多说话人识别与语音识别。

4、3.paraformer:使用非自回归模型来对语音识别并行地输出全部目标文字,可以使用在语音输入任务上,但是并不包括声纹识别训练推理部分,不包括说话人自动识别训练推理部分,无法进行多说话人识别与语音识别。...

【技术保护点】

1.一种对话语料提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的对话语料提取方法,其特征在于,所述对所述当前对话数据进行预处理,以得到当前语音数据的步骤包括:

3.根据权利要求1所述的对话语料提取方法,其特征在于,所述单轮非自回归模型的数学模型包括:

4.根据权利要求1所述的对话语料提取方法,其特征在于,所述单轮非自回归模型包括Predictor模块和Sampler模块;

5.根据权利要求1所述的对话语料提取方法,其特征在于,所述时延自注意力机制的公式包括:

6.根据权利要求1所述的对话语料提取方法,其特征在于,所...

【技术特征摘要】

1.一种对话语料提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的对话语料提取方法,其特征在于,所述对所述当前对话数据进行预处理,以得到当前语音数据的步骤包括:

3.根据权利要求1所述的对话语料提取方法,其特征在于,所述单轮非自回归模型的数学模型包括:

4.根据权利要求1所述的对话语料提取方法,其特征在于,所述单轮非自回归模型包括predictor模块和sampler模块;

5.根据权利要求1所述的对话语料提取方法,其特征在于,所述时延自注意力机制的公式包括:

6.根据权利要求1所述的对话语料提取方法,其特征在于,...

【专利技术属性】
技术研发人员:郑雨轩孙春华甘文靖陈齐丰李鸿章景锋
申请(专利权)人:江西广播电视网络传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1