System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于语料识别,具体地涉及对话语料提取方法、系统、计算机及存储介质。
技术介绍
1、视频或语音的对话语料提取对于很多实际的媒体内容领域的问题有重大意义,例如自动生成会议文档记录等。在现有的生成对话文档的方法中会使用到生成模型,但是现有的生成模型都存在缺陷,比如:
2、1.sond:使用resnet34网络与混合网络scn来对说话人的语音进行语音识别与声纹识别。可以使用在确定说话人的说话人日志生成任务中,但是并不包括说话人自动识别训练推理部分,无法进行多说话人识别与语音识别。
3、2.cam++:使用残差卷积网络与时延神经网络对语音进行说话人识别,可以使用在说话人识别任务上,但是并不包括语音识别的训练推理部分,不包括标点预测的训练推理部分,不包括说话人自动识别训练推理部分,无法进行多说话人识别与语音识别。
4、3.paraformer:使用非自回归模型来对语音识别并行地输出全部目标文字,可以使用在语音输入任务上,但是并不包括声纹识别训练推理部分,不包括说话人自动识别训练推理部分,无法进行多说话人识别与语音识别。
技术实现思路
1、为了解决上述技术问题,本专利技术提供了对话语料提取方法、系统、计算机及存储介质系统,用于解决现有方法的模型缺乏对于多人说话的场景建模,且无法实现不确定人数的多说话人识别的训练推理的技术问题。
2、一方面,该专利技术提供以下技术方案,一种对话语料提取方法,所述方法包括:获取当前对话数据,对所述当前对话数据
3、利用单轮非自回归模型对所述当前语音数据进行识别,以得到所述当前语音数据中的对话文字;
4、利用时延自注意力机制基于所述对话文字的当前词及所述当前词的短时间窗口内的未来单词对所述对话文字进行标点预测,并输出标点后的所述对话文字;
5、利用音频处理器根据标点预测出现的时间将所述当前语音数据分割为多个音频数据,且使多个所述音频数据分别对应标点后的每一句所述对话文字,利用resnet34网络模型对每一所述音频数据进行声纹特征提取,得到每一句所述对话文字的声纹特征;
6、对每一句所述对话文字的声纹特征进行聚类分析,以得到所述声纹特征的聚类簇,基于所述聚类簇及标点后的所述对话文字,输出每一人对应的对话语料文档。
7、相比现有技术,本申请的有益效果为:在说话人数不确认的情况下,通过对每一句所述对话文字的声纹特征进行聚类分析,以得到所述声纹特征的聚类簇的步骤,可以自动地得到最好的聚类效果,从而得到最好的说话人识别效果,并且不需要提前指定说话人个数,或者输入参与对话的说话人声纹特征信息或者音频文件等,可以自适应不确定多少说话人的各种场景,具有较强的通用性,能够适用于大部分的对话语料提取任务。
8、进一步的,所述对所述当前对话数据进行预处理,以得到当前语音数据的步骤包括:
9、判断当前对话数据的文件格式;
10、若所述当前对话数据的文件格式为视频文件,则将所述当前对话数据转化为mp4格式的对话数据,通过moviepy音视频处理库将所述mp4格式的对话数据转化为wav格式的数据;
11、若所述当前对话数据的文件格式为音频文件,则将所述当前对话数据转化为wav格式的数据;
12、将wav格式的数据转换为16k采样率的当前语音数据。
13、进一步的,所述单轮非自回归模型的数学模型包括:
14、
15、
16、其中, lglm是损失函数,是结果评估函数,sampler是增强建模函数,是由生成的第n个样本结果,n代表样本序号,是对应的声学特征,为对应的文本真实标记,为对应的文本预测的文本标记,为模型参数,为文本语义向量,为声学目标向量,为声学预测向量,为的调控依赖参数,为与的距离计算函数,表示向上取整数学符号。
17、进一步的,所述单轮非自回归模型包括predictor模块和sampler模块;
18、所述predictor模块包括基于2层dnn的预测网络,所述预测网络用于输出0~1之间的浮点数,基于所述浮点数的累加预测所述对话文字的个数,通过cif机制抽取所述对话文字的声学特征向量;
19、所述sampler模块用于多次采样数据来拟合所述单轮非自回归模型。
20、进一步的,所述时延自注意力机制的结构包括:词向量模块、网络模块、及标点模块;
21、所述时延自注意力机制的公式包括:
22、
23、
24、其中,为查询矩阵,为键矩阵,为值矩阵,为的转置矩阵,为掩码矩阵,为输入信息元素的维度,、为位置下标,为固定窗口值。
25、进一步的,所述对每一句所述对话文字的声纹特征进行聚类分析,以得到所述声纹特征的聚类簇的步骤包括:
26、将所有所述对话文字和声纹信息形成图,并利用目标函数结合评价指标对每一句所述对话文字的声纹特征进行自动化调参,选择所述图中最好的聚类效果为最终的输出结果,并作为所述声纹特征的聚类簇。
27、进一步的,所述目标函数包括:
28、
29、其中为单位矩阵,为最小的前k个特征值对应的特征向量矩阵,为图的度矩阵,为拉普拉斯矩阵,tr为矩阵的迹数学符号。
30、第二方面,该专利技术提供以下技术方案,一种对话语料提取系统,所述系统包括:
31、处理模块,用于获取当前对话数据,对所述当前对话数据进行预处理,以得到当前语音数据;
32、识别模块,用于利用单轮非自回归模型对所述当前语音数据进行识别,以得到所述当前语音数据中的对话文字;
33、标点模块,用于利用时延自注意力机制基于所述对话文字的当前词及所述当前词的短时间窗口内的未来单词对所述对话文字进行标点预测,并输出标点后的所述对话文字;
34、特征模块,用于利用音频处理器根据标点预测出现的时间将所述当前语音数据分割为多个音频数据,且使多个所述音频数据分别对应标点后的每一句所述对话文字,利用resnet34网络模型对每一所述音频数据进行声纹特征提取,得到每一句所述对话文字的声纹特征;
35、输出模块,用于对每一句所述对话文字的声纹特征进行聚类分析,以得到所述声纹特征的聚类簇,基于所述聚类簇及标点后的所述对话文字,输出每一人对应的对话语料文档。
36、第三方面,该专利技术提供以下技术方案,一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的对话语料提取方法。
37、第四方面,该专利技术提供以下技术方案,一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的对话语料提取方法。
本文档来自技高网...【技术保护点】
1.一种对话语料提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的对话语料提取方法,其特征在于,所述对所述当前对话数据进行预处理,以得到当前语音数据的步骤包括:
3.根据权利要求1所述的对话语料提取方法,其特征在于,所述单轮非自回归模型的数学模型包括:
4.根据权利要求1所述的对话语料提取方法,其特征在于,所述单轮非自回归模型包括Predictor模块和Sampler模块;
5.根据权利要求1所述的对话语料提取方法,其特征在于,所述时延自注意力机制的公式包括:
6.根据权利要求1所述的对话语料提取方法,其特征在于,所述对每一句所述对话文字的声纹特征进行聚类分析,以得到所述声纹特征的聚类簇的步骤包括:
7.根据权利要求6所述的对话语料提取方法,其特征在于,所述目标函数包括:
8.一种对话语料提取系统,其特征在于,所述系统包括:
9.一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的对话语料提取方法。
...【技术特征摘要】
1.一种对话语料提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的对话语料提取方法,其特征在于,所述对所述当前对话数据进行预处理,以得到当前语音数据的步骤包括:
3.根据权利要求1所述的对话语料提取方法,其特征在于,所述单轮非自回归模型的数学模型包括:
4.根据权利要求1所述的对话语料提取方法,其特征在于,所述单轮非自回归模型包括predictor模块和sampler模块;
5.根据权利要求1所述的对话语料提取方法,其特征在于,所述时延自注意力机制的公式包括:
6.根据权利要求1所述的对话语料提取方法,其特征在于,...
【专利技术属性】
技术研发人员:郑雨轩,孙春华,甘文靖,陈齐丰,李鸿,章景锋,
申请(专利权)人:江西广播电视网络传媒有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。