语音文件的标注方法技术

技术编号:39592108 阅读:9 留言:0更新日期:2023-12-03 19:46
本申请提供一种语音文件的标注方法

【技术实现步骤摘要】
语音文件的标注方法、装置、服务器及存储介质


[0001]本申请涉及语音处理
,尤其涉及一种语音文件的标注方法

装置

服务器及存储介质


技术介绍

[0002]随着智能手机和其他便携式设备的普及,人们对于语音交互的需求逐渐增加,语音识别技术能够满足人们在移动设备上进行快速输入和操作的需求

语音识别依赖于标注数据进行模型训练,并通过对比标注结果进行评估和改进

因此,对语音文件进行标注尤为重要

[0003]现有技术中,主要标注人员通过抽帧的方式,获取目标帧的音频和字幕信息,根据字幕信息对音频进行标注

[0004]然而,现有技术这种方法会增加标注的工作量,从而增加标注成本


技术实现思路

[0005]本申请提供一种语音文件的标注方法

装置

服务器及存储介质,用以解决标注工作量大和标注成本高的技术问题

[0006]第一方面,本申请提供一种语音文件的标注方法,应用于服务器,包括:
[0007]采集待标注的语音文件

[0008]对所述语音文件进行格式转换处理,得到目标格式的语音文件

[0009]将所述目标格式的语音文件转换为文本数据

[0010]对所述文本数据进行标注,得到所述语音文件的标注结果

[0011]可选地,如上所述的方法,所述对所述语音文件进行格式转换处理,得到目标格式的语音文件,包括:对所述语音文件进行解码,得到无损格式的语音文件;对所述无损格式的语音文件添加隐含参数,得到带有隐藏信息的语音文件;对所述带有隐藏信息的语音文件进行目标格式的编码,得到所述目标格式的语音文件

[0012]可选地,如上所述的方法,所述将所述目标格式的语音文件转换为文本数据,包括:根据预设时长条件,对所述目标格式的语音文件进行筛选,得到第一语音文件;根据损失函数,在所述第一语音文件中删除包含噪音的所述语音文件,得到第二语音文件;对所述第二语音文件进行文本识别,得到所述文本数据

[0013]可选地,如上所述的方法,所述损失函数如下:
[0014]L


w
×
y
×
log(y

)

(1

w)
×
(1

y)
×
log(1

y

)

w
×
log(y

)+r
[0015]式中,
L
表示损失值,
y
表示所述第一语音文件的真实标签,
y

表示预测概率,
w
表示权重,
r
表示正则化项

[0016]可选地,如上所述的方法,所述对所述文本数据进行标注,得到所述语音文件的标注结果,包括:采用第一模型,对所述文本数据进行拼音标注,得到第一拼音标注数据;采用第二模型,对所述文本数据进行拼音标注,得到第二拼音标注数据;采用音频文本对齐模
型,获取所述第一拼音标注数据中每个拼音对应的时间段,得到所述第一拼音标注数据中各拼音与时间段的一一对应关系,确定为第一对应关系;采用音频文本对齐模型,获取所述第二拼音标注数据中每个拼音对应的时间段,得到所述第二拼音标注数据中各拼音与时间段的一一对应关系,确定为第二对应关系;根据所述第一对应关系和所述第二对应关系,得到所述语音文件的标注结果

[0017]可选地,如上所述的方法,所述根据所述第一对应关系和所述第二对应关系,得到所述语音文件的标注结果,包括:删除所述第一对应关系和所述第二对应关系中对应关系不同的拼音与时间段,得到第三拼音标注数据;将所述第三拼音标注数据,确定为所述语音文件的标注结果

[0018]第二方面,本申请提供一种语音文件的标注装置,应用于服务器,包括:
[0019]采集模块,用于采集待标注的语音文件

[0020]处理模块,用于对所述语音文件进行格式转换处理,得到目标格式的语音文件

[0021]转换模块,用于将所述目标格式的语音文件转换为文本数据

[0022]标注模块,用于对所述文本数据进行标注,得到所述语音文件的标注结果

[0023]第三方面,本申请提供一种服务器,包括:至少一个处理器和存储器;
[0024]所述存储器存储计算机执行指令;
[0025]所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的语音文件的标注方法

[0026]第四方面,本申请提供一种计算机存储介质,所述计算机存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的语音文件的标注方法

[0027]本申请提供的语音文件的标注方法

装置

服务器及存储介质,通过将采集的语音文件进行格式转换处理,并转换为文本数据,对文本数据进行标注,得到标注结果;实现了只需要提供语音文件,就能够完成语音文件的标注工作,减少标注的工作量,从而降低标注成本

附图说明
[0028]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理

[0029]图1为本申请实施例提供的语音文件的标注方法的应用场景示意图;
[0030]图2为本申请一个实施例提供的语音文件的标注方法流程示意图;
[0031]图3为本申请另一个实施例提供的语音文件的标注方法流程示意图;
[0032]图4为本申请一个实施例提供的语音文件的标注装置的结构示意图;
[0033]图5为本申请一个实施例提供的服务器的硬件结构示意图

[0034]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述

这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念

具体实施方式
[0035]这里将详细地对示例性实施例进行说明,其示例表示在附图中

下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素

以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式

相反,它们仅是与如所附权利要求书中所详述的<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音文件的标注方法,其特征在于,应用于服务器,包括:采集待标注的语音文件;对所述语音文件进行格式转换处理,得到目标格式的语音文件;将所述目标格式的语音文件转换为文本数据;对所述文本数据进行标注,得到所述语音文件的标注结果
。2.
根据权利要求1所述的方法,其特征在于,所述对所述语音文件进行格式转换处理,得到目标格式的语音文件,包括:对所述语音文件进行解码,得到无损格式的语音文件;对所述无损格式的语音文件添加隐含参数,得到带有隐藏信息的语音文件;对所述带有隐藏信息的语音文件进行目标格式的编码,得到所述目标格式的语音文件
。3.
根据权利要求1所述的方法,其特征在于,所述将所述目标格式的语音文件转换为文本数据,包括:根据预设时长条件,对所述目标格式的语音文件进行筛选,得到第一语音文件;根据损失函数,在所述第一语音文件中删除包含噪音的所述语音文件,得到第二语音文件;对所述第二语音文件进行文本识别,得到所述文本数据
。4.
根据权利要求3所述的方法,其特征在于,所述损失函数如下:
L


w
×
y
×
log(y

)

(1

w)
×
(1

y)
×
log(1

y

)

w
×
log(y

)+r
式中,
L
表示损失值,
y
表示所述第一语音文件的真实标签,
y

表示预测概率,
w
表示权重,
r
表示正则化项
。5.
根据权利要求1至4任一项所述的方法,其特征在于,所述对所述文本数据进行标注,得到所述语...

【专利技术属性】
技术研发人员:何鑫王涛梁昊譞
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1