【技术实现步骤摘要】
标注数据的生成方法、装置、电子设备存储介质及产品
[0001]本公开涉及数据处理
,尤其涉及机器学习以及语音
,具体涉及一种标注数据的生成方法、装置、电子设备存储介质及产品。
技术介绍
[0002]数据标注是帮助机器学习认知数据特征的重要过程,即可以对未经处理的初级数据,包括语音、图片、文本、视频等进行加工处理,并转换为机器可识别信息的过程。目前,诸如语音识别模型等机器学习模型的准确程度极大地依赖于数据标注的准确程度。
技术实现思路
[0003]本公开提供了一种标注数据的生成方法、装置、电子设备存储介质及产品。
[0004]根据本公开的一方面,提供了一种标注数据的生成方法,包括:
[0005]获取与目标多媒体文件对应的至少一个音频片段以及至少一个字幕片段;
[0006]根据各所述音频片段和各所述字幕片段的起止时间,获取与各所述音频片段分别对应的组合字幕片段;
[0007]将各所述音频片段与各所述音频片段的组合字幕片段进行强制对齐,确定各所述组合字幕片段中每个字符的起 ...
【技术保护点】
【技术特征摘要】
1.一种标注数据的生成方法,包括:获取与目标多媒体文件对应的至少一个音频片段以及至少一个字幕片段;根据各所述音频片段和各所述字幕片段的起止时间,获取与各所述音频片段分别对应的组合字幕片段;将各所述音频片段与各所述音频片段的组合字幕片段进行强制对齐,确定各所述组合字幕片段中每个字符的起止时间;按照各所述字符的起止时间,在各所述音频片段中截取与各所述字符匹配的字符音频,并分别将各所述字符与匹配的字符音频进行组合得到标注数据。2.根据权利要求1所述的方法,其中,在获取至少一个字幕片段之后,还包括:依次比对各相邻字幕片段的文本内容是否相同;若第一字幕片段中的文本内容与第二字幕片段中的文本内容相同,则将所述第一字幕片段与所述第二字幕片段合并为同一字幕片段。3.根据权利要求1所述的方法,其中,所述根据各所述音频片段和各所述字幕片段的起止时间,获取与各所述音频片段分别对应的组合字幕片段,包括:根据各所述音频片段的起止时间,从各所述字幕片段中分别得到与各所述音频片段的起止时间相匹配的至少一个参考字幕片段;按照设定起止时间顺序将隶属于同一音频片段的各所述参考字幕片段进行组合,得到与各所述音频片段分别对应的组合字幕片段。4.根据权利要求1所述的方法,其中,所述将各所述音频片段与各所述音频片段的组合字幕片段进行强制对齐,确定各所述组合字幕片段中每个字符的起止时间,包括:根据各所述音频片段的起止时间,以及各所述组合字幕的起止时间,将各所述音频片段与各所述组合字幕片段分别进行对齐,得到各所述组合字幕片段中每个字符的起止时间。5.根据权利要求1所述的方法,其中,所述将各所述音频片段与各所述音频片段的组合字幕片段进行强制对齐,确定各所述组合字幕片段中每个字符的起止时间,包括:将各所述音频片段与各所述音频片段对应的组合字幕片段输入至预设强制对齐模型中,得到各所述组合字幕片段中每个字符的起止时间。6.根据权利要求1所述的方法,其中,所述按照各所述字符的起止时间,在各所述音频片段中截取与各所述字符匹配的字符音频,包括:在各所述音频片段中对各所述字符的起止时间进行标记;根据标记结果对各所述音频片段进行切分,得到各所述字符音频。7.根据权利要求6所述的方法,其中,在得到各所述字符音频之后,还包括:根据各所述字符音频的起止时间确定各所述字符音频的持续时间;在所述目标持续时间小于设定时间阈值的情况下,在标注数据集合中滤除与所述目标持续时间对应的目标字符音频,以及与所述目标字符音频对应的目标字符。8.一种标注数据的生成装置,包括:片段获取模块,用于获取与目标多媒体文件对应的至少一个音频片段以及至少一个字幕片段;组合字幕片段获取模块,用于根据各所述音频片段和各所述字幕片段的起止时间,获
取与各所述音频片段分别...
【专利技术属性】
技术研发人员:李超,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。