语料标注方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40576421 阅读:24 留言:0更新日期:2024-03-06 17:17
本发明专利技术的实施方式提供了一种语料标注方法、装置、电子设备及存储介质。该方法包括:获取待标注语料和待标注语料对应的语料类型;确定与语料类型相匹配的标注系统;利用与语料类型相匹配的标注系统识别待标注语料中的超音段特征,并根据识别结果对待标注语料进行标注,其中,超音段特征用于表征待标注语料的发音。通过上述方式,可以利用与待标注语料对应的语料类型相匹配的标注系统,对待标注语料中的超音段特征进行识别,然后根据识别结果自动对待标注语料中的超音段特征进行标注,而无需局限于待标注语料的内容和语料类型,且无需人工手动进行标注,从而显著地扩大了标注语料内容,并且降低了人工标注成本,为用户带来了更好的体验。

【技术实现步骤摘要】

本专利技术的实施方式涉及自然语言处理,更具体地,本专利技术的实施方式涉及一种语料标注方法、装置、电子设备及存储介质


技术介绍

1、本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、随着自然语言处理技术的不断发展,语料库在许多领域得到了广泛的应用。例如,在语言评测和语言教学等领域中,语料库中的语料通过对音段特征和超音段特征进行标注,能够很好地帮助用户进行测评打分和语言学习。

3、然而,现有技术中在对超音段特征进行语料标注时,通常是对选择好的某些固定语料进行人工标注,因而存在标注语料内容受限,且人工标注成本较高的问题。


技术实现思路

1、但是,出于超音段特征暂未实现自动标注的原因,现有技术在对超音段特征进行语料标注时,通常是对选择好的某些固定语料进行人工标注。

2、因此在现有技术中,存在标注语料内容受限,且人工标注成本较高的问题,这是非常令人烦恼的过程。

3、为此,非常需要一种改进的语料标注方本文档来自技高网...

【技术保护点】

1.一种语料标注方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述语料类型为第一语料类型、第二语料类型或者第三语料类型,其中,所述第一语料类型为仅包含文本形式语料的语料类型,所述第二语料类型为仅包含语音形式语料的语料类型,所述第三语料类型为包含文本形式语料和语音形式语料的语料类型;

3.根据权利要求2所述的方法,其特征在于,所述利用第一标注系统识别所述待标注语料的原始文本的第一超音段特征,包括:

4.根据权利要求2所述的方法,其特征在于,所述利用第二标注系统识别所述待标注语料的原始语音的第二超音段特征,包括:

...

【技术特征摘要】

1.一种语料标注方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述语料类型为第一语料类型、第二语料类型或者第三语料类型,其中,所述第一语料类型为仅包含文本形式语料的语料类型,所述第二语料类型为仅包含语音形式语料的语料类型,所述第三语料类型为包含文本形式语料和语音形式语料的语料类型;

3.根据权利要求2所述的方法,其特征在于,所述利用第一标注系统识别所述待标注语料的原始文本的第一超音段特征,包括:

4.根据权利要求2所述的方法,其特征在于,所述利用第二标注系统识别所述待标注语料的原始语音的第二超音段特征,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述对齐信息和所述语音特征,确定所述原始语音中需要进行停顿的第五位置信...

【专利技术属性】
技术研发人员:彭霖铠孙艳庆李璐李佳威王强张润楠
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1