【技术实现步骤摘要】
一种确定目标语言文本大小写的方法及装置
[0001]本申请涉及文本处理领域,特别是涉及一种确定目标语言文本大小写的方法及装置。
技术介绍
[0002]在一些场景中,需要确定目标语言文本的大小写。例如,自动语音识别(Automatic Speech Recognition,ASR)可以将语音转换成文字。当由语音识别到的文字既目标语言(例如英文)又包括其它语言的文本(例如中文)时,所输出的目标语言文本全都是小写的。因此,在基于ASR获得文本之后,还需要确定目标语言文本的大小写,以进一步对文本中目标语言文本的大小写进行调整。
[0003]目前,可以基于人工制定的规则确定目标语言文本的大小写,但是,采用这种方式,准确度不是很高。
[0004]因此,亟需一种方案,能够准确的确定目标语言文本的大小写。
技术实现思路
[0005]本申请所要解决的技术问题是如何准确的确定目标语言文本的大小写,提供一种确定目标语言文本大小写的方法及装置。
[0006]第一方面,本申请实施提供了一种确定目标语言文本大小写 ...
【技术保护点】
【技术特征摘要】
1.一种确定目标语言文本大小写的方法,其特征在于,所述方法包括:获取待处理文本,所述待处理文本包括目标语言文本和其它语言的文本;将所述待处理文本输入机器学习模型,得到所述目标语言文本的格式,所述目标语言文本的格式,用于指示所述目标语言文本中各个字符的大小写,所述机器学习模型,用于确定目标语言文本的格式。2.根据权利要求1所述的方法,其特征在于,所述目标语言文本包括第一文本,所述第一文本的格式,包括以下任意一种:全小写、首字符大写、全大写以及其它,其中,所述其它表示除所述全小写、所述首字符大写以及所述全大写之外的格式。3.根据权利要求1所述的方法,其特征在于,所述机器学习模型,通过如下方式训练得到:获取训练文本和所述训练文本对应的标签,所述训练文本对应的标签,用于指示所述训练文本中目标语言文本的格式,所述训练文本包括目标语言文本和所述其它语言的文本;基于所述训练文本和所述训练文本对应的标签,训练得到所述机器学习模型。4.根据权利要求1所述的方法,其特征在于,所述获取训练文本,包括:获取语料,所述语料包括目标语言文本和其它语言的文本;将所述语料中的部分所述其它语言的文本翻译成目标语言文本,得到所述训练文本。5.根据权利要求1
‑
4任意一项所述的方法,其特征在于,所述机器学习模型,包括特征提取模块和特征变换模块;所述特征提取模块,用于提取所述待处理文本中各个文本的特征;所述特征变换模块,用于根据所述各个文本的特征,确定所述待处理文本中的目标语言文本的格式。6.根据权利要求5所述的方法,其特征在于,所述特...
【专利技术属性】
技术研发人员:程进,姚佳立,杨晶生,宋航,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。