【技术实现步骤摘要】
语料选取处理方法、装置、设备及计算机可读存储介质
本专利技术实施例涉及语料库筛选
,尤其涉及一种语料选取处理方法、装置、设备及计算机可读存储介质。
技术介绍
在语音合成、语音识别、自然语言处理等领域,均需要从语料库中选取大量的符合具体应用场景的语料,作为训练数据进行模型训练。目前的语料设计项目中,通常获取满足用户指定的句数和句长的要求的语料,在某些应用场景下用户还对选取语料的总字数有要求。例如,要求语料中每个句子的句长均控制在5-20内,句数为10000句,总字数为150000且总字数上下浮动不得超过3%,等等。现有的语料选取方法,通过简单计算任意选取一组满足句长要求的不同句长的句子数量的组合,从语料库中选取符合要求的语料,例如:一种选取结果为:长度为5-10的句子每个取250句,长度为11-15的句子每个取500句,长度为16-20的句子每个取1200句,总句数为10000句,总字数为151750;或者另一种选取结果为:长度为15的句子取10000句;等等,多种选取结果均可以满足要求。但是,现有的语料选取方法选取的语料中,存在句长分布与真实语料的句长分布相 ...
【技术保护点】
1.一种语料选取处理方法,其特征在于,包括:根据原始句长分布,从原始语料中选取满足句数要求和句长要求、且与所述原始句长分布相匹配的语料,作为初始句长分布模型;对所述初始句长分布模型进行修正处理,得到满足总字数要求、句数要求和句长要求的最终句长分布模型。
【技术特征摘要】
1.一种语料选取处理方法,其特征在于,包括:根据原始句长分布,从原始语料中选取满足句数要求和句长要求、且与所述原始句长分布相匹配的语料,作为初始句长分布模型;对所述初始句长分布模型进行修正处理,得到满足总字数要求、句数要求和句长要求的最终句长分布模型。2.根据权利要求1所述的方法,其特征在于,所述根据原始句长分布,从所述原始语料中选取满足句数要求和句长要求、且与所述原始句长分布相匹配的语料,作为初始句长分布模型,包括:获取目标句数与所述原始语料的句数的比例值;根据所述目标句数与所述原始语料的句数的比例值,计算每种目标句长的句子的数量;根据每种目标句长的句子的数量,从所述原始语料中选取语料,得到所述初始句长分布模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标句数与所述原始语料的句数的比例值,计算每种目标句长的句子的数量,包括:根据以下公式,采用去尾法计算每种目标句长的句子的数量:其中,i为表示句长的正整数,si表示目标句长为i的句子的数量,Si表示原始语料中句长为i的句子的数量,r表示所述比例值;计算所述每种目标句长的句子的数量的总和与所述目标句数的差值d;将所述差值d分配给预设数量的目标句长的句子。4.根据权利要求1所述的方法,其特征在于,所述对所述初始句长分布模型进行修正处理,得到满足总字数要求、句数要求和句长要求的最终句长分布模型,包括:若所述初始句长分布模型的总字数大于满足所述总字数要求的最大总字数,则增加所述初始句长分布模型中的短句子,并且减少所述初始句长分布模型中的长句子,得到所述最终句长分布模型;若所述初始句长分布模型的总字数小于满足所述总字数要求的最小总字数,则减少所述初始句长分布模型中的短句子,并且增加所述初始句长分布模型中的长句子,得到所述最终句长分布模型;其中,所述短句子是指将目标句长小于各目标句长的中位数的句子,所述长句子是指目标句长大于所述中位数的句子。5.根据权利要求4所述的方法,其特征在于,若所述初始句长分布模型的总字数大于满足所述总字数要求的最大总字数,则增加所述初始句长分布模型中的短句子,并且减少所述初始句长分布模型中的长句子,得到所述最终句长分布模型,包括:若所述初始句长分布模型的总字数大于所述最大总字数,则对所述初始句长分布模型进行以下第一修正处理:将所述初始句长分布模型中的长句子减少第一增量值,并且将所述初始句长分布模型中的短句子增加所述第一增量值;计算本次修正后的初始句长分布模型的总字数;若本次修正后的初始句长分布模型的总字数大于所述最大总字数,则再一次对本次修正后的初始句长分布模型执行所述第一修正处理;若本次修正后的初始句长分布模型的总字数小于或者等于所述最大总字数,则将本次修正前的初始句长分布模型作为第一修正模型,对所述第一修正模型进行第二修正处理,得到所述最终句长分布模型。6.根据权利要求5所述的方法,其特征在于,所述对所述第一修正模型进行第二修正处理,得到所述最终句长分布模型,包括:按照句长由小到大的顺序将各所述目标句长进行排序,得到目标句长序列;根据所述目标句长序列,将各所述目标句长进行配对,每个所述配对中包括在所述目标句长序列的中位数两侧的、且与所述中位数的位置距离一致的第一句长和第二句长,所述第一句长小于所述第二句长;按照与所述中位数的位置距离由小到大的顺序,依次将每个所述配对作为目标配对,对所述目标配对进行以下第二修正处理:将所述第一修正模型中所述目标配对的第一句长的句子增加一个,并且将所述第一修正模型中所述目标配对的第二句长的句子减少一个;判断本次修正后的第一修正模型的总字数是否满...
【专利技术属性】
技术研发人员:杨福星,曹琼,郝玉峰,
申请(专利权)人:北京海天瑞声科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。