一种基于损失函数筛选具有高贡献度语料的方法及系统技术方案

技术编号:33923915 阅读:18 留言:0更新日期:2022-06-25 21:26
本发明专利技术属于机器翻译技术领域,具体公开了一种基于损失函数筛选具有高贡献度语料的方法及系统,其中方法包括以下步骤:设定筛选具有高贡献度语料的目标数量T;利用Transformer模型和基础大规模语料库,使用损失函数,对目标语料库A中所有数据按批次计算交叉熵得到语料库B;对计算交叉熵后的语料库B进行排序,选择前50%进行随机排列;重复步骤S1~S3,直至步骤S3中的语料库B的前50%随机排列的语料数量不小于目标数量T;将种子语料与步骤S4中筛选出的语料集合C中的所有语料进行语义相似度计算,并对结果排序得到语料库D;观察排序结果,并根据需要选取一定数量与种子语料最相似的语料作为最具有贡献度的语料。该方案节约成本,提升了筛选出语料的有效率。提升了筛选出语料的有效率。提升了筛选出语料的有效率。

【技术实现步骤摘要】
一种基于损失函数筛选具有高贡献度语料的方法及系统


[0001]本专利技术属于机器翻译
,特别是关于一种基于损失函数筛选具有高贡献度语料的方法及系统。

技术介绍

[0002]机器翻译的翻译质量高度依赖于语料数据,但是机器翻译的质量并不是语料越多越好,当语料达到一定数量之后,翻译质量便很难再有提升,因此如何从大规模语料中筛选出具有高贡献的语料数据就成了优化模型的必经之路。
[0003]现有技术中利用种子语料从语料中筛选出相似度的方法比较普遍,但该方案受限于句子相似度的算法,无法保证筛选出的语料均在该领域,有一定概率会选出其他领域的语料从而稀疏最终的训练效果。
[0004]例如,专利CN110032619A公开了一种语言模型建立方法及装置,该方法包括获取语料库,语料库包括至少一个经过分词处理的句子;根据策略函数对所述语料库中的每个句子进行筛选,将满足预设筛选条件的句子组成分词词典;通过对分词词典中每个句子的分析得到语言模型;用语言模型对预先获取的声学模型进行解码以计算损失函数;若根据损失函数和预设的奖励函数得到的奖励值满足预设的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于损失函数筛选具有高贡献度语料的方法,其特征在于,包括以下步骤:S1,设定筛选具有高贡献度语料的目标数量T;S2,利用Transformer模型和基础大规模语料库,使用损失函数,对目标语料库A中所有数据按批次计算损失函数中的交叉熵得到语料库B;S3,对计算交叉熵后的语料库B进行排序,选择前50%进行随机排列;S4,重复步骤S1~S3,直至步骤S3中的语料库B的前50%随机排列的语料数量不小于目标数量T;S5,将种子语料与步骤S4中筛选出的语料集合C中的所有语料进行语义相似度计算,并对结果排序得到语料库D;S6,观察排序结果,并根据需要选取一定数量与种子语料最相似的语料作为最具有贡献度的语料。2.根据权利要求1所述的基于损失函数筛选具有高贡献度语料的方法,其特征在于,所述Transformer为自注意力机制的神经网络,具体包括:点乘注意力Attention:点乘注意力Attention:多头注意力MultiHead:MultiHead(Q,K,V)=Concat(head1,

,head
n
)其中,head1,

,head
n
为第一个词的向量,分为多个头标记,Q,K,V均为词向量,W为权重矩阵,Concat是指把向量拼接起来,d
k
表示k向量的维度,K
T
表示K向量的转置,x
i
表示第i个x,x
j
表示第j个x,i取值是1到j,j的取值是所有输入x的维度,表示Q向量权重的的第i个分量,表示K向量权重的的第i个分量,表示V向量权重的的第i个分量;前馈神经网络:FFN(x)=max(0,xW1+b1)W2+b2其中,x表示输入向量,W1表示权重,b1和b2为偏差,W2表示第二组权重;最后通过softmax得到目标语言的词向量:其中,θ
i
为权重参数,k为目标语言词表的大小,表示输入为x时当前的系统参数,k表示词表大小,i表示第i...

【专利技术属性】
技术研发人员:宗浩贝超苑聪虎张一鸣
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1