基于人工智能的自动翻译管理方法及系统技术方案

技术编号:39182454 阅读:13 留言:0更新日期:2023-10-27 08:30
本发明专利技术公开了基于人工智能的自动翻译管理方法及系统,方法包括数据采集、F矩阵构建、语句翻译和翻译结果识别。本发明专利技术属于翻译领域,具体是指基于人工智能的自动翻译管理方法及系统,本方案基于整个句子及子序列的语言概率评分寻找最优分词位置,计算各分词的LCS距离并归一化,最终得到F矩阵的匹配路径并完成F矩阵的构造;综合IBM模型的短语翻译概率和子翻译对的组合方式计算最终短语模板翻译概率,并添加概率统计特征从而输出翻译结果;对翻译结果添加权重系数,并基于词袋模型对翻译结果进行特征提取,基于特征值之间的相关性选择特征,根据翻译结果的信息量和翻译错误识别模型得到翻译结果的最终判定。得到翻译结果的最终判定。得到翻译结果的最终判定。

【技术实现步骤摘要】
基于人工智能的自动翻译管理方法及系统


[0001]本专利技术涉及翻译领域,具体是指基于人工智能的自动翻译管理方法及系统。

技术介绍

[0002]随着翻译需求日益增长,需要引入人工智能技术来改进翻译管理;但是传统分词方法存在忽略句子结构和语义关系从而导致句子分词的准确性低的问题;一般翻译方法存在只根据短语模板出现的频率进行计算,造成低概率分化,以及在相应的目标语言短语模板中没有合适的对应词时,整个短语模板的翻译概率非常小的问题;传统翻译结果识别方法存在翻译结果特征表达能力弱,没有对特征进行筛选,从而使模型准确性降低的问题。

技术实现思路

[0003]针对上述情况,为克服现有技术的缺陷,本专利技术提供了基于人工智能的自动翻译管理方法及系统,针对传统分词方法存在忽略句子结构和语义关系从而导致句子分词的准确性低的问题,本方案采用基于LCS距离构建F矩阵,并得到F矩阵的匹配路径,综合考虑语言概率评分和最优分词位置从而提高分词准确性和整体语言概论的评估能力;针对一般翻译方法存在只根据短语模板出现的频率进行计算,造成低概率分化,以及在相应的目标语言短语模板中没有合适的对应词时,整个短语模板的翻译概率非常小的问题,本方案采用IBM模型计算短语翻译概率,结合多个短语模板翻译概率,并添加概率统计特征从而使翻译更完整准确;针对传统翻译结果识别方法存在翻译结果特征表达能力弱,没有对特征进行筛选,从而使模型准确性降低的问题,本方案采用添加权重基于词袋模型进行特征提取,量化特征间关联程度基于PolynomialFeatures选择特征组合,基于信息量和识别模型判定翻译结果,提高结果识别的准确性和模型泛化能力。
[0004]本专利技术采取的技术方案如下:本专利技术提供的基于人工智能的自动翻译管理方法,该方法包括以下步骤:步骤S1:数据采集,采集待翻译语句和对应正确翻译结果;
[0005]步骤S2:F矩阵构建,基于整个句子及子序列的语言概率评分寻找最优分词位置,计算各分词的LCS距离并归一化,最终得到F矩阵的匹配路径并完成F矩阵的构造;
[0006]步骤S3:语句翻译,基于句子模板匹配翻译模板,综合IBM模型的短语翻译概率和子翻译对的组合方式计算最终短语模板翻译概率,并添加概率统计特征从而输出翻译结果;
[0007]步骤S4:翻译结果识别,对翻译结果添加权重系数,并基于词袋模型对翻译结果进行特征提取,基于特征值之间的相关性选择特征,根据翻译结果的信息量和翻译错误识别模型得到翻译结果的最终判定。
[0008]进一步地,在步骤S2中,所述F矩阵构建具体包括以下步骤:步骤S21:通过n元语言模型计算整个句子的语言概率评分,对于句子S,单词序列是ω1,ω2,...,ω
l
,其中l是句子S的长度,计算句子概率评分所用公式如下:
;式中,是从第i

n+1个单词到第i

1个单词的子序列;
[0009]步骤S22:计算子序列的语言概率评分,预先将句子s分解为子序列,找到句子的最大语言模型评分位置即最优分词位置,所用公式如下:;式中,指不分词;
[0010]步骤S23:计算各分词的LCS距离,将两个分词写成形式为X[1

m]和Y[1

n],X和Y合并为字符串St[1

s],递推计算X和Y的LCS距离r(X,Y),所用公式如下:;式中,i和j分别是X和Y的遍历索引,当遍历结束后,r(X,Y)=R[i,j];
[0011]步骤S24:归一化LCS距离,所用公式如下:;式中,d
n

lcs
(X,Y)是归一化操作,len(X)是字符串X的长度,len(Y)是字符串Y的长度;
[0012]步骤S25:构建F矩阵,初始化F矩阵并逐行逐列计算F值,F值即归一化后的LCS距离,依次遍历F矩阵中的所有元素,找到最大值,记录最大值所在的行列位置,最终得到F矩阵的匹配路径并完成F矩阵的构造。
[0013]进一步地,在步骤S3中,所述语句翻译具体包括以下步骤:步骤S31:匹配翻译模板,基于句子模板定义为,其中ω
ij
是一个词,X
i
是模板中的一个槽,槽代表一个子块且包含词,C
i
是其他属性;将句子分解为子块模板为;根据F矩阵的匹配路径,确定子块模板中每个槽所对应的具体词,若匹配路径上的位置中有模板的槽,将该位置对应的词作为槽的内容,将子块模板的槽和其它属性组合起来,形成翻译模板的匹配;
[0014]步骤S32:计算短语翻译概率,步骤包括:步骤S321:计算基于IBM模型的短语翻译概率,所用公式如下:;式中,p(c

e)是给定源语言短语e的情况下,目标语言短语c的翻译概率,i是源语言短语中的词的索引,j是目标语言短语中的词的索引,c
i
是目标语言短语中的第i个词,e
j
是源语言短语中的第j个词;
[0015]步骤S322:将原始短语模板翻译对视为子翻译对的组合,所用公式如下:
;式中,i是划分的小短语模板块的索引,k是第i块中包含的词的索引;
[0016]步骤S323:模板提取,结合上述两种方法并根据短语模板调整频率,最终短语模板翻译概率的计算公式如下:;式中,λ1、λ2和λ3是用于调整频率来计算翻译概率的参数,P1和P2分别是基于先前示例翻译和当前示例翻译的概率,f是短语模板的出现概率;
[0017]步骤S33:计算模板概率,在提取模板之后,添加概率统计特征,模板的概率计算方法如下:;式中,p(τ)是模板τ的概率,count是模板出现的次数,τ'是其他模板,T是归一化操作,δ是匹配结果;
[0018]步骤S34:输出翻译结果,基于得到的p(τ)和p(c

e)输出分词翻译结果,并将分词翻译结果组合作为句子翻译结果。
[0019]进一步地,在步骤S4中,所述翻译结果识别具体包括以下步骤:步骤S41:添加权重,将每条翻译结果作为文档,对翻译结果添加权重系数,并基于词袋模型对翻译结果进行特征提取,权重如下:;式中,N
d
(w)是在文档d中词w的频率,是文档d的总次数,|D|是文档集D的大小,|{d∈D:w∈d}|是含有词w的文档;
[0020]步骤S42:计算特征值之间的相关性,并基于PolynomialFeatures选择特征组合,计算相关性所用公式如下:;式中,l是特征值之间的相关性,o是翻译结果的期望,d是方差,x和y是不同的特征信息;
[0021]步骤S43:计算翻译结果信息量,基于信息量的大小评估翻译结果的质量和准确性,计算翻译结果信息量所用公式如下:;式中,ζ是翻译结果的信息量,N为惩罚因子个数,是目标向量,ε
i
是翻转矢量,lgprecision是翻译精度,ε是翻转矢量,i是翻转矢量的索引,n是翻转矢量的总数;
[0022]步骤S44本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于人工智能的自动翻译管理方法,其特征在于:该方法包括以下步骤:步骤S1:数据采集,采集待翻译语句和对应正确翻译结果;步骤S2:F矩阵构建,基于整个句子及子序列的语言概率评分寻找最优分词位置,计算各分词的LCS距离并归一化,最终得到F矩阵的匹配路径并完成F矩阵的构造;步骤S3:语句翻译,基于句子模板匹配翻译模板,综合IBM模型的短语翻译概率和子翻译对的组合方式计算最终短语模板翻译概率,并添加概率统计特征从而输出翻译结果;步骤S4:翻译结果识别,对翻译结果添加权重系数,并基于词袋模型对翻译结果进行特征提取,基于特征值之间的相关性选择特征,根据翻译结果的信息量和翻译错误识别模型得到翻译结果的最终判定。2.根据权利要求1所述的基于人工智能的自动翻译管理方法,其特征在于:在步骤S3中,所述语句翻译具体包括以下步骤:步骤S31:匹配翻译模板,基于句子模板定义为,其中ω
ij
是一个词,X
i
是模板中的一个槽,槽代表一个子块且包含词,C
i
是其他属性;将句子分解为子块模板为;根据F矩阵的匹配路径,确定子块模板中每个槽所对应的具体词,若匹配路径上的位置中有模板的槽,将该位置对应的词作为槽的内容,将子块模板的槽和其它属性组合起来,形成翻译模板的匹配;步骤S32:计算短语翻译概率,步骤包括:步骤S321:计算基于IBM模型的短语翻译概率,所用公式如下:;式中,p(c

e)是给定源语言短语e的情况下,目标语言短语c的翻译概率,i是源语言短语中的词的索引,j是目标语言短语中的词的索引,c
i
是目标语言短语中的第i个词,e
j
是源语言短语中的第j个词;步骤S322:将原始短语模板翻译对视为子翻译对的组合,所用公式如下:;式中,i是划分的小短语模板块的索引,k是第i块中包含的词的索引;步骤S323:模板提取,结合上述两种方法并根据短语模板调整频率,最终短语模板翻译概率的计算公式如下:;式中,λ1、λ2和λ3是用于调整频率来计算翻译概率的参数,P1和P2分别是基于先前示例翻译和当前示例翻译的概率,f是短语模板的出现概率;步骤S33:计算模板概率,在提取模板之后,添加概率统计特征,模板的概率计算方法如下:;式中,p(τ)是模板τ的概率,count是模板出现的次数,τ'是其他模板,T是归一化操作,δ
是匹配结果;步骤S34:输出翻译结果,基于得到的p(τ)和p(c

e)输出分词翻译结果,并将分词翻译结果组合作为句子翻译结果。3.根据权利要求1所述的基于人工智能的自动翻译管理方法,其特征在于:在步骤S4中,所述翻译结果识别具体包括以下步骤:步骤S41:添加权重,将每条翻译结果作为文档,对翻译结果添加权重系数,并基于词袋模型对翻译结果进行特征提取,权重如下:;式中,N
d
(w)是在文档d中词w的频率,是文档d的总次数,|D|是文档集D的大小,|{d∈D:w∈d}|是含有词w的文档;步骤S42:计算特征值之间的相关性,并基于PolynomialFeatures选择特征组合,计算相关性所用公式如下:;式中,l是特征值之间的相关性,o是翻译结果的期望,d是方差,x和y是不同的特征信息;步骤S43:计算翻译结果信息量,基于信息量的大小评估翻译结果的质量和准确性,计算翻译结果信息量所用公式如下:;式中,ζ是翻译结果的信息量,N为惩罚因子个数,是目标向量,ε
i
是翻转矢量,lgprecision是翻译精度,ε是翻转矢量...

【专利技术属性】
技术研发人员:李晓李志云田洁
申请(专利权)人:山东信息职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1