语句分析方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:36214141 阅读:15 留言:0更新日期:2023-01-04 12:10
本发明专利技术提供一种语句分析方法、装置、设备、存储介质及程序产品,涉及文本处理技术领域,该方法包括:获取目标语句对应的机翻译文与译后翻译译文;将所述机翻译文与译后翻译译文的目标数据输入训练好的修改类型分析模型,输出所述目标语句对应的修改类型,其中,所述目标数据包括:编辑距离、杰卡德相似系数、索雷申相似系数和最长公共子序列;基于所述目标语句的修改类型,确定所述目标语句的风险度信息。确定所述目标语句的风险度信息。确定所述目标语句的风险度信息。

【技术实现步骤摘要】
语句分析方法、装置、设备、存储介质及程序产品


[0001]本专利技术涉及文本处理
,尤其涉及一种语句分析方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]DOT(Distributed Online Translation分布式在线翻译),将大型翻译任务通过一定的算法逻辑拆包成很多个小的翻译任务,依次通过打标,PE(Post

editing,译后翻译),PE审核,质控流程。但因将之前的翻译项目拆包成小的翻译任务之后分发给多个译员进行翻译,因而对与最后保证整体项目质量的质控来说很为关键,而如何去减少翻译语句质控的工作量,在单位时间内处理更多的项目就更为关键。
[0003]因此,如何去减少翻译语句质控的工作量已经成为业界亟待解决的问题。

技术实现思路

[0004]本专利技术提供一种语句分析方法、装置、设备、存储介质及程序产品,用以解决现有技术中如何去减少翻译语句质控的工作量的缺陷。
[0005]本专利技术提供一种语句分析方法,包括:
[0006]获取目标语句对应的机翻译文与译后翻译译文;
[0007]将所述机翻译文与译后翻译译文的目标数据输入训练好的修改类型分析模型,输出所述目标语句对应的修改类型,其中,所述目标数据包括:编辑距离、杰卡德相似系数、索雷申相似系数和最长公共子序列;
[0008]基于所述目标语句的修改类型,确定所述目标语句的风险度信息。
[0009]根据本专利技术提供的一种语句分析方法,基于所述目标语句的修改类型,确定所述目标语句的风险度信息,包括:
[0010]在所述目标语句不携带原始修改类型标记的情况下,将所述目标语句的修改类型对应的风险度,确定为所述目标语句的风险度信息;
[0011]在所述目标语句携带所述原始修改类型标记的情况下,基于原始修改类型标记对应的风险度与目标语句的修改类型对应的风险度之间的差值,确定所述目标语句的风险度信息。
[0012]根据本专利技术提供的一种语句分析方法,在将所述机翻译文与译后翻译译文的编辑距离、杰卡德相似系数、索雷申相似系数和最长公共子序列输入训练好的修改类型分析模型之前,还包括:
[0013]获取多个语句样本对应的机翻译文样本与译后翻译译文样本和所述机翻译文样本与译后翻译译文样本对应的修改类型标签;
[0014]将每个所述机翻译文样本与译后翻译译文样本的目标数据和所述修改类型标签的组合作为一个训练样本,获取多个训练样本;
[0015]基于所述多个训练样本对预设机器学习模型进行训练,得到训练好的修改类型分
析模型。
[0016]根据本专利技术提供的一种语句分析方法,基于所述多个训练样本对预设机器学习模型进行训练,得到训练好的修改类型分析模型,包括:
[0017]对于任意一个训练样本,将所述训练样本输入所述预设机器学习模型,输出所述训练样本对应的修改类型;
[0018]利用预设损失函数,根据所述训练样本对应的修改类型和所述训练样本的修改类型标签计算损失值;
[0019]若所述损失值小于预设阈值,则所述预设机器学习模型完成训练,得到训练好的修改类型分析模型。
[0020]根据本专利技术提供的一种语句分析方法,将每个所述机翻译文样本与译后翻译译文样本的目标数据和所述修改类型标签的组合作为一个训练样本,获取多个训练样本的步骤,还包括:
[0021]基于各个修改类型标签对应的训练样本的数量,确定各个修改类型标签中的目标修改类型标签,其中,所述修改类型标签包括以下至少一种:无需修改,轻度修改,中度修改,重度修改;
[0022]将所述目标修改类型标签对应的训练样本进行合成少数类过采样处理,得到处理后的训练样本集合;
[0023]根据所述处理后的训练样本集合和其它修改类型标签对应的训练样本,得到多个训练样本,其中,所述其它修改类型标签是各个修改类型标签中除目标修改类型标签外的修改类型标签。
[0024]本专利技术还提供一种语句分析装置,包括:
[0025]获取模块,用于获取目标语句对应的机翻译文与译后翻译译文;
[0026]分析模块,用于将所述机翻译文与译后翻译译文的目标数据输入训练好的修改类型分析模型,输出所述目标语句对应的修改类型,其中,所述目标数据包括:编辑距离、杰卡德相似系数、索雷申相似系数和最长公共子序列;
[0027]确定模块,用于基于所述目标语句的修改类型,确定所述目标语句的风险度信息。
[0028]根据本专利技术提供的一种语句分析装置,所述确定模块,具体用于:
[0029]在所述目标语句不携带原始修改类型标记的情况下,将所述目标语句的修改类型对应的风险度,确定为所述目标语句的风险度信息;
[0030]在所述目标语句携带所述原始修改类型标记的情况下,基于原始修改类型标记对应的风险度与目标语句的修改类型对应的风险度之间的差值,确定所述目标语句的风险度信息。
[0031]根据本专利技术提供的一种语句分析装置,所述装置还用于:
[0032]获取多个语句样本对应的机翻译文样本与译后翻译译文样本和所述机翻译文样本与译后翻译译文样本对应的修改类型标签;
[0033]将每个所述机翻译文样本与译后翻译译文样本的目标数据和所述修改类型标签的组合作为一个训练样本,获取多个训练样本;
[0034]基于所述多个训练样本对预设机器学习模型进行训练,得到训练好的修改类型分析模型。
[0035]根据本专利技术提供的一种语句分析装置,所述装置还用于:
[0036]对于任意一个训练样本,将所述训练样本输入所述预设机器学习模型,输出所述训练样本对应的修改类型;
[0037]利用预设损失函数,根据所述训练样本对应的修改类型和所述训练样本的修改类型标签计算损失值;
[0038]若所述损失值小于预设阈值,则所述预设机器学习模型完成训练,得到训练好的修改类型分析模型。
[0039]根据本专利技术提供的一种语句分析装置,所述装置还用于:
[0040]基于各个修改类型标签对应的训练样本的数量,确定各个修改类型标签中的目标修改类型标签,其中,所述修改类型标签包括以下至少一种:无需修改,轻度修改,中度修改,重度修改;
[0041]将所述目标修改类型标签对应的训练样本进行合成少数类过采样处理,得到处理后的训练样本集合;
[0042]根据所述处理后的训练样本集合和其它修改类型标签对应的训练样本,得到多个训练样本,其中,所述其它修改类型标签是各个修改类型标签中除目标修改类型标签外的修改类型标签。
[0043]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语句分析方法。
[0044]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语句分析方法。
[0045]本专利技术还提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语句分析方法,其特征在于,包括:获取目标语句对应的机翻译文与译后翻译译文;将所述机翻译文与译后翻译译文的目标数据输入训练好的修改类型分析模型,输出所述目标语句对应的修改类型,其中,所述目标数据包括:编辑距离、杰卡德相似系数、索雷申相似系数和最长公共子序列;基于所述目标语句的修改类型,确定所述目标语句的风险度信息。2.根据权利要求1所述的语句分析方法,其特征在于,基于所述目标语句的修改类型,确定所述目标语句的风险度信息,包括:在所述目标语句不携带原始修改类型标记的情况下,将所述目标语句的修改类型对应的风险度,确定为所述目标语句的风险度信息;在所述目标语句携带所述原始修改类型标记的情况下,基于原始修改类型标记对应的风险度与目标语句的修改类型对应的风险度之间的差值,确定所述目标语句的风险度信息。3.根据权利要求1所述的语句分析方法,其特征在于,在将所述机翻译文与译后翻译译文的编辑距离、杰卡德相似系数、索雷申相似系数和最长公共子序列输入训练好的修改类型分析模型之前,还包括:获取多个语句样本对应的机翻译文样本与译后翻译译文样本和所述机翻译文样本与译后翻译译文样本对应的修改类型标签;将每个所述机翻译文样本与译后翻译译文样本的目标数据和所述修改类型标签的组合作为一个训练样本,获取多个训练样本;基于所述多个训练样本对预设机器学习模型进行训练,得到训练好的修改类型分析模型。4.根据权利要求3所述的语句分析方法,其特征在于,基于所述多个训练样本对预设机器学习模型进行训练,得到训练好的修改类型分析模型,包括:对于任意一个训练样本,将所述训练样本输入所述预设机器学习模型,输出所述训练样本对应的修改类型;利用预设损失函数,根据所述训练样本对应的修改类型和所述训练样本的修改类型标签计算损失值;若所述损失值小于预设阈值,则所述预设机器学习模型完成训练,得到训练好的修改类型分析模型。5.根据权利要求3所述的语句分析方法,其特征在于,将每个所述机翻译文样本与译后翻译译文样...

【专利技术属性】
技术研发人员:涂洋
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1