一种软件开发包的翻译方法和系统技术方案

技术编号:38992011 阅读:6 留言:0更新日期:2023-10-07 10:22
本发明专利技术涉及本地化翻译技术领域,揭露了一种软件开发包的翻译方法和系统,包括:分别从目标软件开发包中提取出软件文档以及界面源码,从界面源码中提取出界面文本数据以及界面布局数据;从软件文档中提取出文档文本数据以及图片文本数据;将界面文本数据、文档文本数据以及图片文本数据汇集成软件文本数据,依次对软件文本数据进行专有名词提取操作以及无效词过滤操作,得到标准专有名词词集;依次对软件文本数据进行文本分词、文本编码、语义转码以及格式变换操作,得到翻译文本数据,根据翻译文本数据将目标软件开发包更新成翻译软件开发包。本发明专利技术还提出一种软件开发包的翻译系统。本发明专利技术可以提高软件开发包翻译时的效率。率。率。

【技术实现步骤摘要】
一种软件开发包的翻译方法和系统


[0001]本专利技术涉及本地化翻译
,尤其涉及一种软件开发包的翻译方法和系统。

技术介绍

[0002]软件开发包是一种提供开发工具、接口和文档的软件包,帮助开发者在特定的平台或环境下构建应用程序,由于软件开发包通常包含大量的技术文档、用户界面和代码注释,跨语言翻译成为了一项重要任务,以确保开发者能够理解和使用这些开发包。
[0003]现有的威胁态势分析方法多为基于机器语料库的辅助翻译方法,即利用训练后的自然语言文本翻译模型对软件开发包进行文本翻译,并利用人工对翻译的文本进行校对与编辑,实际应用中,基于机器语料库的辅助翻译方法智能对软件开发包中较为简单的文本进行翻译,在遇到专有名词时需要人工校对,且无法对软件开发包中的用户界面以及图片进行翻译,可能导致进行软件开发包翻译时的效率较低。

技术实现思路

[0004]本专利技术提供一种软件开发包的翻译方法和系统,其主要目的在于解决进行软件开发包翻译时的效率较低的问题。
[0005]为实现上述目的,本专利技术提供的一种软件开发包的翻译方法,包括:
[0006]获取目标软件开发包,分别从所述目标软件开发包中提取出软件文档以及界面源码,从所述界面源码中提取出界面文本数据以及界面布局数据;
[0007]按照数据类型从所述软件文档中提取出文档图片数据以及文档文本数据,依次对所述文档图片数据进行文本定位以及文本分割操作,得到词条图集以及词条布局数据,对所述词条图集进行文本识别操作,得到图片文本数据,其中,所述对所述词条图集进行文本识别操作,得到图片文本数据,包括:逐个选取所述词条图集中的图片作为目标词条图片,对所述目标词条图片进行边缘检测,得到目标词条轮廓;利用如下的文本轮廓拟合算法对所述目标词条轮廓进行边缘拟合,得到标准词条轮廓:
[0008]L(t)=(1

t)2×
P0+2
×
(1

t)
×
t
×
P1+t2×
P2[0009]其中,L(t)是指所述标准词条轮廓中一段轮廓曲线上的位于t位置的点,t是所述轮廓曲线的位置系数点,t的值域为[0,1],P0是指所述轮廓曲线的起始点,P1是指所述轮廓曲线的中点,P2是指所述轮廓曲线的终点;利用所述标准词条轮廓对所述目标词条图片进行边缘强化,得到目标边缘词条图片;利用如下的直线斜率检测算法从所述标注词条轮廓中提取出直线轮廓:
[0010]ρ=a
×
cos(θ)+b
×
sin(θ)
[0011]其中,ρ是指所述标注词条轮廓中直线轮廓到原点的距离,a是指所述标注词条轮廓中像素点的横坐标,cos是余弦函数,θ是所述标注词条轮廓中直线轮廓的倾斜角,sin是正弦函数,b是指所述标注词条轮廓中像素点的纵坐标;根据所述直线轮廓对所述目标边缘词条图片进行倾斜校正,得到目标校正词条图片;依次对所述目标校正词条图片进行文本
行分割和单词分割操作,得到目标单字图块集;依次对所述目标单字图块集中的每个单字图块进行文本识别和文本拼接操作,得到目标识别文本,将所有的目标识别文本汇集成图片文本数据;
[0012]将所述界面文本数据、所述文档文本数据以及所述图片文本数据汇集成软件文本数据,依次对所述软件文本数据进行专有名词提取操作以及无效词过滤操作,得到标准专有名词词集;
[0013]根据所述标准专有名词词集依次对所述软件文本数据进行文本分词、文本编码、语义转码以及格式变换操作,得到翻译文本数据,根据所述翻译文本数据对所述文档文本数据进行文本替换操作,得到翻译文本数据;
[0014]根据所述翻译文本数据和所述界面布局数据依次对所述界面源码进行文本替换以及界面布局调整操作,得到翻译界面源码,根据所述翻译文本数据和词条布局数据对所述文档图片数据进行词条覆盖以及词条布局调整操作,得到翻译图片数据,利用所述翻译文本数据、所述翻译界面源码以及所述翻译图片数据将所述目标软件开发包更新成翻译软件开发包,结束翻译。
[0015]可选地,所述分别从所述目标软件开发包中提取出软件文档以及界面源码,包括:
[0016]分别从所述目标软件开发包中提取出文档目录以及源码目录;
[0017]按照数据格式将所述目标软件开发包中位于所述文档目录下的所有文档汇集成初级文档;
[0018]对所述初级文档进行文档格式转换,得到软件文档;
[0019]利用关键字检索的方式从所述源码目录中提取出界面源码目录;
[0020]根据所述界面源码目录从所述目标软件开发包中提取出界面源码。
[0021]可选地,所述从所述界面源码中提取出界面文本数据以及界面布局数据,包括:
[0022]逐个选取所述界面源码中的源码作为目标源码,对所述目标源码进行类型识别,得到目标源码类型;
[0023]根据所述目标源码类型对所述目标源码进行标注解析,得到目标标注源码;
[0024]对所述目标标注源码进行文本定位,得到目标源码文本;
[0025]根据所述目标源码文本对所述目标标注源码进行布局定位,得到目标文本布局;
[0026]将所有的目标源码文本汇集成界面文本数据,将所有的目标文本布局汇集成界面布局数据。
[0027]可选地,所述依次对所述文档图片数据进行文本定位以及文本分割操作,得到词条图集以及词条布局数据,包括:
[0028]逐个选取所述文档图片数据中的图片作为目标文档图片,利用预设的变级标准差算法对所述目标文档图片进行除噪,得到标准除噪文档图片;
[0029]生成所述标准除噪文档图片的灰度直方图,根据所述灰度直方图对所述标准除噪文档图片进行灰度增强,得到灰度文档图片;
[0030]从所述灰度文档图片中提取出极值像素点,根据所述极值像素点对所述灰度文档图片进行对比度拉伸操作,得到目标标准图片;
[0031]从所述目标标准图片中提取出标准图片特征,利用预先训练的文本定位模型根据所述标准图片特征生成文本框集以及所述文本框集对应的文本概率集;
[0032]根据所述文本概率集对所述文本框集进行框图合并操作,得到标准文本框集,从所述标准文本框集中提取出文本框布局集;
[0033]根据所述标准文本框集生成标准文本掩膜集,利用所述标准文本掩膜集对所述目标文档图片进行掩膜操作,得到目标文档词条图集;
[0034]将所有的目标文档词条图集汇集成词条图集,将所有的文本框布局集汇集成词条布局数据。
[0035]可选地,所述利用预设的变级标准差算法对所述目标文档图片进行除噪,得到标准除噪文档图片,包括:
[0036]利用如下的标准差滤波算法对所述目标文档图片进行除噪,得到初始除噪文档图片:
[0037][0038]其中,G(x,y)是指所述初始除噪文档图片中坐标为(x,y)的像素点的灰度值,π是指圆周率,σ为预设的标准差系数,I(u,v)是指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种软件开发包的翻译方法,其特征在于,所述方法包括:S1:获取目标软件开发包,分别从所述目标软件开发包中提取出软件文档以及界面源码,从所述界面源码中提取出界面文本数据以及界面布局数据;S2:按照数据类型从所述软件文档中提取出文档图片数据以及文档文本数据,依次对所述文档图片数据进行文本定位以及文本分割操作,得到词条图集以及词条布局数据,对所述词条图集进行文本识别操作,得到图片文本数据,其中,所述对所述词条图集进行文本识别操作,得到图片文本数据,包括:S21:逐个选取所述词条图集中的图片作为目标词条图片,对所述目标词条图片进行边缘检测,得到目标词条轮廓;S22:利用如下的文本轮廓拟合算法对所述目标词条轮廓进行边缘拟合,得到标准词条轮廓:L(t)=(1

t)2×
P0+2
×
(1

t)
×
t
×
P1+t2×
P2其中,L(t)是指所述标准词条轮廓中一段轮廓曲线上的位于t位置的点,t是所述轮廓曲线的位置系数点,t的值域为[0,1],P0是指所述轮廓曲线的起始点,P1是指所述轮廓曲线的中点,P2是指所述轮廓曲线的终点;S23:利用所述标准词条轮廓对所述目标词条图片进行边缘强化,得到目标边缘词条图片;S24:利用如下的直线斜率检测算法从所述标注词条轮廓中提取出直线轮廓:ρ=a
×
cos(θ)+b
×
sin(θ)其中,ρ是指所述标注词条轮廓中直线轮廓到原点的距离,a是指所述标注词条轮廓中像素点的横坐标,cos是余弦函数,θ是所述标注词条轮廓中直线轮廓的倾斜角,sin是正弦函数,b是指所述标注词条轮廓中像素点的纵坐标;S25:根据所述直线轮廓对所述目标边缘词条图片进行倾斜校正,得到目标校正词条图片;S26:依次对所述目标校正词条图片进行文本行分割和单词分割操作,得到目标单字图块集;S27:依次对所述目标单字图块集中的每个单字图块进行文本识别和文本拼接操作,得到目标识别文本,将所有的目标识别文本汇集成图片文本数据;S3:将所述界面文本数据、所述文档文本数据以及所述图片文本数据汇集成软件文本数据,依次对所述软件文本数据进行专有名词提取操作以及无效词过滤操作,得到标准专有名词词集;S4:根据所述标准专有名词词集依次对所述软件文本数据进行文本分词、文本编码、语义转码以及格式变换操作,得到翻译文本数据,根据所述翻译文本数据对所述文档文本数据进行文本替换操作,得到翻译文本数据;S5:根据所述翻译文本数据和所述界面布局数据依次对所述界面源码进行文本替换以及界面布局调整操作,得到翻译界面源码,根据所述翻译文本数据和词条布局数据对所述文档图片数据进行词条覆盖以及词条布局调整操作,得到翻译图片数据,利用所述翻译文本数据、所述翻译界面源码以及所述翻译图片数据将所述目标软件开发包更新成翻译软件开发包,结束翻译。
2.如权利要求1所述的软件开发包的翻译方法,其特征在于,所述分别从所述目标软件开发包中提取出软件文档以及界面源码,包括:分别从所述目标软件开发包中提取出文档目录以及源码目录;按照数据格式将所述目标软件开发包中位于所述文档目录下的所有文档汇集成初级文档;对所述初级文档进行文档格式转换,得到软件文档;利用关键字检索的方式从所述源码目录中提取出界面源码目录;根据所述界面源码目录从所述目标软件开发包中提取出界面源码。3.如权利要求1所述的软件开发包的翻译方法,其特征在于,所述从所述界面源码中提取出界面文本数据以及界面布局数据,包括:逐个选取所述界面源码中的源码作为目标源码,对所述目标源码进行类型识别,得到目标源码类型;根据所述目标源码类型对所述目标源码进行标注解析,得到目标标注源码;对所述目标标注源码进行文本定位,得到目标源码文本;根据所述目标源码文本对所述目标标注源码进行布局定位,得到目标文本布局;将所有的目标源码文本汇集成界面文本数据,将所有的目标文本布局汇集成界面布局数据。4.如权利要求1所述的软件开发包的翻译方法,其特征在于,所述依次对所述文档图片数据进行文本定位以及文本分割操作,得到词条图集以及词条布局数据,包括:逐个选取所述文档图片数据中的图片作为目标文档图片,利用预设的变级标准差算法对所述目标文档图片进行除噪,得到标准除噪文档图片;生成所述标准除噪文档图片的灰度直方图,根据所述灰度直方图对所述标准除噪文档图片进行灰度增强,得到灰度文档图片;从所述灰度文档图片中提取出极值像素点,根据所述极值像素点对所述灰度文档图片进行对比度拉伸操作,得到目标标准图片;从所述目标标准图片中提取出标准图片特征,利用预先训练的文本定位模型根据所述标准图片特征生成文本框集以及所述文本框集对应的文本概率集;根据所述文本概率集对所述文本框集进行框图合并操作,得到标准文本框集,从所述标准文本框集中提取出文本框布局集;根据所述标准文本框集生成标准文本掩膜集,利用所述标准文本掩膜集对所述目标文档图片进行掩膜操作,得到目标文档词条图集;将所有的目标文档词条图集汇集成词条图集,将所有的文本框布局集汇集成词条布局数据。5.如权利要求4所述的软件开发包的翻译方法,其特征在于,所述利用预设的变级标准差算法对所述目标文档图片进行除噪,得到标准除噪文档图片,包括:利用如下的标准差滤波算法对所述目标文档图片进行除噪,得到初始除噪文档图片:其中,G(x,y)是指所述初始除噪文档图片中坐标为(x,y)的像素点的灰度值,π是指圆
周率,σ为预设的标准差系数,I(u,v)是指所述目标文档图片中坐标为(u,v)的像素点的灰度值,e是欧拉数;利用如下的变差差异算法计算出所述除噪文档图片与所述目标文档图片之间的变差差异:其中,T是指所述变差差异,I(x,y)是指所述目标文档图片中坐标为(x,y)的像素点的灰度值,G(x,y)是指所述初始除噪文档图片中坐标为(x,y)的像素点的灰度值,λ为预设的正则系数;判断所述变差差异是否小于预设的差异阈值;若否,则调节所述标准差滤波算法中的标准差系数的大小,并返回所述利用如下的标准差滤波算法对所述目标文档图片进行除噪,得到初始除噪文档图片的步骤;若是,则将所述初始除噪文档图片作为标准除噪文档图片。6.如权利要求4所述的软件开发包的翻译方法,其特征在于,所述对所述根据所述文本概率集对所述文本框集进行框图合并操作,得到标准文本框集,包括:逐个选取所述文本框集...

【专利技术属性】
技术研发人员:姜旭东刘建辉罗子清
申请(专利权)人:上海根根信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1