【技术实现步骤摘要】
文档翻译方法及装置
本专利技术涉及自然语言处理领域,具体而言,涉及一种文档翻译方法及装置。
技术介绍
人工智能领域很多的开源项目和工具的说明文档都是用英语进行撰写的,如果要将这些项目在行内利用,就需要对这些技术文档进行翻译以便开发人员和业务人员理解和使用。目前主要采用人工翻译的方式,花费时间长,且翻译质量受限于译者对相关内容的了解程度的影响。现有技术缺少一种高效的技术文档翻译方法。
技术实现思路
本专利技术为了解决上述
技术介绍
中的至少一个技术问题,提出了一种文档翻译方法及装置。为了实现上述目的,根据本专利技术的一个方面,提供了一种文档翻译方法,该方法包括:获取双语文本数据;对所述双语文本数据进行标注,得到标注好的双语文本数据;从所述双语文本数据中抽取双语结构化数据,并根据所述双语结构化数据构建知识图谱;根据所述知识图谱以及所述标注好的双语文本数据采用预设的神经网络模型进行模型训练,得到文档翻译模型,以根据所述文档翻译模型对文档进行翻译。可选的,所述根据所述知 ...
【技术保护点】
1.一种文档翻译方法,其特征在于,包括:/n获取双语文本数据;/n对所述双语文本数据进行标注,得到标注好的双语文本数据;/n从所述双语文本数据中抽取双语结构化数据,并根据所述双语结构化数据构建知识图谱;/n根据所述知识图谱以及所述标注好的双语文本数据采用预设的神经网络模型进行模型训练,得到文档翻译模型,以根据所述文档翻译模型对文档进行翻译。/n
【技术特征摘要】
1.一种文档翻译方法,其特征在于,包括:
获取双语文本数据;
对所述双语文本数据进行标注,得到标注好的双语文本数据;
从所述双语文本数据中抽取双语结构化数据,并根据所述双语结构化数据构建知识图谱;
根据所述知识图谱以及所述标注好的双语文本数据采用预设的神经网络模型进行模型训练,得到文档翻译模型,以根据所述文档翻译模型对文档进行翻译。
2.根据权利要求1所述的文档翻译方法,其特征在于,所述根据所述知识图谱以及所述标注好的双语文本数据采用预设的神经网络模型进行模型训练,包括:
根据所述知识图谱从所述标注好的双语文本数据中选择关键词,并对所述关键词进行掩盖;
根据所述神经网络模型对掩盖的关键词进行预测。
3.根据权利要求2所述的文档翻译方法,其特征在于,所述根据所述知识图谱从所述标注好的双语文本数据中选择关键词,具体包括:
预设比例时间根据所述知识图谱选择关键词,剩余比例时间采用随机选择的方法选择关键词。
4.根据权利要求2所述的文档翻译方法,其特征在于,所述对所述关键词进行掩盖,具体包括:
第一预设比例时间采用随机词对所述关键词进行掩盖,第二预设比例时间采用所述关键词的原词对所述关键词进行掩盖,第三预设比例时间采用预设字符对所述关键词进行掩盖,其中,第一预设比例时间、第二预设比例时间以及第三预设比例时间的总和为百分之百。
5.根据权利要求1所述的文档翻译方法,其特征在于,所述根据所述知识图谱以及所述标注好的双语文本数据采用预设的神经网络模型进行模型训练,包括:
针对所述标注好的双语文本数据中的每个句子生成预测下文句,其中,所述预测下文句包括:句子在所述标注好的双语文本数据中的真实下文句、根据所述知识图谱从预设的语料库中选择的句子的相关句、根据所述知识图谱从所述标注好的双语文本数据中选择的句子的非相关句以及从所述语料库中随机选择的句子中的至少一种;
根据所述神经网络模型预测所述预测下文句是否为对应句子的下文。
6.根据权利要求1所述的文档翻译方法,其特征在于,所述神经网络模型包括:Tramsformer模型。
7.一种文档翻译装置,其特征在于,包括:
双语语料获取单元,用于获取双语文本数据;
标注单元,用于对所述双语文本数据进行标注,得到标注好的双语文...
【专利技术属性】
技术研发人员:冯歆然,刘华杰,王雅欣,罗杰文,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。