一种基于人工智能知识图谱的一词多义翻译方法技术

技术编号:19009129 阅读:35 留言:0更新日期:2018-09-22 09:00
本发明专利技术公开了一种基于人工智能知识图谱的一词多义翻译方法,具体工作步骤包括:1)对目标文本进行编码处理;2)采用标点符号拆分方法对目标文本进行分句;3)采用分词与词性标注工具对步骤2)分句后的目标文本进行分词与词性标注;4)采用词汇依存与聚类分析工具在步骤3)所完成的分词与词性标注的基础上对具有特殊词性的词语进行依存与聚类分析;5)在步骤4)的基础上引入权重指数,生成知识图谱并计算知识图谱权重值;6)将步骤5)建立的知识图谱与一词多义的词汇所涉及的不同领域专业术语库进行图谱比对,确定最合适的翻译选项。通过上述方式,本发明专利技术一种基于人工智能知识图谱的一词多义翻译方法,该方法可以提高一词多义翻译的准确性。

A polysemy translation method based on AI knowledge map

The invention discloses a word polysemy translation method based on artificial intelligence knowledge atlas. The specific working steps include: 1) coding the target text; 2) using punctuation mark splitting method to Clause the target text; 3) using word splitting and part-of-speech marking tools to segment and word the target text after Clause 2). Sex tagging; 4) lexical dependency and clustering analysis tools are used to analyze the dependency and clustering of words with special parts of speech on the basis of segmentation and part-of-speech tagging in step 3; 5) weighting index is introduced to generate knowledge map and calculate the weighting value of knowledge map on the basis of step 4; 6) knowledge map established by step 5 To determine the most appropriate translation options, the spectrum is compared with the specialized terminology Library of different domains involved in polysemous words. Through the above method, the invention provides a method of polysemy translation based on artificial intelligence knowledge atlas, which can improve the accuracy of polysemy translation.

【技术实现步骤摘要】
一种基于人工智能知识图谱的一词多义翻译方法
本专利技术涉及一种翻译方法,尤其是涉及一种基于人工智能知识图谱的一词多义翻译方法。
技术介绍
在翻译过程中,经常遇到一词多义,一词在不同专业背景下有不同翻译称谓和解读的情况,通常需要人工干预完成翻译,成为机器翻译质量保证的一个瓶颈,同时,因为人工干预译员水平不同,经常导致一词多义翻译失真不准确,无法保证翻译质量,带来损失。目前国内外翻译软件平台通常采用调用多个行业术语库,把翻译匹配结果全部罗列出来供译员选择,或者根据译文使用频率调整翻译提示的顺序,都没有一个很好的解决,依赖人工干预,较多的翻译选项降低了翻译处理效率,也增加了信息干扰和数据冗余,使得翻译品质无法保障。
技术实现思路
本专利技术主要解决的技术问题是提供一种基于人工智能知识图谱的一词多义翻译方法,能够大幅度提高一词多义翻译的准确性。为解决上述技术问题,本专利技术采用的一个技术方案是:一种基于人工智能知识图谱的一词多义翻译方法,具体工作步骤包括:1)对目标文本进行编码处理,统一为标准字符;2)采用标点符号拆分方法对目标文本进行分句;3)采用分词与词性标注工具对步骤2)分句后的目标文本进行分词与词性标注;4)采用词汇依存与聚类分析工具在步骤3)所完成的分词与词性标注的基础上对具有特殊词性的词语进行依存与聚类分析;5)在步骤4)的基础上引入权重指数,生成知识图谱并计算知识图谱权重值;6)将步骤5)建立的知识图谱与一词多义的词汇所涉及的不同领域专业术语库进行图谱比对,确定最合适的翻译选项。在本专利技术一个较佳实施例中,所述步骤1)中统一标准字符的标准号为GB2312—1980以及UnicodeUTF8,UTF16字符编码标准。在本专利技术一个较佳实施例中,所述步骤2)中标点符号拆分方法遵循国家标准(GB/T15834-2011)《标点符号用法》。在本专利技术一个较佳实施例中,所述步骤3)中分词与词性标注工具为中科院自动化研究所模式识别国家重点实验室的Urheen中文分词与词性标注系统。在本专利技术一个较佳实施例中,所述步骤3)中分词标注标准采用美国宾州中文树库标记集合及解释。在本专利技术一个较佳实施例中,所述步骤4)中采用中科院自动化研究所模式识别国家重点实验室的句法依存分析系统完成词汇的依存与聚类分析。在本专利技术一个较佳实施例中,所述步骤5)中权重能够根据实际情况,设定不同的权重指数。在本专利技术一个较佳实施例中,所述步骤5)中知识图谱的种类包括以待翻译的一词多义的词汇为标记点的知识图谱、本句关联术语的知识图谱、本段的知识图谱和全文的知识图谱。在本专利技术一个较佳实施例中,所述步骤6)中将与所述步骤5)建立的知识图谱相比,图谱重合的权重值最高的领域专业术语库认定为最合适的翻译选项。在本专利技术一个较佳实施例中,所述步骤6)中采用可视化的方法进行图谱比对,将知识图谱关联映射为标记、连线、点分布、不同颜色和面积,然后通过饼状图、柱状图、甘特图和雷达图的形式进行图谱吻合的直观显示。本专利技术的有益效果是:本专利技术一种基于人工智能知识图谱的一词多义翻译方法,该方法摈弃以往基于术语文本的匹配,采用知识图谱的匹配,通过人工智能知识图谱技术,建立术语依存聚类的知识图谱,与不同行业术语库的知识图谱进行图谱权重比对,自动选择一词多义词语的准确翻译,大幅度提高一词多义翻译的准确性。具体实施方式下面对本专利技术的较佳实施例进行详细阐述,以使本专利技术的优点和特征能更易于被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。一种基于人工智能知识图谱的一词多义翻译方法,具体工作步骤包括:1)对目标文本进行编码处理,统一为标准字符,统一标准字符的标准号为GB2312—1980以及UnicodeUTF8,UTF16字符编码标准。2)采用标点符号拆分方法对目标文本进行分句,标点符号拆分方法遵循国家标准(GB/T15834-2011)《标点符号用法》。3)采用分词与词性标注工具对步骤2)分句后的目标文本进行分词与词性标注,分词与词性标注工具为中科院自动化研究所模式识别国家重点实验室的Urheen中文分词与词性标注系统,分词标注标准采用美国宾州中文树库标记集合及解释,如表1所示。表1美国宾州中文树库标记集合及解释4)采用词汇依存与聚类分析工具在步骤3)所完成的分词与词性标注的基础上对具有特殊词性的词语进行依存与聚类分析,本实施例中,所述特殊词汇为NN(名词,单数或单数)、NNS(名词复数)、NNP(专有名词,单数)和NNPS(专有名词复数)。采用中科院自动化研究所模式识别国家重点实验室的句法依存分析系统完成词汇的依存与聚类分析。5)在步骤4)的基础上引入权重指数,生成知识图谱并计算知识图谱权重值,权重可以根据具体情况,设置不同的权重指数。具体步骤包括:首先设定权重,以待翻译的一词多义的词汇为标记点,本句NN、NNS、NNP、NNPS权重为1;以待翻译的一词多义的词汇为圆心,前后一句NN、NNS、NNP、NNPS权重为0.8;以待翻译的一词多义的词汇为圆心,前后两句NN、NNS、NNP、NNPS权重为0.6;以待翻译的一词多义的词汇为圆心,前后三句NN、NNS、NNP、NNPS权重为0.4;以待翻译的一词多义的词汇为圆心,前后四句NN、NNS、NNP、NNPS权重为0.3;以待翻译的一词多义的词汇为圆心,前后五句NN、NNS、NNP、NNPS权重为0.2;以待翻译的一词多义的词汇为圆心,前后六句NN、NNS、NNP、NNPS权重为0.1;文中标题,章节标题的NN、NNS、NNP、NNPS权重为1;文章第一段,最后一段的NN、NNS、NNP、NNPS权重为0.9;然后以待翻译的一词多义的词汇为标记点,建立关联词汇NN、NNS、NNP、NNPS的权重知识图谱。知识图谱的种类包括以待翻译的一词多义的词汇为标记点的知识图谱、本句关联术语的知识图谱、本段的知识图谱和全文的知识图谱。6)将步骤5)建立的知识图谱与一词多义的词汇所涉及的不同领域专业术语库进行图谱比对,将与步骤5)建立的知识图谱相比,图谱重合的权重值最高的领域专业术语库认定为最合适的翻译选项。采用可视化的方法进行图谱比对,将知识图谱关联映射为标记、连线、点分布、不同颜色和面积,然后通过饼状图、柱状图、甘特图和雷达图等不同形式进行图谱吻合的直观显示。实施例1一词多义Dog-leg具有以下含义:1.狗腿(动物)2.狗腿子(俚语)3.狗腿地形(高尔夫)4.转折(股指)5.塔式高层(建筑)6.石油塔架(采油)7.板材双向折弯(机械加工)8.飞行转向(航空)例句:Fournewlyacquiredacresallowedtheclubtostretchthepar-418thto495yards,uphillandblindofftheteebeforeitdoglegsdownhilltoagreen.Thisisgenerallyastrangelayoutwithamixtureoftoughholes,easyholes,blindgreens,doglegsandevenaThaifavoritepar6.MaybetheGolfcoachisrightaboutwantingtotoughenupsomeofthepar-本文档来自技高网...

【技术保护点】
1.一种基于人工智能知识图谱的一词多义翻译方法,其特征在于:具体工作步骤包括:1)对目标文本进行编码处理,统一为标准字符;2)采用标点符号拆分方法对目标文本进行分句;3)采用分词与词性标注工具对步骤2)分句后的目标文本进行分词与词性标注;4)采用词汇依存与聚类分析工具在步骤3)所完成的分词与词性标注的基础上对具有特殊词性的词语进行依存与聚类分析;5)在步骤4)的基础上引入权重指数,生成知识图谱并计算知识图谱权重值;6)将步骤5)建立的知识图谱与一词多义的词汇所涉及的不同领域专业术语库进行图谱比对,确定最合适的翻译选项。

【技术特征摘要】
1.一种基于人工智能知识图谱的一词多义翻译方法,其特征在于:具体工作步骤包括:1)对目标文本进行编码处理,统一为标准字符;2)采用标点符号拆分方法对目标文本进行分句;3)采用分词与词性标注工具对步骤2)分句后的目标文本进行分词与词性标注;4)采用词汇依存与聚类分析工具在步骤3)所完成的分词与词性标注的基础上对具有特殊词性的词语进行依存与聚类分析;5)在步骤4)的基础上引入权重指数,生成知识图谱并计算知识图谱权重值;6)将步骤5)建立的知识图谱与一词多义的词汇所涉及的不同领域专业术语库进行图谱比对,确定最合适的翻译选项。2.根据权利要求1所述的一种基于人工智能知识图谱的一词多义翻译方法,其特征在于,所述步骤1)中统一标准字符的标准号为GB2312—1980以及UnicodeUTF8,UTF16字符编码标准。3.根据权利要求1所述的一种基于人工智能知识图谱的一词多义翻译方法,其特征在于,所述步骤2)中标点符号拆分方法遵循国家标准(GB/T15834-2011)《标点符号用法》。4.根据权利要求1所述的一种基于人工智能知识图谱的一词多义翻译方法,其特征在于,所述步骤3)中分词与词性标注工具为中科院自动化研究所模式识别国家重点实验室的Urheen中文分词与词性标注系统。5.根据权利要求...

【专利技术属性】
技术研发人员:邓耀臣彭韡铭申明磊
申请(专利权)人:常熟鑫沐奇宝软件开发有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1