为了使读者能够快速阅读英文PDF文档,本发明专利技术提供一种英文PDF文档的中文机器注释方法,包括提取PDF文档的英文内容及其相应排版信息,机器翻译英文内容得到中文翻译,从中文翻译中提取英文短语所对应的中文注释,将中文注释按照排版信息逐个覆盖到原来英文短语的位置上,在中文注释上加上以相应英文短语为目标的超链接属性,注释完成后保存为中文PDF文档。这种中文PDF文档基本没有改变原有的PDF版面,不熟悉的英文单词都变为中文短语,便于中国读者快速阅读。
【技术实现步骤摘要】
一种英文PDF文档的中文机器注释方法
本专利技术涉及机器翻译领域,特别涉及一种英文PDF文档的中文机器注释方法。
技术介绍
随着信息技术和互联网技术的快速发展,大量信息和资料以电子文档的形式保存和传播,比如PDF文档、HTML网页、Word文档、文本文档等。其中,PDF文档无论在哪种打印机上,无论在哪种操作系统下,都可保证精确的颜色和准确的打印效果,忠实地再现原稿排版效果,包括每一个字符、颜色和图像。因此,越来越多的电子图书、文献资料、产品说明书、公司文告等都大量使用PDF文档。目前,PDF文档已经成为最重要的电子存储形式之一。但是,PDF文档固有的排版格式却给二次编辑带来巨大的困难,使得PDF文档难于修改和大批量批注。随着我国整体教育水平的提高和改革开放的深入,人们正在阅读越来越多的英文资料,比如原版图书、科技文献、原版报纸、英文报告等。这些英文资料最主要的文件格式之一就是PDF文档。由于英文PDF文档中包含很多中国人不熟悉的英文单词,人们目前主要通过电子词典的指点翻译和侧边批注等方法来解决,导致阅读效率极其低下。为了避免繁琐的指点翻译,CN201710963737.7公开了“书籍或电子文档的双语标注及排版方法”,把中文翻译标注在原文的上方、下方或两侧空白处。这种标注和排版方法对于内容稀疏的页面勉强可以使用,而PDF文档的内容一般都比较稠密,这种方法会把页面变得臃肿杂乱,无法满足英文PDF文档的中文注释要求。另一方面,以Google翻译、Bing翻译、百度翻译等为代表的基于神经网络的机器翻译已经可以高水平地进行中英文翻译。但是,由于PDF文档的内容被固定在版面上,原有的英文句子已经被打散为一个个英文短语,英文句子的中文翻译无法直接展现在PDF页面上。因此直接翻译很难解决英文PDF文档的中文化问题。为了解决英文PDF文档阅读效率低下的问题,需要把机器翻译和PDF排版技术有机地结合在一起,在基本上不改变原PDF页面排版的情况下,把英文内容转换为相应的中文内容,并提供中英文对照展示,生成相应的中文PDF文档,真正提高读者阅读英文PDF文档的质量和速度。
技术实现思路
本专利技术所要解决的技术问题是,将机器翻译和PDF页面排版技术有机结合在一起,把英文PDF文档变成中国读者可以轻松阅读的中文PDF文档。为解决上述技术问题,本专利技术所采用的技术方案是一种英文PDF文档的中文机器注释方法,包括提取PDF文档的英文内容及其相应排版信息,机器翻译英文内容得到中文翻译,从中文翻译中提取英文短语所对应的中文注释,将中文注释按照排版信息逐个覆盖到原来英文短语的位置上,在中文注释上加上以相应英文短语为目标的超链接属性,注释完成后保存为中文PDF文档。所述的提取PDF文档的英文内容及其相应排版信息包括所有英文短语、每个短语所在的页面、在页面上的位置、宽度和高度,并按照英文短语在页面的位置信息把它们组成英文句子。所述的机器翻译英文内容得到中文翻译,是把组成的英文句子提交给机器翻译,翻译成中文句子。所述的从中文翻译中提取英文短语所对应的中文注释,是把每个英文单词或短语对应的中文释义通过神经网络翻译输出的注意力矩阵进行一一对应,从而把英文单词或短语的中文释义从中文句子中提取出。所述的从中文翻译中提取英文短语所对应的中文注释时,常用的简单英语单词of、to、in、at、with、on、for、as、after、between、and、or、if、when、is、are、that、this不提取中文注释,保持英文不变。所述的将中文注释按照排版信息逐个覆盖到原来英文短语的位置上,是在需要注释的英文短语上先覆盖一个亮度不小于70%的浅色矩形将英文短语盖住,再把相应的中文释义放在浅色矩形上。所述的在中文注释上加上以相应英文短语为目标的超链接属性,是给中文释义添加的相应的单词或短语超链接目标“http://原单词”或“http://原单词1_原单词2_……”,短语的多个单词之间用下划线“_”连接。本专利技术有四点有益效果:(1)生成的中文PDF文档保留了英文PDF文档的排版和布局,仅仅是把英文短语替换成中文释义,保留了原文档中的图片信息;(2)这些中文注释只需增加很少的存储成本,就消除了大量的不熟悉的英文单词和短语,读者可以轻松阅读原PDF文档中的文本内容;(3)通过中文注释对应的超链接可以随时找回英文原文,读者可以随时对照阅读原来的英文内容;(4)机器翻译和排版技术相结合的方法可以自动化批量注释PDF文档,成本低,便于大规模应用。附图说明图1为本专利技术英文PDF文档的中文机器注释方法的流程图。图2为本专利技术英文PDF文档的中文机器注释前后对比图。具体实施方式下面结合附图和实施例对本专利技术做进一步阐述。本专利技术的实施例采用两个开源软件:解析和修改PDF的iText软件包(https://itextpdf.com/)和神经网络机器翻译软件OpenNMT软件包(http://opennmt.net/),训练机器翻译所用的100万句中英对照语料来自开源Niutrans软件包(http://www.niutrans.com)。因为PDF的页面是独立的,本实施例只选择一页PDF文档,其余页按照实施方式同样处理即可。实施例选用iPhone的英文说明书的第12页上半部分(201),其中有不同颜色和大小的文字和图片,便于展示本专利技术的效果。如图1所示,首先是用iText软件从英文PDF文档(101)逐页提取英文信息(102),提取的英文信息包含两个部分:英文字符串(103)和英文排版信息(104)。提取出的信息为:B10.67.4105.0733.0,utt10.616.6112.4733.0,ons10.620.6129.0733.0,M7.57.8105.0720.0,ostofthebutt7.558.5112.8720.0,onsy7.521.5171.3720.0,……。其中第一个字符串是英文文本,后面四个是排版信息分别为高度、宽度、起始x坐标,起始y坐标。从提取的信息可以看到,排版后,很多英文单词都被打散成一个或几个字符。因此无法直接进行翻译。根据排版信息,可以把字符串重新组合形成单词,短语以及句子,即把英文字符串组合成句子(105)。在不引起歧义的情况下,为了叙述方便,本实施例接下来统一使用短语来表示一个或多个单词。根据具有相同起始y坐标的字符串属于同一行,可以把这些字符串进行组合。在本实施例中,前三个的y坐标相同(733.0),它们在同一行(Buttons);后三个的y坐标相同,它们是另外一行(Mostofthebuttonsy)。同一行内,再根据起始x坐标和宽度,算出最大x位置,前一个字符串的最大x位置与后一个字符串的起始x位置差距小于一定值(比如1),则是一个单词,直接串接两个字符串;否则这两个字符串分属两个单词,就在两个字符串间添加空格。比如B和utt的间距为0,因此组合成Butt。依次串接,这样每行字符串就组合成对应的英文短语了。如果相邻两行的英文字体的高度相同,而上一行后面没有句号,则不同行可以串接合并,从而生成英文句子。本实施例就包含多个短语或句子(Buttons和Mostofbuttonsy...)。得到的英文句子通过OpenNMT翻译得到中本文档来自技高网...
【技术保护点】
1.一种英文PDF文档的中文机器注释方法,包括提取PDF文档的英文内容及其相应排版信息,机器翻译英文内容得到中文翻译,从中文翻译中提取英文短语所对应的中文注释,将中文注释按照排版信息逐个覆盖到原来英文短语的位置上,在中文注释上加上以相应英文短语为目标的超链接属性,注释完成后保存为中文PDF文档。
【技术特征摘要】
1.一种英文PDF文档的中文机器注释方法,包括提取PDF文档的英文内容及其相应排版信息,机器翻译英文内容得到中文翻译,从中文翻译中提取英文短语所对应的中文注释,将中文注释按照排版信息逐个覆盖到原来英文短语的位置上,在中文注释上加上以相应英文短语为目标的超链接属性,注释完成后保存为中文PDF文档。2.根据权利要求1所述的提取PDF文档的英文内容及其相应排版信息,其特征在于,提取信息包括所有英文短语、每个短语所在的页面、在页面上的位置、宽度和高度,并按照英文短语在页面的位置信息把它们组成英文句子。3.根据权利要求1所述的机器翻译英文内容得到中文翻译,其特征在于,把组成的英文句子提交给机器翻译,翻译成中文句子。4.根据权利要求1所述的从中文翻译中提取英文短语所对应的中文注释,其特征在于,把每个英文单词或短语对应的中文释义进行一一对应,从而...
【专利技术属性】
技术研发人员:吕海港,
申请(专利权)人:吕海港,
类型:发明
国别省市:山西,14
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。