文档处理装置以及文档处理方法制造方法及图纸

技术编号:9830176 阅读:133 留言:0更新日期:2014-04-01 19:14
本发明专利技术涉及一种文档处理装置以及文档处理方法。文档处理装置具有解析输入的文档数据的句子的解析部(32);从解析部(32)的解析结果中提取规定的接词的接词提取部(33);存储将包含规定的接词的词语是否容易误译的判断标准和规定的接词对应起来的接词检查规则、及用于提取包含容易误译的接词的复合词的复合词提取规则的存储装置(20);当包含从解析结果提取的接词的词语满足接词检测规则中的判断标准的情况下,将提取的接词判定为容易误译的接词的检查部(34);当包含从解析结果提取的接词的词语满足复合词检查规则的情况下,将作为依据该规则的复合词的包含提取的接词的复合词作为容易误译的复合词来提取的复合词提取部(35)。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种。文档处理装置具有解析输入的文档数据的句子的解析部(32);从解析部(32)的解析结果中提取规定的接词的接词提取部(33);存储将包含规定的接词的词语是否容易误译的判断标准和规定的接词对应起来的接词检查规则、及用于提取包含容易误译的接词的复合词的复合词提取规则的存储装置(20);当包含从解析结果提取的接词的词语满足接词检测规则中的判断标准的情况下,将提取的接词判定为容易误译的接词的检查部(34);当包含从解析结果提取的接词的词语满足复合词检查规则的情况下,将作为依据该规则的复合词的包含提取的接词的复合词作为容易误译的复合词来提取的复合词提取部(35)。【专利说明】本申请是以日本专利申请2012-2011368 (申请日:2012年9月25日)为基础,从该申请享有优先的 权利。本申请通过参照该申请而包含该申请的全部内容。
本专利技术的实施方式涉及为了机器翻译文档数据而被使用的。
技术介绍
以往,在进行文档数据的机器翻译时,如果在未登记到翻译词典中的复合词中包含难以直译的接词、例如“可(可)”、“未(未)”、“無(无)”等,则机器翻译引擎难以判别复合词的意思。因此,容易发生误译。原本所谓复合词是独立的2个以上的单词结合,新成为具有作为一个词的意思和功能那样的词。特别是在技术文章中,经常使用作为复合词的术语。一般地复合词的种类多。因此,在词典中人工收罗地登记复合词是困难的。对于作为容易误译的复合词的第I个例子的“文書管理'> ^ r A未導入部門(文档管理系统未导入部门)”,如果采用日英机器翻译进行翻译,则翻译结果有可能误译为“Department introduced a document management system not,,。作为该误译的原因而举出如下原因:机器翻译引擎不能正确理解上述的“文書管理'> ^ ^ A未導入部門(文档管理系统未导入部门)”中的“未導入(未导入)”的接词“未(未)”的意思。另外,对于上述的复合词“文書管理'> ^ r A未導入部門(文档管理系统未导入部门)”如果采用日中机器翻译进行翻译,则翻译结果有可能误译为“文件管理系统绵羊引进部门”。在该翻译中,翻译引擎将上述的“未導入(未导入)”的接词“未(未)”翻译成“绵羊”了。另外,作为容易误译的复合词的第2个例子,当用日英机器翻译对“変換元〃夕一> (变换源图案)”进行翻译时,根据所使用的机器翻译引擎的种类,译文将变成以下的译文A或者译文B。译文 A:the former pattern of conversion.译文 B: the pattern of a changing agency.由于所使用的机器翻译引擎的种类不同而导致译文不同的原因可以举出如下原因:机器翻译引擎对于上述的“変換元〃々一 >(变换源图案)”中的“変換元(变换源)”的接词“元(源)”的理解针对机器翻译引擎的每一类别而不同。在译文A所示的例子中,机器翻译引擎将“変換元〃夕一 >(变换源图案)”理解为“変換Q元〃夕一 >(变换的原图案)”。另一方面,在译文B所示的例子中,机器翻译引擎将“変換元〃々一 >(变换源图案)”理解为“変換元Q 〃夕一 >(变换源的图案)”。这样针对原文的理解的摇摆不定不仅在机器翻译中发生,在由人工进行翻译中也发生。为了解决这种误译的问题,举出了在用机器翻译处理复合词之前,自动从翻译源的文章中发现容易误译的复合词的处理。如果将在此发现的复合词登记到翻译词典,则能够提闻翻译的精度。关于诊断容易误译的复合词的处理,有如下技术:例如使用以词类和字符类型等排列为标准频繁出现的字符串信息,提取未登记到词典中的术语(包含复合词)。另外,有如下技术:利用翻译的目标语言的单词共生信息,将针对原语言的原样的未翻译字符串的翻译候补输出到译文中。进而,有如下技术:从翻译原文中检测插入连字符号等的特殊字符而结合成的复合词,对每个构成要素根据词典得到未登记复合词,使用从该结果中得到的复合词的构造信息,输出翻译用的知识。在上述的提取未登记在词典中的术语的技术中没有考虑接词。因此,在该技术中,将全部的未登记词作为提取对象,还输出能直译的复合词、即不需要对词典进行登记的复合词(例如,“変換〃夕一 >(变换图案)”)。因而,在将复合词登记到词典中时,因为需要人工除去不需要登记的词,所以耗费时间。另外,在上述的将针对原语言的原样的未翻译字符串的翻译候补输出到译文的技术中,只将保持原语言原样而被输出到译文中的未翻译词作为诊断对象。因此,在本技术中,如上述的易误译的复合词的第I个例子和第2个例子那样,无法在翻译结果发现不包含未翻译词的复合词。进而,在上述的使用复合词的构造信息输出翻译用的知识的技术中,将连字符号等的特殊字符作为诊断线索。因此,在该以往技术中,不能发现日语的汉字和假名连续的复合词。
技术实现思路
本专利技术要解决的课题在于提供一种可以判断在文档数据中的容易误译的地方的。实施方式的文档处理装置具有:输入文档数据的输入部;解析由上述输入部输入的文档数据的句子的解析部;从上述解析部的解析结果中提取规定的接词的接词提取部。该文档处理装置具有存储装置,该存储装置存储将包含上述规定的接词的词语是否是容易误译的判断标准与上述规定的接词对应起来的接词检查规则、以及用于提取包含容易误译的接词的复合词的复合词提取规则。文档处理装置具有检查部,在包含从上述解析结果中提取出的接词的词语满足在上述接词检查规则中的判断标准的情况下,将上述提取出的接词判断为是容易误译的接词。文档处理装置具有复合词提取部,当包含从上述解析结果中提取出的接词的词语满足上述复合词检查规则的情况下,将作为依据该规则的复合词的包含上述提取出的接词的复合词作为容易误译的复合词来提取。根据上述构成的文档处理装置,能够判断在文档数据中的容易误译的地方。【专利附图】【附图说明】图1是表示第I实施方式中的文档处理装置的硬件构成的一个例子的框图。图2是表示第I实施方式中的文档处理装置的功能构成例子的框图。图3是以表形式来表示保存在第I实施方式中的文档处理装置的接词词典保存部中的接词词典的一个例子的图。图4是以表形式来表示保存在第I实施方式中的文档处理装置的诊断规则保存部中的接词检查规则的一个例子的图。图5是以表形式来表示保存在第I实施方式中的文档处理装置的诊断规则保存部中的复合词提取规则的一个例子的图。图6是表示第I实施方式中的文档处理装置的处理动作顺序的一个例子的流程图。图7是表示由第I实施方式中的文档处理装置进行的输入句子的句法解析结果的一个例子的图。图8是表示由第I实施方式中的文档处理装置进行的容易误译的复合词的诊断结果的一个例子的图。图9是表示第2实施方式中的文档处理装置的功能构成例子的框图。图10是以表形式来表示保存在第2实施方式中的文档处理装置的诊断规则保存部中的接词检查规则的一个例子的图。图11是以表形式来表示保存在第2实施方式中的文档处理装置的诊断规则保存部中的复合词提取规则的一个例子的图。图12是表示由第2实施方式中的文档处理装置进行的处理动作的一个例子的流程图。图13是表示由第2实施方式中的文档处理装本文档来自技高网
...

【技术保护点】
一种文档处理装置,其特征在于,具备:输入部(31),输入文档数据;解析部(32),对由上述输入部(31)输入的文档数据的句子进行解析;接词提取部(33),从上述解析部(32)的解析结果中提取规定的接词;存储装置(20),存储(a)将包含上述规定的接词的词语是否容易误译的判断标准和上述规定的接词对应起来的接词检查规则、以及(b)用于提取包含容易误译的接词的复合词的复合词提取规则;检查部(34),当包含从上述解析结果中提取出的接词的词语满足在上述接词检查规则中的判断标准的情况下,将上述提取出的接词判定为容易误译的接词;以及复合词提取部(35),当包含从上述解析结果中提取出的接词的词语满足上述复合词检查规则的情况下,将作为依据该规则的复合词的包含上述提取出的接词的复合词作为容易误译的复合词来提取。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:祖国威加纳敏行
申请(专利权)人:株式会社东芝 东芝解决方案株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1