文档处理装置以及文档处理方法制造方法及图纸

技术编号：9830176 阅读：133 留言：0更新日期：2014-04-01 19:14

本发明专利技术涉及一种文档处理装置以及文档处理方法。文档处理装置具有解析输入的文档数据的句子的解析部（32）；从解析部（32）的解析结果中提取规定的接词的接词提取部（33）；存储将包含规定的接词的词语是否容易误译的判断标准和规定的接词对应起来的接词检查规则、及用于提取包含容易误译的接词的复合词的复合词提取规则的存储装置（20）；当包含从解析结果提取的接词的词语满足接词检测规则中的判断标准的情况下，将提取的接词判定为容易误译的接词的检查部（34）；当包含从解析结果提取的接词的词语满足复合词检查规则的情况下，将作为依据该规则的复合词的包含提取的接词的复合词作为容易误译的复合词来提取的复合词提取部（35）。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种。文档处理装置具有解析输入的文档数据的句子的解析部（32）；从解析部（32）的解析结果中提取规定的接词的接词提取部（33）；存储将包含规定的接词的词语是否容易误译的判断标准和规定的接词对应起来的接词检查规则、及用于提取包含容易误译的接词的复合词的复合词提取规则的存储装置（20）；当包含从解析结果提取的接词的词语满足接词检测规则中的判断标准的情况下，将提取的接词判定为容易误译的接词的检查部（34）；当包含从解析结果提取的接词的词语满足复合词检查规则的情况下，将作为依据该规则的复合词的包含提取的接词的复合词作为容易误译的复合词来提取的复合词提取部（35）。【专利说明】本申请是以日本专利申请2012-2011368 (申请日:2012年9月25日)为基础，从该申请享有优先的权利。本申请通过参照该申请而包含该申请的全部内容。
本专利技术的实施方式涉及为了机器翻译文档数据而被使用的。
技术介绍
以往，在进行文档数据的机器翻译时，如果在未登记到翻译词典中的复合词中包含难以直译的接词、例如“可(可)”、“未(未)”、“無(无)”等，则机器翻译引擎难以判别复合词的意思。因此，容易发生误译。原本所谓复合词是独立的2个以上的单词结合，新成为具有作为一个词的意思和功能那样的词。特别是在技术文章中，经常使用作为复合词的术语。一般地复合词的种类多。因此，在词典中人工收罗地登记复合词是困难的。对于作为容易误译的复合词的第I个例子的“文書管理'> ^ r A未導入部門(文档管理系统未导入部门)”，如果采用日英机器翻译进行翻译，则翻译结果有可...

【技术保护点】
一种文档处理装置，其特征在于，具备：输入部（31），输入文档数据；解析部（32），对由上述输入部（31）输入的文档数据的句子进行解析；接词提取部（33），从上述解析部（32）的解析结果中提取规定的接词；存储装置（20），存储（a）将包含上述规定的接词的词语是否容易误译的判断标准和上述规定的接词对应起来的接词检查规则、以及（b）用于提取包含容易误译的接词的复合词的复合词提取规则；检查部（34），当包含从上述解析结果中提取出的接词的词语满足在上述接词检查规则中的判断标准的情况下，将上述提取出的接词判定为容易误译的接词；以及复合词提取部（35），当包含从上述解析结果中提取出的接词的词语满足上述复合词检查规则的情况下，将作为依据该规则的复合词的包含上述提取出的接词的复合词作为容易误译的复合词来提取。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：祖国威，加纳敏行，
申请(专利权)人：株式会社东芝，东芝解决方案株式会社，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人