信息处理设备和信息处理方法技术

技术编号:8532872 阅读:136 留言:0更新日期:2013-04-04 15:54
本发明专利技术公开了信息处理设备和信息处理方法。该信息处理设备包括文本获取单元、位置对应信息获取单元、第一子文本产生单元、第二子文本产生单元、第一比较单元、第二比较单元、和翻译文本确定单元。文本获取单元获取以第一语言所写的第一文本和以第二语言所写的第二文本。位置对应信息获取单元针对每个短语获取位置对应信息。第一子文本产生单元将所述第一文本分割成多个第一子文本。第二子文本产生单元将所述第二文本分割成多个第二子文本。第一比较单元比较短语以第一语言所写时其中多个单词的布局和各第一子文本的布局。第二比较单元比较短语以第二语言所写时其中多个单词的布局和各第二子文本的布局。翻译文本确定单元确定翻译文本。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
日本未审查专利申请公开No. 2010-61643公开了一种专利技术,其涉及利用第一语言的句子和第三语言的对应句子之间的定义单词对齐以及第二语言的该句子和第三语言的该对应句子之间的定义单词对齐来确定多语语料库(multilingual corpus)中所述第一语言的句子和第二语言的对应句子之间的单词对齐。日本未审查专利申请公开No. 2008-102794公开了一种专利技术,其涉及基于统计信息(诸如每个单词对之间的翻译概率)确定短语对齐。日本未审查专利申请公开No. 2007-26256公开了一种专利技术,其涉及利用第三语言的对应字确定双语单词字典中第一和第二语言的单词对之间的对应关系。
技术实现思路
因此,本专利技术的一个目的是提供一种信息处理设备,其根据以第一语言所写的第一文本、具有与所述第一文本相同内容并以第二语言所写的第二文本、以及表明多种格式的短语中的每一个短语以第一语言所写时该短语中给定单词的位置与该短语以第二语言所写时该短语中对应于给定单词的单词的位置之间的对应关系的位置对应信息,来确定该第一文本所包含的子文本的翻译文本。根据本专利技术的第一方面,提供了一种信息处理设备,其包括文本获取单元、位置对应信息获取单元、第一子文本产生单元、第二子文本产生单元、第一比较单元、第二比较单元、和翻译文本确定单元。文本获取单元获取以第一语言所写的第一文本和与该第一文本具有相同内容且以第二语言所写的第二文本。位置对应信息获取单元针对多种格式的短语中的每一个获取位置对应信息,该位置对应信息表明短语以第一语言所写时该短语中给定单词的位置与该短语以第二语言所写时该短语中对应于给定单词的单词的位置之间的对应关系。第一子文本产生单元将所述第一文本分割成多个第一子文本。第二子文本产生单元将所述第二文本分割成多个第二子文本。第一比较单元针对所述多种格式的短语中的每一个,对短语以第一语言所写时该短语中多个单词的布局和第一文本中多个第一子文本的布局进行比较。第二比较单元针对所述多种格式的短语中的每一个,对短语以第二语言所写时该短语中多个单词的布局和第二文本中多个第二子文本的布局进行比较。翻译文本确定单元根据第一比较单元获得的比较结果、第二比较单元获得的比较结果、和所述位置对应关系,确定所述多个第一子文本中至少一个的翻译文本,该翻译文本是通过将所述多个第一子文本中的至少一个翻译成第二语言而获得的多个第二子文本之根据本专利技术的第二方面,该信息处理设备还包括布局信息获取单元。该布局信息获取单兀针对多种格式的短语中的每一个获取第一布局信息和第二布局信息,该第一布局信息表明短语以第一语言所写时该短语中多个单词的布局,该第二布局信息表明短语以第二语言所写时该短语中多个单词的布局。翻译文本确定单元包括布局信息确定单元。布局信息确定单元根据第一比较单元获得的比较结果、第二比较单元获得的比较结果、和所述位置对应关系,确定对应于第一文本的第一布局信息和对应于第二文本的第二布局信息。在布局信息确定单兀确定了第一布局信息和第二布局信息后,第一子文本产生单兀在多个第一子文本中获取一个第一子文本作为第一文本,并进一步将该第一文本分割成多段。此外,第二子文本产生单元在多个第二子文本中获取一个第二子文本作为第二文本,并进一步将该第二文本分割成多段。根据本专利技术的第三方面,该信息处理设备还包括登记单元。该登记单元将多个第一子文本中的至少一个、和多个第二子文本中被翻译文本确定单元确定为翻译文本的第二子文本相互关联地登记到字典数据库中。根据本专利技术的第四方面,提供了一种信息处理方法,其包括获取以第一语言所写的第一文本和以第二语言所写的第二文本,所述第二文本与所述第一文本具有相同的内容;针对多种格式的短语中的每一个,获取位置对应信息,该位置对应信息表明短语以第一语言所写时该短语中给定单词的位置与该短语以第二语言所写时该短语中对应于给定单词的单词的位置之间的对应关系;将所述第一文本分割成多个第一子文本;将所述第二文本分割成多个第二子文本;针对所述多种格式的短语中的每一个,对短语以第一语言所写时该短语中多个单词的布局和第一文本中多个第一子文本的布局进行;针对所述多种格式的短语中的每一个,对短语以第二语言所写时该短语中多个单词的布局和第二文本中多个第二子文本的布局进行比较;根据比较获得的各比较结果、和所述位置对应关系,确定所述多个第一子文本中至少一个的翻译文本,该翻译文本是通过将所述多个第一子文本中的至少一个翻译成第二语言而获得的多个第二子文本之一。根据本专利技术的第一和第四方面,根据以第一语言所写的第一文本、与第一文本具有相同内容且以第二语言所写的第二文本、以及表明多种格式的短语中的每一个短语以第一语言所写时该短语中给定单词的位置与该短语以第二语言所写时该短语中对应于给定单词的单词的位置之间的对应关系的位置对应关系,确定了第一文本中所包含的子文本的翻译文本。根据本专利技术的第二方面,确定了通过进一步分割第一子文本和第二子文本所产生的文本的翻译文本。根据本专利技术的第三方面,第一子文本和被确定为第一子文本的翻译文本的第二子文本相互关联地被登记在字典数据库中。附图说明以下将参考附图来详细描述本专利技术的示例实施例,附图中图1示出了根据本专利技术一个示例实施例的信息处理设备的构造;图2示出了双语示例语句字典数据库中所存储的数据的示例;图3示出了双语语句模式字典数据库中所存储的数据的示例;图4示出了一个语句模式的数据结构;图5示出了双语语句模式的示例;图6示出了双语短语字典数据库中所存储的数据的示例;图7示出了双语单词字典数据库中所存储的数据的示例;图8示出了根据该示例实施例的语句模式匹配单元的处理流程;图9示出了根据该示例实施例的距离计算单元的处理流程;图10示出了根据该示例实施例的距离计算单元的计算处理的示例图11示出了根据该示例实施例的映射提取单元的处理流程图12示出了根据该示例实施例的映射提取单元的处理流程图13示出了根据该示例实施例的映射提取单元的处理流程图14是示出根据该示例实施例的信息处理设备的操作的流程图;图15是示出根据该示例实施例的信息处理设备执行的文本处理的流程图;图16是示出根据该示例实施例的信息处理设备执行的短语处理的流程图;图17是示出根据该示例实施例的信息处理设备执行的翻译文本确定处理和登记处理的流程图;图18示出了根据该示例实施例的信息处理设备要处理的数据的示例图19示出了根据该示例实施例的信息处理设备要处理的数据的示例图20示出了根据该示例实施例的信息处理设备要处理的数据的示例;以及图21示出了根据该示例实施例的信息处理设备要处理的数据的示例。具体实施例方式下面将参照附图详细描述本专利技术的示例实施例。图1示出了根据本专利技术一个示例实施例的信息处理设备100的构造。信息处理设备100连接至双语示例语句字典数据库200、双语语句模式字典数据库300、双语短语模式字典数据库400、双语短语字典数据库500、和双语单词字典数据库600。信息处理设备100包括中央处理单元(CPU) 120、存储器140、和外部接口(I/F)单元160。信息处理设备100的CPU120按照存储于存储器140中的程序运行。下面将描述CPU120的细节。信息处理设备100的存储器140本文档来自技高网...

【技术保护点】
一种信息处理设备,包括:文本获取单元,其获取以第一语言所写的第一文本和以第二语言所写的第二文本,所述第二文本具有与所述第一文本相同的内容;位置对应信息获取单元,其针对多种格式的短语中的每一个获取位置对应信息,所述位置对应信息表明短语以第一语言所写时该短语中给定单词的位置与该短语以第二语言所写时该短语中对应于给定单词的单词的位置之间的对应关系;第一子文本产生单元,其将所述第一文本分割成多个第一子文本;第二子文本产生单元,其将所述第二文本分割成多个第二子文本;第一比较单元,其针对所述多种格式的短语中的每一个比较短语以第一语言所写时该短语中多个单词的布局和所述第一文本中的所述多个第一子文本的布局;第二比较单元,其针对所述多种格式的短语中的每一个比较短语以第二语言所写时该短语中多个单词的布局和所述第二文本中的所述多个第二子文本的布局;以及翻译文本确定单元,其根据所述第一比较单元获得的比较结果、所述第二比较单元获得的比较结果、和所述位置对应关系,确定所述多个第一子文本中至少一个的翻译文本,所述翻译文本为所述多个第二子文本之一、且通过将所述多个第一子文本中的所述至少一个翻译成第二语言而获得。

【技术特征摘要】
2011.09.26 JP 2011-2099381.一种信息处理设备,包括 文本获取单元,其获取以第一语言所写的第一文本和以第二语言所写的第二文本,所述第二文本具有与所述第一文本相同的内容; 位置对应信息获取单元,其针对多种格式的短语中的每一个获取位置对应信息,所述位置对应信息表明短语以第一语言所写时该短语中给定单词的位置与该短语以第二语言所写时该短语中对应于给定单词的单词的位置之间的对应关系; 第一子文本产生单元,其将所述第一文本分割成多个第一子文本; 第二子文本产生单元,其将所述第二文本分割成多个第二子文本; 第一比较单元,其针对所述多种格式的短语中的每一个比较短语以第一语言所写时该短语中多个单词的布局和所述第一文本中的所述多个第一子文本的布局; 第二比较单元,其针对所述多种格式的短语中的每一个比较短语以第二语言所写时该短语中多个单词的布局和所述第二文本中的所述多个第二子文本的布局;以及 翻译文本确定单元,其根据所述第一比较单元获得的比较结果、所述第二比较单元获得的比较结果、和所述位置对应关系,确定所述多个第一子文本中至少一个的翻译文本,所述翻译文本为所述多个第二子文本之一、且通过将所述多个第一子文本中的所述至少一个翻译成第二语言而获得。2.根据权利要求1所述的信息处理设备,还包括 布局信息获取单元,其针对所述多种格式的短语中的每一个获取第一布局信息和第二布局信息,所述第一布局信息表明短语以第一语言所写时该短语中多个单词的布局,所述第二布局信息表明短语以第二语言所写时该短语中多个单词的布局, 其中,所述翻译文本确定单元包括 布局信息确定单元,其根据所述第一比较单元...

【专利技术属性】
技术研发人员:刘绍明
申请(专利权)人:富士施乐株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1