借助多语文本输入的第三语言文本生成算法及其设备和程序制造技术

技术编号:2867689 阅读:198 留言:0更新日期:2012-04-11 18:40
通过输入众多多语文本并通过使用多语文集,生成比迄今为止出现的只输入单语文本更准确的第三语言文本的一种技术。在输入文本后,执行分析处理,转换处理和生成处理,然后输出目标语言文档文本。由于能够自动获取语言的信息特征,所以生成目标语言文档文本不需要大规模文集。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及使用机器翻译生成高准确度目标语言文本的技术。更确切地说,本专利技术涉及通过输入多种语言并合并语言信息,从而提高目标语言文本生成的准确度的技术。
技术介绍
近来,已经在计算机上记录了大量信息,并且因特网的使用也相当普遍。特别地,由于因特网的使用越来越广泛,产生的一个更大问题是能够访问此类数字数据的人员与不能访问此类数字数据人员之间的隔阂,即所谓的数字鸿沟。另外,因特网上记录的大部分信息是用诸如英语之类的大语种书写的,并且理解此语种的人员与不理解此语种的人员之间的隔阂也是一个大问题。为了消除上述语言障碍引起的数字鸿沟,国内外的许多公司和实验室迄今为止一直在各种场合进行机器翻译的研究。例如,使用文集研究机器翻译,其中文集使用双语输入语言输出语言获取将某种语言翻译为另一种语言所需的知识。然而,只有提供大规模双语文本数据的语言,上述翻译才是可行的。此外,翻译有助于比到目前为止更准确的机器翻译,但是只能用于大语种,因为仅仅获取知识。如上所述,迄今为止研究的大部分技术只能互译大语种,因此上述技术无助于消除语言障碍引起的数字鸿沟。包含因特网在内的信息技术进一步扩大了上述隔阂,迫切需要在致命隔阂出现前解决上述问题。然而,发展中国家无法承担开发语言资源和技术的费用,因此信息产业很难进行大量没有利润的投资。即使发达国家也不可能承担独立处理许多小语种的费用。为了解决上述问题,人们试图开发能够以较低费用处理小语种的语言处理技术,但是迄今为止此类技术的开发很慢。另外,目前机器翻译的准确度尚未达到广泛实用的程度。有一句话说得好一句话本身是不能完全理解的,只有理解其上下文后才能理解一句话。然而,现有自然语言处理技术还不足以处理上下文。
技术实现思路
本专利技术旨在克服现有技术的上述问题。本专利技术的目的在于提供用于生成第三语言文本的技术,从而机器翻译不仅能够互译大语种,而且能够互译大语种和小语种。本专利技术的另一个目的在于提供生成文本的技术,该技术能够以比以往准确度更高的准确度生成文本。为了解决上述问题,本专利技术使用以下第三语言文本生成算法。更确切地说,本专利技术的创新技术为通过使用众多多语文本生成新的第三语言文本的技术。本专利技术的算法包括以下步骤(1)输入用不同语言书写的两个或更多多语文本,不同语言包括作为源语言的第一语言和将第一语言翻译成的至少一种第二语言;(2)以每种语言或任意两种或多种语言之组合的方式,在每个多语文本上执行包括至少相依分析和语义分析的语言分析,从而获取有关至少相依结构和语义表示的语言信息;以及(3)生成第三语言文本,其中生成步骤通过使用分析步骤获取的语言信息生成第三语言文本,或者该算法还包括以下步骤,根据分析步骤获得的分析结果,或者根据分析结果和第三语言的转换知识特征,执行语言转换,转换步骤在分析步骤之后,其中生成步骤通过使用分析步骤获取的语言信息或转换步骤获取的转换结果,生成第三语言文本。在本专利技术中,分析步骤包括为确定构成多语文本的单词之间的对应,构成多语文本的短语之间的对应以及构成多语文本的句子之间的对应而执行关联处理的关联步骤;通过使用先前准备的分析模块分析至少第一语言文本的分析处理;以及通过使用先前准备的分析模块,根据关联处理的结果,分析与第一语言文本相对应的至少第二语言文本中的各个部分,然后合并分析结果的合并处理。分析、转换和生成步骤中的至少一个步骤可以使用基于规则的信息,该信息包含至少每种语言的词典信息或语法信息,以及基于从文集中的实际数据中获得的学习结果的经验信息。生成步骤包括自动获取至少第三语言句法结构信息的部分或全部信息,或有关现有第三语言文集的第三语言单词用法信息;以及根据自动获取的第三语言的信息特征,生成第三语言文本。本专利技术能够提供使用上述方法的第三语言文本生成设备。本专利技术能够提供使用上述方法的第三语言文本生成程序。附图说明图1为生成转换语言文档文本的常规处理的流程图;图2为根据本专利技术生成目标语言文档文本的处理的流程图;图3表示根据本专利技术的第三语言文本生成设备的输入装置的配置;图4表示根据本专利技术的第三语言文本生成设备的分析系统的配置;图5表示根据本专利技术的第三语言文本生成设备的转换系统的配置;以及图6表示根据本专利技术的第三语言文本生成设备的生成系统的配置。参考号数表示的部件如下。数字20表示双语文档文本,数字21表示多语文档文本分析系统,数字22表示转换系统,数字23表示生成系统,数字24表示目标语言文档文本,数字25表示转换知识,数字26表示用于生成的语言知识,数字27表示双语文集,数字28表示单语文集,数字29表示小规模目标语言数据,数字30表示箭头,箭头代表从双语文集中获取转换知识的过程。具体实施例方式以下参照附图表示的典型实施方式描述本专利技术的实施方式。本专利技术提供以比常规机器翻译之准确度更高的准确度生成目标第三语言文本(以下称为目标语言)的技术,该技术包括从手工准备的众多多语文档文本中,例如从日语和英语文档文本中,获取内容信息;从双语词典中获取归约规则;以及从目标语言文档文本中获取语言特征,从而生成准确的目标语言文本。自然语言处理的常规技术模拟人类的普通行为,例如读一个句子,然后翻译概括该句子。然而,其致命缺陷是难以保证允许计算机处理上下文的技术。本专利技术包括以总和或乘积的形式从诸如日英之类的双语文档文本中抽取信息,从而深入理解上下文。用于其他信息处理的技术包括上述为增加信息量而以总和形式抽取信息的方法。然而,本专利技术的技术是全新技术,因为使用多语文本来消除句子的歧义,这正是本专利技术的最显著的特征。本专利技术的技术是全新技术的另一个原因是,为生成表面文本而从单语目标语言文集中根据综合理解获取每种语言的信息特征。图1表示将单语文档文本转换为目标语言并生成此时以前产生的目标语言文档文本的过程的流程图。图2表示将日英双语文档文本转换为目标语言并根据本专利技术生成目标语言文档文本的过程的流程图。在常规方法中,通常通过分析系统(11),转换系统(12)和生成系统(13),执行将单语文档文本(10)翻译成目标语言文档文本(14)的过程,其中系统(11)、(12)和(13)划分该过程。开发系统(11)、(12)和(13)必须手工建立规则(15),并且开发高准确度的系统要求分析大规模文档文本。例如,用于学习的大规模文集需要大量费用和研究,目前,正在逐渐准备大语种的文集,但是很难准备小语种的文集。在本专利技术中,正如图2所示,使用至少两种语言(如大语种)准备文集,然后利用分析系统(21)、转换系统(22)和生成系统(23)进行处理,以便生成目标语言文档文本(24)。更确切地说,第三语言文本生成设备使用图3所示的用于输入两个或多个多语文本的输入装置输入文档文本。可以按以下方式输入文本扫描仪(31)按图像数据的方式捕获文本,经由接口(32)将图像数据从扫描仪(31)输入到CPU(33),通过利用CPU(33)执行众所周知的OCR处理,将图像数据转换为文本数据,然后在硬盘(34)或存储器(35)中存储文本数据。可以读出并输入硬盘(34)中先前存储的文本数据。作为选择,可利用计算机配备的键盘(36)输入多语文本,或者从网络上连接的其他计算机(37)中获取信息。可以利用支持的I/O设备或网络适配器等作为键盘(36)、计算机(37)本文档来自技高网
...

【技术保护点】
一种供基于计算机的语言处理使用的第三语言文本生成算法,通过使用众多双语文本生成一种新的第三语言文本,该算法包括以下步骤:    输入用不同语言书写的两个或更多多语文本,不同语言包括作为源语言的第一语言和将第一语言翻译成的至少一种第二语言;    以每种语言或任意两种或多种语言之组合的方式,在每个多语文本上执行包括至少相依分析和语义分析的语言分析,从而获取有关至少相依结构和语义表示的语言信息;以及    生成第三语言文本,    其中生成步骤通过使用分析步骤获取的语言信息生成第三语言文本,或者    该算法还包括以下步骤,根据分析步骤获得的分析结果,或者根据分析结果和第三语言的转换知识特征,执行语言转换,转换步骤在分析步骤之后,    其中生成步骤通过使用分析步骤获取的语言信息或转换步骤获取的转换结果,生成第三语言文本。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:井佐原均
申请(专利权)人:独立行政法人通信综合研究所
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1