当前位置: 首页 > 专利查询>刘树根专利>正文

文本转换方法及装置制造方法及图纸

技术编号:2914271 阅读:212 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及语言翻译,针对现有技术以词或句为单位建库方式不合理和译句不通顺并难以实现多语互译的缺陷,提供一种文本转换方法,包括接收第一自然语言文本文件,调用第一自然语言库生成对应所述第一自然语言文本文件的语意的意通文本文件;接收第二自然语言输出命令,调用第二自然语言库,依据所述意通文本文件生成并输出第二自然语言文本文件。本发明专利技术还提供了一种文本转换装置。本发明专利技术使用以句型和句舱为单位构建的语言库,生成的句子语意通顺,且语言库大小合理,能够解决以词建库词不达意、以句建库语言库庞大的问题;通过将自然语言文档转换为意通文档,能够实现语言到语意的直接转换,借助语意到语言的转换实现任意语言之间的互译。

【技术实现步骤摘要】

本专利技术涉及语言翻译,更具体地说,涉及一种文本转换方法及装置
技术介绍
造纸术的改进极大的方便了信息的保存,促进了人类社会的发展。计算机的出现使得信息的存储更为便捷,加快了信息存储方式的更新换代,越来越多的行业已实现无纸化办公。目前通用的文本处理技术方法是把各种语言文字的字符进行编码,继而生成磁盘文件,其典型代表就是微软公司的WORD。尽管方便了文档的编辑,但这种方式生成的磁盘文件依然只能供各自语种的人们读、写,无法实现跨语种阅读,例如不懂汉语的外国人无法读懂用汉语写成的文档。这使得智能化高度发达的今天,翻译工作依然只能依靠人力来完成。为了实现文档的自动翻译,人们曾经做过很多尝试。例如,因为几乎每种语言都无一例外的建立在单词组合的基础之上,所以人们自然想到了以构建词库的方式来实现自动翻译,例如中国专利技术专利申请CN200510018157;但人们很快发现,这种方式得到的文本往往词不达意,根本无法理解,原因就在于词意的多样和语法的复杂,这两个障碍即便凭借当前最先进的技术也似乎无法克服。在这种情况下,人们将目光转向了以句子为单位构建句库,例如中国专利技术专利申请CN03128953、CN200410021989,以句建库的方式解决了以词建库方式中存在的词不达意方面的问题,翻译得到的文句通顺。但是自然语言千变万化,各种语法千差万别,句库之大远远超出了想象,几乎爆炸,在现有的技术水平下,这种笨重的方式无法实现。由此可见,缺乏高效合理的语言库构建手段是当前自动翻译效果不佳的一个重要原因。此外,现有的翻译系统往往只在两种固定的语言之间进行翻译,例如,英语和汉语之间、日语和汉语之间,市场上还没有一套可以实现多语互译的系统。综上所述,需要一种技术,能够以合理的方式构建语言库,并且将使用某种自然语言完成的文档随意转换成其他语言文档。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术以词建库词不达意、以句建库语言库庞大等建库方式不合理的缺陷,以及无法实现多语互译的缺陷,提供一种文本转换方法及装置。本专利技术解决其技术问题所采用的技术方案是:一种文本转换方法,包括如下步骤:S1、接收第一自然语言文本文件,调用第一自然语言库生成对应所述第一自然语言文本文件的语意的意通文本文件;S2、接收第二自然语言输出命令,调用第二自然语言库,依据所述意通文本文件生成并输出第二自然语言文本文件。在本专利技术所述的文本转换方法中,所述第一语言库包括第一句型库和第一句舱库,所述步骤S1进一步包括如下步骤:S11、读入所述第一自然语言文本文件中的一个句子;S12、调用所述第一句型库对读入的句子进行句型匹配,输出句型语意代码,并划分出所述读入的句子的句舱;S13、调用所述第一句舱库对步骤S12中划分出的句舱进行句舱匹配,输出句舱语意代-->码;S14、依据所述句型语意代码和所述句舱语意代码生成对应所述读入的句子的意通代码;S15、判断是否到达所述第一自然语言文本文件末尾,若是,执行步骤S16,若否,则读入下一个句子,然后回到步骤S12;S16、将生成的所有读入的句子的意通代码存储为所述意通文本文件。在本专利技术所述的文本转换方法中,所述第一自然语言库包括第一习语库,在所述步骤S12中,在调用所述第一句型库对读入的句子进行句型匹配之前,调用所述第一习语库判断所述读入的句子是否是习语,若是,则输出习语语意代码,作为所述读入的句子的意通代码,然后转到步骤S15;若否,则调用所述第一句型库对读入的句子进行句型匹配。在本专利技术所述的文本转换方法中,所述第一句舱库包括第一舱模库和第一舱眼库,所述步骤S13进一步包括:S131、读入所述读入的句子的一个句舱;S132、调用所述第一舱模库对读入的句舱进行舱模匹配,若匹配成功,则输出舱模语意代码,并划分出所述读入的句舱的舱眼,然后转到步骤S133;若匹配失败,则转到步骤S134;S133、调用所述第一舱眼库对划分出的舱眼进行舱眼匹配,输出舱眼语意代码,并依据所述舱模语意代码和所述舱眼语意代码生成对应所述读入的句舱的句舱语意代码,转到步骤S135;S134、调用所述第一舱眼库对读入的句舱进行舱眼匹配,输出舱眼语意代码,作为所述读入的句舱的句舱语意代码,转到步骤S135;S135、判断是否存在未处理的句舱,若是,则读入下一个句舱,然后回到步骤S131,否则,转到步骤S14。在本专利技术所述的文本转换方法中,在所述步骤S133或S134中,若所述舱眼匹配不成功,则在所述第一舱眼库中为匹配不成功的舱眼生成舱眼语意代码,然后输出该舱眼语意代码。在本专利技术所述的文本转换方法中,所述步骤S14进一步包括:S141、接收第一句型选择信号,从输出的句型语意代码中选择对应所述第一句型选择信号的句型语意代码;S142、接收第一句舱选择信号,从输出的句舱语意代码中选择对应所述第一句舱选择信号的句舱语意代码;S143、依据选择的句型语意代码和句舱语意代码生成对应所述读入的句子的意通代码。在本专利技术所述的文本转换方法中,所述第二语言库包括第二句型库和第二句舱库,所述步骤S2进一步包括如下步骤:S21、读入所述意通文本文件中对应一个句子的意通代码;S22、调用所述第二句型库,将所述意通代码中的句型语意代码转换成对应的句型;S23、调用所述第二句舱库,将所述意通代码中的句舱语意代码转换成对应的句舱;S24、依据生成的句型和句舱生成并输出对应所述读入的意通代码的的句子;S25、判断是否到达所述意通文本文件的末尾,若否,则读入对应下一个句子的意通代码,然后回到步骤S22。在本专利技术所述的文本转换方法中,所述第二自然语言库包括第二习语库,在所述步骤S22中,在调用所述第二句型库之前,所述方法还包括调用所述第二习语库,判断所述意通代码是否是习语语意代码,若是,则输出对应所述习语语意代码的习语,然后转到步骤S25;若否,则调用所述第二句型库,依据所述意通代码中的句型语意代码,生成对应的句型。在本专利技术所述的文本转换方法中,所述第二句舱库包括第二舱模库和第二舱眼库,所述-->步骤S23进一步包括调用所述第二句舱库和所述第二舱眼库将所述句舱语意代码中的舱模语意代码和舱眼语意代码转换成舱模和舱眼,并依据所述舱模和舱眼生成所述句舱。在本专利技术所述的文本转换方法中,所述步骤S24进一步包括:S241、接收第二句型选择信号,从生成的句型中选择对应所述第二句型选择信号的句型;S242、接收第二句舱选择信号,从生成的句舱中选择对应所述第二句舱选择信号的句舱;S243、依据选择的句型和句舱生成并输出对应所述第二语言的句子。本专利技术还提供了一种文本转换装置,包括:意通文本文件存储模块;第一自然语言存储模块,用于存储第一自然语言库;第二自然语言存储模块,用于存储第二自然语言库;转换处理模块,与所述意通文本文件存储模块、第一自然语言存储模块和第二自然语言存储模块相连,包括:第一自然语言处理模块,用于接收第一自然语言文本文件,调用所述第一自然语言库生成对应所述第一自然语言文本文件的语意的意通文本文件,并将所述意通文本文件存储在所述意通文本文件存储模块中;第二自然语言处理模块,用于接收第二自然语言输出命令,调用所述第二自然语言库和所述意通文本文件,生成并输出第二自然语言文本文件。在本专利技术所述的文本转换装本文档来自技高网
...

【技术保护点】
一种文本转换方法,其特征在于,包括如下步骤: S1、接收第一自然语言文本文件,调用第一自然语言库生成对应所述第一自然语言文本文件的语意的意通文本文件; S2、接收第二自然语言输出命令,调用第二自然语言库,依据所述意通文本文件生成 并输出第二自然语言文本文件。

【技术特征摘要】
1、一种文本转换方法,其特征在于,包括如下步骤:S1、接收第一自然语言文本文件,调用第一自然语言库生成对应所述第一自然语言文本文件的语意的意通文本文件;S2、接收第二自然语言输出命令,调用第二自然语言库,依据所述意通文本文件生成并输出第二自然语言文本文件。2、根据权利要求1所述的文本转换方法,其特征在于,所述第一语言库包括第一句型库和第一句舱库,所述步骤S1进一步包括如下步骤:S11、读入所述第一自然语言文本文件中的一个句子;S12、调用所述第一句型库对读入的句子进行句型匹配,输出句型语意代码,并划分出所述读入的句子的句舱;S13、调用所述第一句舱库对步骤S12中划分出的句舱进行句舱匹配,输出句舱语意代码;S14、依据所述句型语意代码和所述句舱语意代码生成对应所述读入的句子的意通代码;S15、判断是否到达所述第一自然语言文本文件末尾,若是,执行步骤S16,若否,则读入下一个句子,然后回到步骤S12;S16、将生成的所有读入的句子的意通代码存储为所述意通文本文件。3、根据权利要求2所述的文本转换方法,其特征在于,所述第一自然语言库包括第一习语库,在所述步骤S12中,在调用所述第一句型库对读入的句子进行句型匹配之前,调用所述第一习语库判断所述读入的句子是否是习语,若是,则输出习语语意代码,作为所述读入的句子的意通代码,然后转到步骤S15;若否,则调用所述第一句型库对读入的句子进行句型匹配。4、根据权利要求2或3所述的文本转换方法,其特征在于,所述第一句舱库包括第一舱模库和第一舱眼库,所述步骤S13进一步包括:S131、读入所述读入的句子的一个句舱;S132、调用所述第一舱模库对读入的句舱进行舱模匹配,若匹配成功,则输出舱模语意代码,并划分出所述读入的句舱的舱眼,然后转到步骤S133;若匹配失败,则转到步骤S134;S133、调用所述第一舱眼库对划分出的舱眼进行舱眼匹配,输出舱眼语意代码,并依据所述舱模语意代码和所述舱眼语意代码生成对应所述读入的句舱的句舱语意代码,转到步骤S135;S134、调用所述第一舱眼库对读入的句舱进行舱眼匹配,输出舱眼语意代码,作为所述读入的句舱的句舱语意代码,转到步骤S135;S135、判断是否存在未处理的句舱,若是,则读入下一个句舱,然后回到步骤S131,否则,转到步骤S14。5...

【专利技术属性】
技术研发人员:刘树根
申请(专利权)人:刘树根
类型:发明
国别省市:44[中国|广东]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1