当前位置: 首页 > 专利查询>刘树根专利>正文

语句构件装置、构件制作和基于该构件的母语读外文方法制造方法及图纸

技术编号:2826403 阅读:292 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种自然语言的处理或转换的装置和方法。针对现有技术计算机的语言文字表达,不同语言文字的字、词、句表意不对等也不统一;机器翻译、文本转换,其结果可读性差,不能表达原文本意的缺点。提供①一种语句构件装置及②语句构件制作方法。用人机交互的技术手段,解决字、词、句表意不对等也不统一的技术问题。产生表意得以对等和统一的语句构件的技术效果。进一步提供③基于语句构件的母语读外文及文本转换方法。解决现有机器翻译、文本转换,其结果可读性差,不能表达原文本意的技术问题。提高译文或转换文本的可读性,其表意能与原文一致;用母语读外文,人人可读;读后生成世界文,可供多语种人们用各自母语读出。

【技术实现步骤摘要】

本专利技术涉及一种自然语言的处理或转换的装置和方法;特别涉及一种文本转换的装置和方法;即语句构件装置、语句构件制作方法以及基于语句构件的母语读外文的文本转换方法。
技术介绍
计算机语言文字的信息处理代表是机器翻译、是技术难度的至高点。它的操作对象是文本文件,由计算机的文字处理技术所产生。现有的文字处理技术是把各种语言文字的字符进行编码,然后利用字符代码(内码)生成文本文件。缺点是如此产生的计算机文本文件和纸上的文件一样,只能供各自语种的人们读写、交流。因而不同语种的人们必须借助翻译。机器翻译如《自然语言的计算机处理》冯志伟著,上海外语教育出版社1996年10月出版,其中第八章第一节机器翻译。全文详细阐述了19世纪30年代初法国科学家阿尔楚尼提出用机器来进行语言翻译的想法开始;到1946年世界第一台计算机问世,同年就开始了机器翻译的研究,并一时兴旺起来;1966年11月美国科学院的语言自动处理咨询委员会公布了题为“语言与机器(ALPAC)”的报告,否定了机器翻译并指出机器翻译遇到了难以克服的“语义障碍”;继后机器翻译出现的空前萧条;1970-1976年复苏;以至1976年后的繁荣等等,洋洋两万言,最后指出“1964年,美国ALPAC报告指出的机器翻译遇到的‘语义障碍’至今仍然存在,机器翻译技术至今似乎仍然没有突破性的进展”。“机器翻译系统的实用化和商品化问题面临着严峻的考验”。大众软件,2004年第二期,作者王槊,采访业界多位专家后报道,《机器翻译,路在何方》一文中写道:“目前的机器翻译主要有两种形式,MT和TM。MT(machine translation)就是我们常见的基于规则的机器翻译软件,其主要用途是为了帮助英文不好的用户提供翻译参考,但准确性不高。MT的关键技术有4个方面:单词分析、语法分析、意义分析和文理分析。它的工作过程是,先把语句分成几个单词,通过存放于机器数据库内的电子字典查清词义,根据语法规则分析语句的意思,并把它变换成概念构造,然后借助语言模型生成目标语言。尽管从原理上来看,要实现这一系列步骤并不困难,但由于语言的特殊性和多样化,以及人工智能技术发展水平的限制,目前要做到不同语种间正确互译是不可能的,这也是为什么现在的机器翻译软件无法满足人们的要求,翻译出来的结果往往令人啼笑皆非的原因。…TM(Translation Memory,翻译记忆),主要面向专业翻译人员和机构设计,以翻译记忆和人机交互为核心,要求使用者具备独立的翻译能力。TM的原理是基于数据库,将翻译过的所有材料以句子为单位存入数据库。翻译时系统自动对电子文档进行分析,100%匹配的句子可以自动替换,部分匹配的句子可根据匹配度提出翻译建议,新句子则通过系统提供的翻译建议进行人工翻译。科学研究表明,翻译中的重复工作量约为30%,TM翻译软件使″相同的句子永远不需要翻译第二遍″,从而提高了工作效率。”但70%还得靠人工…。最后作者指出:“机器翻译技术本身存在的问题是阻碍其发展的硬伤。目前不仅在中国,整个世界范围内机器翻译技术都没有很大的突破。试图用机器通过有限的规则和语料提高翻译准确性,在短期内无法实现。在语言智能化研究理论不成熟的情况下,MT软件研究在技术上碰到瓶颈,无法解决一个单词在不同语言环境下的词义选择问题,同样也无法在复杂多变的语境中正确选择语法-->规则,因此,翻译水平无法实现明显提高。”现有技术既然如此,希望在于另辟蹊径!本专利技术人认为,对于计算机语言文字信息处理来说,语法、语音、词汇不同不是难题,关键是不同自然语言的字、词、句表意不对等,也不统一;只好让计算机要象人一样理解分析它,致使“‘语义障碍’至今仍然存在,翻译出来的结果往往令人啼笑皆非”。句型构件理论(本专利技术人的发现,末公开):我们明白,电脑还不能象人脑一样理解语义;电脑之长在于存贮和搜索。人脑正好与电脑相反,能理解语义,但存贮和搜索能力都远远不及电脑。人脑与电脑有着很好的互补,但能否实现很好的互补,有懒于语言文字在计算机内的表达。非常庆幸,自然语言的本质就是表意,并且所表之意人类互通。各种语言文字都由字符组成词汇,词汇组成句子,句子组成文章;其本质属性是:句子是表达完整语意的基本单元;不同语言文字的句子可以表达相同的语意。自然语言是整个人类社会发展的产物。人类产生语言文字的时候,由于时空的隔离,人们被分散在许多独立的社会里生活;语言文字也在这许多独立社会里,在各自独立体系内缓慢演变和发展。正因为各种语言文字都在各自的独立体系内缓慢地演变发展而来。不同语言文字之间,语音不同,语法不一样,词汇字符更是形形色色。这也就造成了不同语言文字之间字、词、句表意不对等也不统一。假如不同语言文字之间,字、词、句表意能够对等和统一;不同语言文字之间的翻译和转换就不是什么难事了。如何才能使不同语言文字之间的字、词、句表意能够对等和统一呢?本专利技术人从句型着手研究,不是语法书上的句型,是便于计算机操作的句型。经过多年的探讨,得出语句构件理论。这里把语句构件论所涉及的主要论断、与本专利技术有关的、具有特定意义的概念定义和解释如下:句子——在自然语言里,表达完整语意的基本单元称为句子;不同语言文字的句子可以表达相同的语意。句子可分为句型、句舱两部分,一个句型至少包含一个句舱。句型——出自一类句子的抽象,在句子中相对稳定,体现句子基本语意及类属;构成该类句子基本结构框架部分称句型。句型体现句子基本语意及类属是面向全人类的、跨语种的;而其基本结构框架是面向具体自然语言的,并包揽着自然语言复杂、个性化的语法现象。句舱——镶嵌在句型这个基本结构框架上的那些灵活的可替换部分称为句舱。句舱接受句型的选择和制约;句舱可用意群串填充或替换,形成丰富多彩的、具体的句子。句舱个数、其语意内容是面向全人类的、跨语种的;但其在句型基本结构框架中的位置、次序和用以填充的意群串是面向具体自然语言的;句舱即使有语法现象也极为简单。句型句舱举例解释(#示行号):1# 只要会句型(01074)2个舱2# 只要你{1本文档来自技高网...

【技术保护点】
一种语句构件装置,包括CPU和用于存放响应查询的相关索引表的原有部,其特征在于还包括:    语句构件存储部101,含有包括用电子数据形式构成的、存储了多语种语意对等的语句构件的语句构件库:    句型库300,用于存储句型构件,有句型码、英文句型、中文句型、俄文句型字段,其包含至少一个记录,相同语意的句型同处一个记录,相应文种的句型存储在相应文种句型字段内,句型码代表了同一记录内各文种句型字段内的各文种句型的语意;    舱模库400,用于存储舱模构件,有舱模码、英文舱模、中文舱模、俄文舱模字段,其包含至少一个记录,相同语意的舱模同处一个记录,相应文种的舱模存储在相应文种舱模字段内,舱模码代表了同一记录内各文种舱模字段内的各文种舱模的语意;    意群串库500、502,用于存储意群串构件,有意群码、英文串、中文串、俄文串字段,其包含至少一个记录,相同语意的意群串同处一个记录,相应文种的意群串存储在相应文种串字段内,意群码代表了同一记录内各文种串字段内的各文种意群串的语意;    习语库600,用于存储小习语构件,有习语码、英文习语、中文习语、俄文习语字段,其包含至少一个记录,相同语意的小习语同处一个记录,相应文种的小习语存储在相应文种习语字段内,习语码代表了同一记录内各文种习语字段内的各文种习语的语意;    意通代码编制部103,与语句构件存储部101相连,用于接收构件添加部106的通知,仅当上述四个库任何之一出现新记录时,把当前库代表数作高位字加上当前库记录号生成意通代码,并填入当前库的某某码字段,作为语句构件统一的双字节定长的多语种语意互通的意通代码,意通代码对于当前库当前记录内各语种构件的同一语意表示是唯一的;    构件读出部104,与语句构件存储部101相连,用于接收读出命令,以意通代码所含数段确定某库某记录,并到相应库相应记录读出所需要的语种构件;    构件匹配给出部105,与语句构件存储部101相连,用于接收匹配命令,根据所给语种的句子或句舱内容以及当前操作点的指引,在相应构件库相应语种索引字段查询匹配,给出匹配的所需要的语种构件或返回无匹配信号;    构件添加部106,分别与语句构件存储部101、意通代码编制部103相连,用于接收添加新构件命令,在查询证实相应构件库没有相同构件后,将新构件添加到相应构件库的相应语种构件字段内,当给一个新记录添加新构件时,同时发信息通知意通代码编制部10...

【技术特征摘要】
CN 2008-2-18 20081008148221.一种语句构件装置,包括CPU和用于存放响应查询的相关索引表的原有部,其特征在
于还包括:
语句构件存储部101,含有包括用电子数据形式构成的、存储了多语种语意对等的语句
构件的语句构件库:
句型库300,用于存储句型构件,有句型码、英文句型、中文句型、俄文句型字段,
其包含至少一个记录,相同语意的句型同处一个记录,相应文种的句型存储在相应文种句型
字段内,句型码代表了同一记录内各文种句型字段内的各文种句型的语意;
舱模库400,用于存储舱模构件,有舱模码、英文舱模、中文舱模、俄文舱模字段,
其包含至少一个记录,相同语意的舱模同处一个记录,相应文种的舱模存储在相应文种舱模
字段内,舱模码代表了同一记录内各文种舱模字段内的各文种舱模的语意;
意群串库500、502,用于存储意群串构件,有意群码、英文串、中文串、俄文串字
段,其包含至少一个记录,相同语意的意群串同处一个记录,相应文种的意群串存储在相应
文种串字段内,意群码代表了同一记录内各文种串字段内的各文种意群串的语意;
习语库600,用于存储小习语构件,有习语码、英文习语、中文习语、俄文习语字段,
其包含至少一个记录,相同语意的小习语同处一个记录,相应文种的小习语存储在相应文种
习语字段内,习语码代表了同一记录内各文种习语字段内的各文种习语的语意;
意通代码编制部103,与语句构件存储部101相连,用于接收构件添加部106的通知,
仅当上述四个库任何之一出现新记录时,把当前库代表数作高位字加上当前库记录号生成意
通代码,并填入当前库的某某码字段,作为语句构件统一的双字节定长的多语种语意互通的
意通代码,意通代码对于当前库当前记录内各语种构件的同一语意表示是唯一的;
构件读出部104,与语句构件存储部101相连,用于接收读出命令,以意通代码所含数
段确定某库某记录,并到相应库相应记录读出所需要的语种构件;
构件匹配给出部105,与语句构件存储部101相连,用于接收匹配命令,根据所给语种
的句子或旬舱内容以及当前操作点的指引,在相应构件库相应语种索引字段查询匹配,给出
匹配的所需要的语种构件或返回无匹配信号;
构件添加部106,分别与语句构件存储部101、意通代码编制部103相连,用于接收添
加新构件命令,在查询证实相应构件库没有相同构件后,将新构件添加到相应构件库的相应
语种构件字段内,当给一个新记录添加新构件时,同时发信息通知意通代码编制部103;
构件库操作控制、接口部107,通过构件读出部104、构件匹配给出部105、构件添加部
106与语句构件存储部101相连,接收基于本语句构件库的各种应用的调用或接收相关命令
进行操作,返回调用者所需语句构件,或通过本接口与基于语句构件库的其它应用装置相连
接。
2.根据权利要求1所述的语句构件装置,其特征是所述语句构件:
语句构件通过专家操作、人机交互的方式,来自剖析比对双语对训练样本语料得到;
语句构件的另一个来源是用户的反馈信息经专家审核后再加入;
语句构件是用于组装语言句子的另部件、或对句子进行编码的标准件,包括如下四种:
①句型构件201,301,用于构成句子的基本结构框架,代表了该类句子基本语意类属,
也决定了该类句子所含句舱的位次和个数,并包揽了该类句子的较复杂的语法现象;
②舱模构件202,401,用于构成复杂句舱的基本结构框架,代表了该类句舱基本语意类
属,也决定了该类句舱所含舱眼的位次和个数,并包揽了该类旬舱的较复杂的语法现象;
③意群串构件501、503,是由意群串充当的构件,用于填充简单句舱203~204或舱眼
205~207的构件,简单句舱与舱眼是上、下位概念而大小一样,都是除不表意虚词外不超过
三个意群串;
④小习语构件601,由过于简短不足以分出句型、句舱的句子充当小习语构件,用于直
接构成简短的句子。
3.根据权利要求1所述的语句构件装置,其特征是所述语句构件库:
库内所包括文种,除英文、中文、俄文外,每增加一个文种,首先应将句型库、舱模库、
意群串库、习语库分别依次各增加一个某文句型、某文舱模、某文串、某文习语字段,新加
文种构件只有与已有文种构件语意相同的才能填加在同一个记录上;
提取其中句型库、舱模库、意群串库、习语库中的某文句型、某文舱模、某文串或某文
习语和某某码两个字段构成某某语言库、第一语言库或第二语言库,用于语言翻译或文本转
换。
4.一种语句构件制作方法,其特征在于利用相同内容的双语或多语种文字版本的语料
作为训练样本,利用人机交互的方式进行句型、句舱两个层面的剖析比对,得出字、词、句
表意得以对等和统一的语句构件,包括如下步骤:
S1.利用相同内容的双语或多语种文字版本的语料作为训练样本,每轮选A、B双语作
为一个样本对,其中A语分配给拼音文字或已经比对过的文种,B语可以分配给拼音文字也
可分配给表意文字以及新加入的文种;
第一轮双语对训练样本的剖析比对,其中双语对样本的A语为英文,B语为中文,从第
二轮开始新语对中必须其一是已经进行过剖析比对的,如当加入俄文时,只能取中俄或英俄
语料作为双语对训练样本,第二轮剖析比对的双语对样本中A语应是已比对过的中文或英文,
B语应是新加的俄文;
每一轮的训练语料样本应大到新增句型/句例比<1%后方可考虑增加新语种、进行次一
轮的剖析比对,另一方面,可以根据训练样本语料的行业来源或应用范围来源来标记、划分
句型库、舱模库、意群串库、习语库来构成相应分库,用于行业或专用版本;
S2.句型层面剖析比对,读取双语样本句对,划分出句型、句舱,把句型作为句型构件
存入句型库,把不足以分出句型、句舱的小习语作为小习语构件存入习语库;
S3.句舱层面剖析比对,把已经划分出句型、句舱的样本句例对,依次取出句舱内容,
进一步划分出舱模、舱眼,把舱模作为舱模构件存入舱模库,把经过意群对齐的舱眼或简单
句舱的内容以意群串为单元作为意群串构件存入意群串库;处理完所有句舱,接着下一个的
双语样本句对处理、接续执行步骤S2。
5.根据权利要求4所述语句构件的制作方法,其特征是所述句型层面剖析比对的步骤S2
进一步包括如下步骤:
S21.读入一个双语样本句对;
S22.调用配句型子程序查找句型库返回A、B语匹配句型,若否、没有匹配句型,执行
步骤S23,若是、有匹配句型执行步骤S26;
S23.以当前双语样本句对为例制作新句型,弹开一窗口,上横行显示A语句、下横行显
示B语句,横行下再显示挖旬舱、存句型两个命令按钮,并提示专家点击A、B语例句的待挖
句舱的首尾点,挖句舱计数器N=0;
S24.当接收到挖句舱命令按钮被点击后,N=N+1,检查A、B语是否都被点击两个点以及
这两个点是否有效,如果无效,提示重作,如果点击正确并且有效,将A、B语句两点之间的
内容挖去并填入“[N]”,该轮挖句舱结束,下一轮重复步骤S24再挖下一个句舱;
S25.当接收到存句型命令按钮被点击并且N≥1,表示挖句舱制作新句型操作完毕,清除
步骤S23、S24的显示,把两个新句型作为句型构件分别写入句型库A文句型、B文句型字段,
如果接收到存句型命令按钮被点击、但N=0,表示当前双语样本句对不足以分出句型、句舱
而被判定为小习语,清除步骤S23、S24的显示,把两个小习语作为小习语构件分别写入习语
库A文习语、B文习语字段;
S26.把当前双语样本例句对号入座地填入当前匹配句型、或填入当前新作句型,作为已
经划分出句型、句舱的样本句例对存盘备S3步骤读取,再执行步骤S21。
6.根据权利要求4所述语句构件的制作方法,其特征是所述句舱层面剖析比对的步骤S3
进一步包括如下步骤:
S31.读入一个由S26步骤存盘的已经划分出句型、句舱的样本句例对;
S32.取句舱,依次取出已经划分出句型、句舱的样本句例对当中的一个句舱,开窗口一
上部显示A、B语样本句例,下部显示A、B语当前句舱内容;
同时,把A语当前句舱以词串为单元切分并依次填入参考表A语字段,再依次取出一个
词串查找意群串库的A文串字段,找到后取出同记录的B文串字段内容,如果该B文串内容
在B语当前句舱中含有,把B文串内容填入参考表B语字段,不含有让它为空;
如果意群串库的A文串字段有相同的...

【专利技术属性】
技术研发人员:刘树根
申请(专利权)人:刘树根
类型:发明
国别省市:44[中国|广东]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1