【技术实现步骤摘要】
本专利技术涉及一种自然语言的处理或转换的装置和方法;特别涉及一种文本转换的装置和方法;即语句构件装置、语句构件制作方法以及基于语句构件的母语读外文的文本转换方法。
技术介绍
计算机语言文字的信息处理代表是机器翻译、是技术难度的至高点。它的操作对象是文本文件,由计算机的文字处理技术所产生。现有的文字处理技术是把各种语言文字的字符进行编码,然后利用字符代码(内码)生成文本文件。缺点是如此产生的计算机文本文件和纸上的文件一样,只能供各自语种的人们读写、交流。因而不同语种的人们必须借助翻译。机器翻译如《自然语言的计算机处理》冯志伟著,上海外语教育出版社1996年10月出版,其中第八章第一节机器翻译。全文详细阐述了19世纪30年代初法国科学家阿尔楚尼提出用机器来进行语言翻译的想法开始;到1946年世界第一台计算机问世,同年就开始了机器翻译的研究,并一时兴旺起来;1966年11月美国科学院的语言自动处理咨询委员会公布了题为“语言与机器(ALPAC)”的报告,否定了机器翻译并指出机器翻译遇到了难以克服的“语义障碍”;继后机器翻译出现的空前萧条;1970-1976年复苏;以至1976年后的繁荣等等,洋洋两万言,最后指出“1964年,美国ALPAC报告指出的机器翻译遇到的‘语义障碍’至今仍然存在,机器翻译技术至今似乎仍然没有突破性的进展”。“机器翻译系统的实用化和商品化问题面临着严峻的考验”。大众软件,2004年第二期,作者王槊, ...
【技术保护点】
一种语句构件装置,包括CPU和用于存放响应查询的相关索引表的原有部,其特征在于还包括: 语句构件存储部101,含有包括用电子数据形式构成的、存储了多语种语意对等的语句构件的语句构件库: 句型库300,用于存储句型构件,有句型码、英文句型、中文句型、俄文句型字段,其包含至少一个记录,相同语意的句型同处一个记录,相应文种的句型存储在相应文种句型字段内,句型码代表了同一记录内各文种句型字段内的各文种句型的语意; 舱模库400,用于存储舱模构件,有舱模码、英文舱模、中文舱模、俄文舱模字段,其包含至少一个记录,相同语意的舱模同处一个记录,相应文种的舱模存储在相应文种舱模字段内,舱模码代表了同一记录内各文种舱模字段内的各文种舱模的语意; 意群串库500、502,用于存储意群串构件,有意群码、英文串、中文串、俄文串字段,其包含至少一个记录,相同语意的意群串同处一个记录,相应文种的意群串存储在相应文种串字段内,意群码代表了同一记录内各文种串字段内的各文种意群串的语意; 习语库600,用于存储小习语构件,有习语码、英文习语、中文习语、俄文习语字段,其包含至少一个记录,相同语 ...
【技术特征摘要】
CN 2008-2-18 20081008148221.一种语句构件装置,包括CPU和用于存放响应查询的相关索引表的原有部,其特征在
于还包括:
语句构件存储部101,含有包括用电子数据形式构成的、存储了多语种语意对等的语句
构件的语句构件库:
句型库300,用于存储句型构件,有句型码、英文句型、中文句型、俄文句型字段,
其包含至少一个记录,相同语意的句型同处一个记录,相应文种的句型存储在相应文种句型
字段内,句型码代表了同一记录内各文种句型字段内的各文种句型的语意;
舱模库400,用于存储舱模构件,有舱模码、英文舱模、中文舱模、俄文舱模字段,
其包含至少一个记录,相同语意的舱模同处一个记录,相应文种的舱模存储在相应文种舱模
字段内,舱模码代表了同一记录内各文种舱模字段内的各文种舱模的语意;
意群串库500、502,用于存储意群串构件,有意群码、英文串、中文串、俄文串字
段,其包含至少一个记录,相同语意的意群串同处一个记录,相应文种的意群串存储在相应
文种串字段内,意群码代表了同一记录内各文种串字段内的各文种意群串的语意;
习语库600,用于存储小习语构件,有习语码、英文习语、中文习语、俄文习语字段,
其包含至少一个记录,相同语意的小习语同处一个记录,相应文种的小习语存储在相应文种
习语字段内,习语码代表了同一记录内各文种习语字段内的各文种习语的语意;
意通代码编制部103,与语句构件存储部101相连,用于接收构件添加部106的通知,
仅当上述四个库任何之一出现新记录时,把当前库代表数作高位字加上当前库记录号生成意
通代码,并填入当前库的某某码字段,作为语句构件统一的双字节定长的多语种语意互通的
意通代码,意通代码对于当前库当前记录内各语种构件的同一语意表示是唯一的;
构件读出部104,与语句构件存储部101相连,用于接收读出命令,以意通代码所含数
段确定某库某记录,并到相应库相应记录读出所需要的语种构件;
构件匹配给出部105,与语句构件存储部101相连,用于接收匹配命令,根据所给语种
的句子或旬舱内容以及当前操作点的指引,在相应构件库相应语种索引字段查询匹配,给出
匹配的所需要的语种构件或返回无匹配信号;
构件添加部106,分别与语句构件存储部101、意通代码编制部103相连,用于接收添
加新构件命令,在查询证实相应构件库没有相同构件后,将新构件添加到相应构件库的相应
语种构件字段内,当给一个新记录添加新构件时,同时发信息通知意通代码编制部103;
构件库操作控制、接口部107,通过构件读出部104、构件匹配给出部105、构件添加部
106与语句构件存储部101相连,接收基于本语句构件库的各种应用的调用或接收相关命令
进行操作,返回调用者所需语句构件,或通过本接口与基于语句构件库的其它应用装置相连
接。
2.根据权利要求1所述的语句构件装置,其特征是所述语句构件:
语句构件通过专家操作、人机交互的方式,来自剖析比对双语对训练样本语料得到;
语句构件的另一个来源是用户的反馈信息经专家审核后再加入;
语句构件是用于组装语言句子的另部件、或对句子进行编码的标准件,包括如下四种:
①句型构件201,301,用于构成句子的基本结构框架,代表了该类句子基本语意类属,
也决定了该类句子所含句舱的位次和个数,并包揽了该类句子的较复杂的语法现象;
②舱模构件202,401,用于构成复杂句舱的基本结构框架,代表了该类句舱基本语意类
属,也决定了该类句舱所含舱眼的位次和个数,并包揽了该类旬舱的较复杂的语法现象;
③意群串构件501、503,是由意群串充当的构件,用于填充简单句舱203~204或舱眼
205~207的构件,简单句舱与舱眼是上、下位概念而大小一样,都是除不表意虚词外不超过
三个意群串;
④小习语构件601,由过于简短不足以分出句型、句舱的句子充当小习语构件,用于直
接构成简短的句子。
3.根据权利要求1所述的语句构件装置,其特征是所述语句构件库:
库内所包括文种,除英文、中文、俄文外,每增加一个文种,首先应将句型库、舱模库、
意群串库、习语库分别依次各增加一个某文句型、某文舱模、某文串、某文习语字段,新加
文种构件只有与已有文种构件语意相同的才能填加在同一个记录上;
提取其中句型库、舱模库、意群串库、习语库中的某文句型、某文舱模、某文串或某文
习语和某某码两个字段构成某某语言库、第一语言库或第二语言库,用于语言翻译或文本转
换。
4.一种语句构件制作方法,其特征在于利用相同内容的双语或多语种文字版本的语料
作为训练样本,利用人机交互的方式进行句型、句舱两个层面的剖析比对,得出字、词、句
表意得以对等和统一的语句构件,包括如下步骤:
S1.利用相同内容的双语或多语种文字版本的语料作为训练样本,每轮选A、B双语作
为一个样本对,其中A语分配给拼音文字或已经比对过的文种,B语可以分配给拼音文字也
可分配给表意文字以及新加入的文种;
第一轮双语对训练样本的剖析比对,其中双语对样本的A语为英文,B语为中文,从第
二轮开始新语对中必须其一是已经进行过剖析比对的,如当加入俄文时,只能取中俄或英俄
语料作为双语对训练样本,第二轮剖析比对的双语对样本中A语应是已比对过的中文或英文,
B语应是新加的俄文;
每一轮的训练语料样本应大到新增句型/句例比<1%后方可考虑增加新语种、进行次一
轮的剖析比对,另一方面,可以根据训练样本语料的行业来源或应用范围来源来标记、划分
句型库、舱模库、意群串库、习语库来构成相应分库,用于行业或专用版本;
S2.句型层面剖析比对,读取双语样本句对,划分出句型、句舱,把句型作为句型构件
存入句型库,把不足以分出句型、句舱的小习语作为小习语构件存入习语库;
S3.句舱层面剖析比对,把已经划分出句型、句舱的样本句例对,依次取出句舱内容,
进一步划分出舱模、舱眼,把舱模作为舱模构件存入舱模库,把经过意群对齐的舱眼或简单
句舱的内容以意群串为单元作为意群串构件存入意群串库;处理完所有句舱,接着下一个的
双语样本句对处理、接续执行步骤S2。
5.根据权利要求4所述语句构件的制作方法,其特征是所述句型层面剖析比对的步骤S2
进一步包括如下步骤:
S21.读入一个双语样本句对;
S22.调用配句型子程序查找句型库返回A、B语匹配句型,若否、没有匹配句型,执行
步骤S23,若是、有匹配句型执行步骤S26;
S23.以当前双语样本句对为例制作新句型,弹开一窗口,上横行显示A语句、下横行显
示B语句,横行下再显示挖旬舱、存句型两个命令按钮,并提示专家点击A、B语例句的待挖
句舱的首尾点,挖句舱计数器N=0;
S24.当接收到挖句舱命令按钮被点击后,N=N+1,检查A、B语是否都被点击两个点以及
这两个点是否有效,如果无效,提示重作,如果点击正确并且有效,将A、B语句两点之间的
内容挖去并填入“[N]”,该轮挖句舱结束,下一轮重复步骤S24再挖下一个句舱;
S25.当接收到存句型命令按钮被点击并且N≥1,表示挖句舱制作新句型操作完毕,清除
步骤S23、S24的显示,把两个新句型作为句型构件分别写入句型库A文句型、B文句型字段,
如果接收到存句型命令按钮被点击、但N=0,表示当前双语样本句对不足以分出句型、句舱
而被判定为小习语,清除步骤S23、S24的显示,把两个小习语作为小习语构件分别写入习语
库A文习语、B文习语字段;
S26.把当前双语样本例句对号入座地填入当前匹配句型、或填入当前新作句型,作为已
经划分出句型、句舱的样本句例对存盘备S3步骤读取,再执行步骤S21。
6.根据权利要求4所述语句构件的制作方法,其特征是所述句舱层面剖析比对的步骤S3
进一步包括如下步骤:
S31.读入一个由S26步骤存盘的已经划分出句型、句舱的样本句例对;
S32.取句舱,依次取出已经划分出句型、句舱的样本句例对当中的一个句舱,开窗口一
上部显示A、B语样本句例,下部显示A、B语当前句舱内容;
同时,把A语当前句舱以词串为单元切分并依次填入参考表A语字段,再依次取出一个
词串查找意群串库的A文串字段,找到后取出同记录的B文串字段内容,如果该B文串内容
在B语当前句舱中含有,把B文串内容填入参考表B语字段,不含有让它为空;
如果意群串库的A文串字段有相同的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。