当前位置: 首页 > 专利查询>任鹏专利>正文

翻译输入法及字库制造技术

技术编号:4194965 阅读:376 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种翻译输入法及字库,属于计算机领域。用户利用本发明专利技术提供的翻译输入法及字库,先将不同的输入码通过输入字典统一转换到标准的国际码。外码与内码编码通过索引表一一对应起来,外码采用不同的编码一一对应包含字库的字库地址码,字库为字模库并存储包含Unicode万国码或其他内码所对应的字形码,字库包含至少两种以上字形码字库和子库,用于存储对应其它文字字符和语料标注符,实现文字或语音翻译转换。

【技术实现步骤摘要】

本专利技术涉及一种翻译输入法及字库,属于计算机领域。
技术介绍
电子文档输入都是以用户自己熟悉的语言进行文字录入或打字、聊天email、短信、电子商务、上网搜索等, 一般都将信息制成母语(包含中文),或 国际通用的英语语言作为输入语言。世界上除了英语、中文简体、中文繁体、 德文、法文、日文、俄文、西班牙德、韩文等语言普遍使用外,其它小语种的 语言也都是用母语输入。根据输入法的原理,每一种输入法都又两部分组成, 分别是输入部分和输出部分文字输入、文字输出。该输入法的输入部分以汉 字处理系统为例,输出部分则指中文字库。在汉字处理系统中包含中文输入字 典,中文输入字典由中文字符特征码即外码和对应的中文汉字机内码即内码组 成。当进行输入操作时,汉字处理系统首先捕获外码,然后通过与中文输入字 典进行比对,获得该外码的对应的内码列表,内码列表根据统一的地址码获得 该内码列表的字形码列表,然后在显示器上进行输出或打印用户选择的汉字。 如敲击键盘上的zhong,汉字处理系统捕获zhong这个字符特征码即外码以后, 通过中文输入字典,获得zhong对应的中,重,种,肿等字的内码列表OX0012, OX452F, OX481E, OX0EAC,然后每个内码根据统一的地址编码,在字库中 找出相应的字形特征码进行输出或显示。随着信息领域的不断发展,电子商务与互联网络已成为PC或手机用户不可 缺少的工具,人们的日常生活也随着这一发展提出了新的需求。因此,聊天、 email、短信、电子商务、上网搜索等已成为人们的日常工具。从百度、Google、 搜狐、.新浪、搜狗以及QQ发展的趋势来看,越来越感到尤为重要。当然同时 也存在这不足。纵观聊天工具和短信交流,当前仅限同语言之间聊天或发送淳 信,尚无使不同语言人们之间也能用母语与非母语交流。另外在搜索信息的精 准和全面上也是人们追崇的目标。当前,所有的搜索引擎基本采取关键词所对 应的同一种语言査询,因为国人习惯用于母语搜索,对于不懂外语的人是无法 对外语信息搜索的。即使懂一点英语的非母语人,也不容易直接将英语像母语 一样进行搜索或浏览。即便使用一些市场上的翻译软件,使用起来也非常繁琐, 用起来像査字典一样麻烦,效率非常低。即便已具备语言工具转换的谷歌搜索引擎也存有不足。由于谷歌搜索引擎则采用翻译软件加载翻译,尚不能出现后 选词而准确定义所要翻译的关键词或词句,其次是在网站的通讯、电子邮件和 聊天工具上很难与不同语言的人迸行交流。因此,在现实生活当中跨语言搜索 和转换文字输入是很难做的。
技术实现思路
本专利技术主要的内容是针对现有技术的上述不足,提出一种百度、Google、 搜狐、新浪、搜狗等在内的短信(包含手机短信和语音翻译)、聊天、电子商务、 搜索的翻译转换方案即翻译输入法及字库。并创建一个用A母语输入,且得到 B语言的信息。再经过翻译的程序或翻译的软件翻译成A语言,使不懂外语的 人也能看懂外语的网页。实现了用户用A种语言搜索外,.同时也能用任何语言 如B翻译成A进行浏览。另外,在交流方面还能为稍有一点阅读英语等外语能 力的人但缺乏写的能力提供了平台。使用者可用熟悉的母语A语言写出任意的 外语。根据输入法的原理,包括中文在内的输入到外文的输出也继承这一原理。 该输入法的输入部分主要指文字输入处理系统和内部处理系统,其中文字处理 系统中包含输入字典。输入字典由包含中文字符特征码即外码和对应的中文汉 字机内码即内码组成,内部处理系统中包含多语字典,多语字典由中文字符内 码和对应的外文字符内码组成。输出部分指中外文字库。当进行输入操作时, 文字处理系统首先捕获外码,通过与输入字典进行比对,获得该外码对应的中 文内码列表,内部处理系统则根据获得的中文内码表,在多语字典中査找出对 应的外文内码表,外文内码列表则根据统一的地址码获得该内码列表的字形码 列表,并进行显示或输出,在显示或输出时,同时列出中外文对照列表供候选, 根据选择,获得相应的外文文字。如敲击键盘上的zhong,文字处理系统捕获 zhong这个字符特征码即外码以后,通过输入字典,获得zhong对应的中,重, 种,肿等字的内码列表0X0012, OX452F, OX481E, OX0EAC,内部处理系统 获得内码列表0X0012, OX452F, OX481E, OX0EAC后,根据多语字典査找 出与中文内码列表OX0012, OX452F, OX481E, OX0EAC唯一对应的外文内 码列表0X56DE,0XAC54,0X5812,0XCBEF,而后根据统一的地址编码,在中外 文字库中获得对应的中外文字形码列表进行输出或显示,在输出或显示时,根 据选择的中文,获得响应的外文文字或语音信息。 为达到上述目的,本专利技术采用如下的技术方案 翻译输入字库的字符编码汉字字符范例GB2313-80汉字编码全称信息交换用汉字编码字符集——基本集,习惯称为国际码、GB码或区位码。通行地区中国大陆、新加坡等地。GBK编码全称汉字内码扩展规范,向下与GB2321-80编码兼容,向上支持ISO 10646.1国际标准。 Unicode和CJK编码UCS编码全称通用编码字符集,Universal Coded Character Set,UCS 优点足以容纳世界上的各种文字,每个字符用4个字节表示。 缺点编码太浪费存储空间,不便处理和传输。ASCII编码占用l个字节(8bits),最大字符数256, 一般用128 (最高位是0),高位 为1的为扩展ASCLL。法文,德文等等一些其他的西欧字符的文字也使用该编 码系统。相关的编码标准ISO 8859-1 ~ISO 8859-16, ISO 8859-1俗称Latin-1=BA MASCULINE ORDINALINDICATOR=BB RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK=BC FRACTION ONE QUARTER=BD FRACTION ONE HALF=BE FRACTION THREE QUARTERSIS08859-15 :BAMASCULINE ORDINAL INDICATOR =BB RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK =BC LATIN CAPITALLIGATURE OE =BD LATIN SMALLIGATURE OE =BE LATIN CAPITALLETTERY WITH DIAERESIS GB18030-2000编码采用单字节、双字节和四字节三种方式编码,支持全部CJK统一汉字字符。 解决了内地使用GB码与港台地区使用的BIG-5码间转换不便的状况。 BIG-5码俗称大五码,双字节编码方案,汉字分常用字和次常用字两部分,各部 分按笔画/部首排列。通行与台湾、香港地区的一个繁体字编码方案。 存储程序控制存储程序把程序和处理问题所需的数据均依二进制预先按照一定顺序存放 到计算机的存储器中。 存储程序工作原理中央处理器依次从内存中逐条取出指令,按指令规定执行一系列的基本操作,最后完成一个复杂的工作,由控制器和运算器共同完成。字符编码方法 GB2312占用2个字节(8 bit本文档来自技高网
...

【技术保护点】
一种翻译输入法及字库,其特征在于,包含:翻译输入法及包括至少两种以上字形码或语料编码子库的字库,存储对应的其它文字字符或语音标注符,用来打字或输入时实现文字或语音转换。

【技术特征摘要】
1.一种翻译输入法及字库,其特征在于,包含翻译输入法及包括至少两种以上字形码或语料编码子库的字库,存储对应的其它文字字符或语音标注符,用来打字或输入时实现文字或语音转换。2. 根据权利要求l所述的翻译输入法及字库,其特征在于,翻译输入法及 字库的转码由输入码(字符特征码)通过文字处理系统,经过输入字典转换成内码,至多语语料库把内码转换成(A语言)内码。多语字典将(A语言)内 码转换成(B语言)内码。内部处理系统从内存中获得内码后,在字库中找到对 应的字形码进行显示出来或语音输出。3. 根据权利要求1所述的翻译输入法及字库,其特征在于,字库和字库的 子库合成一个字库,存储包含Unicode和Unicode以外的语料标注符。4. 根据权利要求1所述的翻译输入法及字库,其特征在于,字库还包含至 少两种以上语#的语料库,用于存储一一对齐的各国语言询条。用于即打中 文出英文 或供语音合成输出即包含中文识别到外语语音合成的输出。5. 根据权利要求2所述的...

【专利技术属性】
技术研发人员:任鹏任全利
申请(专利权)人:任鹏任全利
类型:发明
国别省市:12[中国|天津]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1