基于网络服务的多语种词典翻译方法技术

技术编号:10158734 阅读:157 留言:0更新日期:2014-07-01 13:02
本发明专利技术公开了基于网络服务的多语种词典翻译方法,策略1:通过Unicode编码判断,输入单词的语言类型,然后在把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果;策略2:不判断单词的语言类型,组合所有得到成功的查找结果,给出结果。本发明专利技术翻译效率和智能化程度高。

【技术实现步骤摘要】

本专利技术涉及语言信息处理技术,特别是基于网络服务的多语种词典翻译方法
技术介绍
近年来,随着IT技术的发展越来越多的信息资源在网络上被共享,大大促进了资源的使用效率,同时为更广大的用户提供方便。在新疆的少数民族语言的信息资源也快速积累,但是网络上的应用,共享资源还需要大力推进。比如:目前为止几个电子辞典软件上市,翻译方向基本覆盖该地区和国际上使用几种语言,但是没有网络电子辞典。为了补充这方面的空白,基于WCF的多语种电子辞典提出了。为网络用户提供方便的单词查询功能,需要设计词库构造简单,查询速度快,运行经快的电子辞典。主要性能包括:启动快,启动速度,占内存少,辞典结构和查找不针对某个特定的语言,采取通用的结构,多种语言单词查询时,只为每一种语言构造独立的词库文件,但采用相同的词库文件结构和查询方法。尽量包括丰富的内容,只提供简单的单词翻译以外,还提供了例子句子,同义词等等尽量多的信息。WCF服务中嵌入容易,几乎不需要任何修改,实现网络上共享。
技术实现思路
本专利技术的目的在于提供一种基于网络服务的多语种词典翻译方法,翻译效率和智能化程度高。本专利技术的目的是这样实现的:一种基于网络服务的多语种词典翻译方法,模式1:输入单词同时,给予该单词所属的语言和期望的目标语言;模式2:给予输入单词,但却不知道该单词所属的语言和期望的目标语言;模式3:给予输入单词,只给出该单词所属的语言类型,但不知道期望的目标语言;模式1的查找方法:每个词库索引部分中同时存储该词库的输入语言和目标语言,根据给予的输入数据,多个词典里确定所进行查找的词典,进行折半查找,给出结果;模式2的查找方法:输入单词,但该单词所属的语言和目标语言都不知道,则运用如下策略:策略1:通过Unicode编码判断,输入单词的语言类型,然后在把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果;策略2:不判断单词的语言类型,在所有的词典中进行查找,组合所有得到成功的查找结果,给出结果;模式3的查找方法:输入单词的语言类型已给予,但目标语言不知道,这时候采取模式2的策略1类似的方法,在包含输入单词语言类型的所有词典中进行查找,组合所有成功的查找结果,给出结果。本专利技术的特点如下:1.      辞典设计       电子辞典设计由数据域和操作域组成,其中数据域如下:单词实体:指某个单词,意思,类型,形式,例子句子,句子意思,同义词等等单词实体集:由词典包含的所有单词实体构成。操作域由建立词库和查询操作组成,操作如下:单词实体的获取:根据已有的数据,设计了专门的数据提取和整理程序,这里不介绍。词库结构由索引域和实体集组成,获取数据以后根据设计的思路,对实体集进行排序,计算索引并写入到特定的文件结构中。该文件结构的定义依赖于设计的需求,比如安全程度,容量要求等等。查找方法多,但根据词库一建立基本上不修改,删除的考虑,进行折半查找是比较理想的,因此建立词库时,首先对实体集进行递增的顺序排序,其中实体的单词为关键字。 2. 多个词典管理很自然,可能需要查找多语种查询,比如维吾尔语-汉语,汉语-英语等等。其中每一方向作为一个词库,所有词典由管理类负责相应的查找。已有多个词典,这时候查找可能分类三个模式,模式1:输入单词同时,给予该单词所属的语言和期望的目标语言。模式2:给予输入单词,但却不知道该单词所属的语言和期望的目标语言。模式3:给予输入单词,只给出该单词所属的语言类型,但不知道期望的目标语言。模式1的查找方法:是最简单的,易于管理的情况,因为每个词库索引部分中同时存储该词库的输入语言和目标语言。根据给予的输入数据,多个词典里确定所进行查找的词典,进行折半查找,给出结果。模式2的查找方法:输入单词,该单词所属的语言,和目标语言都不知道。这时候可以选择2种策略,策略1:通过Unicode编码判断,输入单词的语言类型,然后把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果。策略2:不判断单词的语言类型,在所有的词典中进行查找,组合所有得到成功的查找结果,给出结果。在一般词典数量不是很多,每个词典包含的实体数量不是很多的时后策略2是可行的,但不如策略1.模式3的查找方法:输入单词的语言类型已给予,但目标语言不知道,这时候采取模式2的策略1类似的方法。在包含输入单词语言类型的所有词典中进行查找,组合所有成功的查找结果,给出结果。3.WCF中实现多语种电子辞典服务       简单地讲WCF中电子辞典的服务化的目的是资源的共享,这里资源是电子辞典,共享方是连接到该服务的终端。每个终端只能连接服务就能在本地使用一样利用服务资源,这样客户端应用程序是相当简单,运行速度快。因为其中运行慢,占内存的,计算量大的部分放在服务器作为服务。主要性能如下:1.在局域网内提供服务。辅助翻译软件的客户是专门进行翻译的工作的单位,公司等等。显然只为在其内的人员提供服务。2.为多个用户同时提供服务。3.对单词翻译服务来说,反应时间不得超过人能接受的时间间隔。本专利技术翻译效率和智能化程度高。附图说明下面将结合附图对本专利技术作进一步说明。       图1为本专利技术的电子辞典词库结构图。       图2为本专利技术多个辞典管理的流程图。       图3是本专利技术WCF服务框架上提供多辞典翻译服务的描述图。具体实施方式    一种基于网络服务的多语种词典翻译方法,模式1:输入单词同时,给予该单词所属的语言和期望的目标语言;模式2:给予输入单词,但却不知道该单词所属的语言和期望的目标语言;模式3:给予输入单词,只给出该单词所属的语言类型,但不知道期望的目标语言;模式1的查找方法:每个词库索引部分中同时存储该词库的输入语言和目标语言,根据给予的输入数据,多个词典里确定所进行查找的词典,进行折半查找,给出结果;模式2的查找方法:输入单词,但该单词所属的语言和目标语言都不知道,则运用如下策略:策略1:通过Unicode编码判断,输入单词的语言类型,然后在把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果;策略2:不判断单词的语言类型,在所有的词典中进行查找,组合所有得到成功的查找结果,给出结果;模式3的查找方法:输入单词的语言类型已给予,但目标语言不知道,这时候采取模式2的策略1类似的方法,在包含输入单词语言类型的所有词典中进行查找,组合所有成功的查找结果,给出结果。如图1所示,词库主要由索引区和实体集区构成。其中索引区包括两想内容。第一项是词库文件信息,包括语言信息,词库版本等等。第二想包括实体集中的每一个实体在词库文件中的开始和结束位置,这样根据此信息可以读取任何一个实体。实体集区是一个实体集合,其中每一个实体是单词,该单词的翻译单词,同义词,例子句子等等信息。如图2所示,辞典多个,但输入不针对任何特定辞典本文档来自技高网...
基于网络服务的多语种词典翻译方法

【技术保护点】
一种基于网络服务的多语种词典翻译方法,其方法为:此模式1:输入单词同时,给予该单词所属的语言和期望的目标语言;模式2:给予输入单词,但却不知道该单词所属的语言和期望的目标语言;模式3:给予输入单词,只给出该单词所属的语言类型,但不知道期望的目标语言;模式1的查找方法:每个词库索引部分中同时存储该词库的输入语言和目标语言,根据给予的输入数据,多个词典里确定所进行查找的词典,进行折半查找,给出结果;模式2的查找方法:输入单词,但该单词所属的语言和目标语言都不知道,则运用如下策略:策略1:通过Unicode编码判断,输入单词的语言类型,然后在把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果;策略2:不判断单词的语言类型,在所有的词典中进行查找,组合所有得到成功的查找结果,给出结果;模式3的查找方法:输入单词的语言类型已给予,但目标语言不知道,这时候采取模式2的策略1类似的方法,在包含输入单词语言类型的所有词典中进行查找,组合所有成功的查找结果,给出结果。

【技术特征摘要】
1.一种基于网络服务的多语种词典翻译方法,其方法为:此模式1:输入单词同时,给予该单词所属的语言和期望的目标语言;模式2:给予输入单词,但却不知道该单词所属的语言和期望的目标语言;模式3:给予输入单词,只给出该单词所属的语言类型,但不知道期望的目标语言;模式1的查找方法:每个词库索引部分中同时存储该词库的输入语言和目标语言,根据给予的输入数据,多个词典里确定所进行查找的词典,进行折半查找,给出结果;模式2的查找方法:输入单词,但该单词所属的语...

【专利技术属性】
技术研发人员:塔拉甫·加盘王天军邹帅
申请(专利权)人:新疆信息产业有限责任公司
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1