语言转换的方法与系统及转换匹配单元技术方案

技术编号:2861617 阅读:139 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种不同语言间的转换方法及系统,其中该方法主要包括:建立一术语数据库、通过该术语数据库产生待转换语言与欲转换至语言间相关联术语的一术语词汇表,以及利用该术语词汇表进行语言转换。系统中执行语言转换的转换单元是由一匹配系统依据预定的条件而选出。

【技术实现步骤摘要】

本专利技术是关于一种不同语言间的转换方法及系统,以及一种匹配待转换文件的方法与系统及转换单元。
技术介绍
现今世界各国均走向国际化,因此对于不同语言间的转换的需求日益增加。以往的语言转换方式或系统,需要使用相当多的人力及时间,利用语言转换者个人的语言能力、记忆力及判断力逐字、逐句转换。然而,人脑的记忆力及判断力是有限的,当碰到一些专有名词时,即使语言能力再强的人,使用一些工具相佐,例如使用专业字辞典,往往还是无法获得适当的转换。因此,文字转换的质量无法被接受。此外,人在进行一段时间的文字转换工作后,容易感到疲倦,而容易发生对于同一术语前后转换不一致的情况。目前,市面上已有可作全文语言转换的软件。然而,由于各国语言的语法结构不同,甚至相同的词汇,在不同的场合使用也会有不同的意思。因此,现有的语言转换软件都无法提供令人满意的转换质量。此外,不论是通过语言转换人员或语言转换软件作语言转换,都只能由最终的转换结果审核其转换质量。不仅需要耗费相当多的人力及时间作审核,而且如果转换质量不能令人满意,只能全部重译。因此,如何有效提高转换的效率及质量,如何适当的转换各类专有名词,如何在转换过程中控制质量,如何安排最适当的文字转换人员或文字转换系统执行转换等,都是已知技艺中待解决的难题。
技术实现思路
因此,本专利技术的主要目的是提供一种不同语言之间转换的方法及系统,其主要包括建立一术语数据库,通过该术语数据库产生一与待转换语言(源语言)相应的欲转换至语言(目的语言)的术语词汇表,并利用该术语词汇表进行语言转换。进行语言转换的转换单元是由一匹配系统依据预定的条件选出。根据本专利技术的语言转换方法或系统,可获得下列优点1.提高语言转换的效率根据本专利技术的语言转换方法或系统,在实际进行语言转换前,先产生源语言与目的语言间相关联术语的一术语词汇表,再利用该术语词汇表进行语言转换。由于语言转换的所有相关术语均包含在该术语词汇表中,因此可克服词汇转换的困难并省去词汇转换的时间,可大大地提高语言转换的效率。2.改进转换的质量控制术语的不恰当转换是影响转换质量的主要因素之一。在进行实际语言转换前,本专利技术先产生目的语言与源语言间相关联术语的一术语词汇表。因此,可先审核术语转换以排除不恰当术语转换的问题。对比已知技艺中须待全部转换完毕再费时、费力全文审核的做法,本专利技术具有改进转换质量控制的效果。3.确保词汇转换的一致性通过本专利技术提供的术语词汇表,可确保术语转换的一致性,避免同一词汇转换不同的情况。4.解决各类专有名词转换的困难已知的文字转换方式碰到专有名词时,必须费时费力地查询适当的转换。依据本专利技术的语言转换方法或系统,在实际进行语言转换前,先产生源语言与目的语言间相关联术语的一术语词汇表,再利用该词汇表进行语言转换。由于语言转换涉及的所有相关术语均包含在该词汇表中,可有效解决各类专有名词转换的困难。5.安排最适当的语言转换人员或语言转换系统进行转换任何语言转换人员、语言转换软件、或语言转换系统均有其限制性,例如,擅长的语言种类、擅长的产业或
、最大的处理量等。因此,必须将语言转换工作安排给最合适的语言转换人员或语言转换系统进行转换,以得到最佳的质量及效率。根据本专利技术实施例的语言转换方法或系统,是利用一匹配系统考虑多项与语言转换相关的预定条件而选出进行语言转换的转换单元(转换单元可以是语言转换人员、语言转换软件、或一语言转换系统)。因此,可达到安排最合适的语言转换人员或语言转换系统进行语言转换的目标。本专利技术的这些或别的目标与优点对熟悉本领域的技术人员而言,在阅读以下详细的实施例描述后毫无疑问是明显的,这些实施例是以各种图形及图片说明的。附图说明图1为依据本专利技术的不同语言间的转换方法的实施例的流程图。图2a及2b为本专利技术一实施例产生词汇表的流程图。图3为依据本专利技术的不同语言间的转换系统的实施例的方块4为本专利技术的一匹配系统的实施例的方块图具体实施方式请参照图1,图1为根据本专利技术的不同语言间转换方法实施例的流程图。首先,建立一个术语数据库(步骤10),其中存放多种语言的术语。举例说来,可包含拼音语言,如英语、法语、德语等;以及非拼音语言,如繁体中文、简体中文等。而且,存放在术语数据库中的术语可区分为不同的领域,例如,电子、化学化工、机械、法律、金融等等。该术语数据库可依不同语言及/或不同领域划分为多个子数据库。此外,该术语数据库还可有一界面,供查询不同语言间术语的转换。在查询时,可通过该界面选择仅查询某一专业领域(如电子、化学化工、机械、法律或金融等)、某些专业领域或可选择全部领域搜寻。另外,在查询时,还可通过该界面选择任意两种语言转换的(例如自繁体中文转换至英语、自繁体中文转换至日语、自繁体中文转换至简体中文、自英语转换至日语、自英语转换至简体中文、自简体中文转换至英语、自简体中文转换至日语等等)。通过该界面还可选择自一种语言转换为两种或两种以上的其它语言。接着,通过该术语数据库产生一待转换语言的文件的一术语词汇表(步骤20)。请参照图2a及2b,图2a及2b为本专利技术产生一词汇表的实施例的流程图。在图2a中,建立一虚词表(步骤210),其先包含待转换语言中并无实质意义的词汇。举例来说,″a″、″the″、for″、″of″、″in″、″on″、″by″、″am″、″are″、″and″、″it″、″this″、″that″等英文语法上必需存在的,频繁出现在英语文本资料中,且无任何实际意义的词。再举例说,“的”、“之”、“一”、“及”、“和”、“且”、“并”、“中”等中文也属于此范围。该各种语言的虚词表可在建立术语数据库时同时建立。然后,建立待比对的单词(步骤220)。该步骤在拼音语言与非拼音语言有上有区别。拼音语言与非拼音语言的主要差异在于拼音语言(如英文)由空格区分两个单词,而非拼音语言(如中文)则没有区分实词组合的机制。因此,首先需要判断待处理的语言转换的文本资料是否属于拼音语言(步骤230);如果是,则通过空格辨别单词,即介于两个空格之间为一单词(步骤240);将该单词先与虚词表比对(步骤250),并判断该单词是否存在于虚词表中(步骤260);若是,则略过(步骤270);若该单词未出现在该虚词表中则将其存入该待转换的文件的术语词汇表(步骤280)作为该待转换的文件的一个术语。接着,将存储于术语词汇表中的术语与该术语数据库作比对(步骤290),以检索与欲转换至的语言对应的术语,并将该对应术语存入该术语词汇表中(步骤300)。然而,如果待转换的文本资料属于非拼音语言(例如繁体中文),而不是拼音语言,本专利技术仅针对专利文件作语言转换的处理。由于专利文件有一特殊性,即具有对应附图说明的组件或步骤的数字标识,而且,另外数字标识通常邻紧该专利文件的主要术语。因此,依靠找出数字标识,可找到该专利文件的术语。在图2a的步骤230中,如果判断为不是拼音语言,则流程走至图2b中。首先,检测出一数字(步骤310);所检测出的数字或许不表示一组件或步骤,但在本实施例中,并不影响对于该专利文件的术语的判断。接着,将该数字前的N个字符组合视为一第一词汇组合((步骤320)。若该数字前的N个字中包含有不属于该非拼音语言中有意义的符号(如标点符号)或数字(步骤3本文档来自技高网
...

【技术保护点】
一种拼音语言转换为至少一种其它语言的方法,包含:通过一术语数据库产生该拼音语言与其它语言间相关联术语的一术语词汇表;利用该术语词汇表进行语言转换。

【技术特征摘要】
1.一种拼音语言转换为至少一种其它语言的方法,包含通过一术语数据库产生该拼音语言与其它语言间相关联术语的一术语词汇表;利用该术语词汇表进行语言转换。2.如权利要求1所述的方法,其特征在于所述语言转换是由一匹配系统所选出的转换单元来完成。3.如权利要求1或2所述的方法,其特征在于所述其它语言为拼音语言及非拼音语言中的至少一种。4.如权利要求1或2所述的方法,其特征在于所述术语数据库依术语的领域分为多个子数据库,且所述术语词汇表是利用至少一个该子数据库来产生。5.如权利要求1或2所述的方法,其特征在于产生术语词汇表的步骤包括分析所述拼音语言的待转换文件以判断出术语;利用该判断出的术语及所述术语数据库查找出与该术语相对应的术语。6.如权利要求5所述的方法,其特征在于所述分析步骤包括建立所述拼音语言的一虚词表;建立所述待转换文件的一术语词汇表;对比所述术语词汇表与虚词表,并删除该词汇表中出现在该虚词表的词汇;将该删除后的词汇表中的词汇作为该待转换文件的术语。7.如权利要求2所述的方法,其特征在于所述匹配系统包括一转换单元数据库。8.如权利要求2或7所述的方法,其特征在于所述转换单元可为转换人员、转换系统及转换软件中的至少一种。9.如权利要求2或7所述的方法,其特征在于所述匹配系统依据一个或多个预先设定的条件评估各转换单元并提供匹配结果。10.如权利要求9所述的方法,其特征在于所述一个或多个预先设定的条件至少包括下列条件之一该所述转换单元的擅长语言是否包括该拼音语言及其它语言;该转换单元各工作项的委托人与该待转换文件的委托人有无利益冲突;该转换单元的擅长领域与该待转换文件的领域的匹配程度;该转换单元目前的工作量;该转换单元目前各项工作的期限。11.一种拼音语言转换为其它语言的系统,其特征在于其包含一术语数据库;一第一处理装置,其利用该术语数据库产生该拼音语言与该其它语言间相关联术语的一术语词汇表;其中所述术语词汇表用于进行语言转换。12.如权利要求11所述的系统,其特征在于所述语言转换是由一匹配系统所选出的转换单元来完成。13.如权利要求11或12所述的系统,其特征在于所述其它语言为拼音语言及非拼音语言中的至少一种。14.如权利要求11或12所述的系统,其特征在于所述术语数据库依术语的领域分为多个子数据库,且该术语词汇表是利用至少一个该子数据库产生。15.如权利要求11或12所述的系统,其特征在于所述第一处理装置包括一分析装置,用于分析所述拼音语言的待转换文件以判断出术语;一匹配装置,其利用该判断出的术语及该术语数据库查找出与该判断出的术语相对应的术语。16.如权利要求12所述的系统,其特征在于所述匹配系统包括一转换单元数据库。17.如权利要求12或16所述的系统,其特征在于所述转换单元可为转换人员、转换系统及转换软件中的至少一种。18.如权利要求12或16所述的系统,其特征在于所述匹配系统依据一个或多个预先设定的条件评估各转换单元并提供匹配结果。19.如权利要求18所述的系统,其特征在于所述一个或多个预先设定的条件至少包括下列条件之一该转换单元的擅长语言是否包括所述拼音语言及该其它语言;该转换单元目前各项工作的委托人与该待转换文件的委托人有无利益冲突;该转换单元的擅长领域与该待转换文件的领域的匹配程度;该转换单元目前的工作量;该转换单元目前各项工作的期限。20.一种将专利文件自非拼音语言转换为其它语言的方法,包含通过一术语数据库产生所述非拼音语言与所述至少一种其它语言间相关联术语的一术语词汇表;利用所述术语词汇表进行语言转换。21.如权利要求20所述的方法,其特征在于所述语言转换是由一匹配系统所选出的转换单元完成。22.如权利要求20或21所述的方法,其特征在于所述至少一种其它语言包括至少一种拼音语言或非拼音语言。23.如权利要求20或21所述的方法,其特征在于所述术语数据库依术语的领域分为多个子数据库,且该术语词汇表是利用至少一个该子数据库、来产生。24.如权利要求20或21所述的方法,其特征在于产生术语词汇表的步骤包括分析所述非拼音语言专利文件以判断出术语;利用该判断出的术语及该术语数据库查找出与该术语相对应的术语。25.如权利要求24所述的方法,其特征在于所述分析步骤包括搜索出一数字;以该数字前的N个字符的组合为一第一词汇组合;对比该第一词汇组合与该术语数据库,若该第一词汇组合存在于该术语数据库中,则该第一词汇组合即为已辨识出的术语;若该第一词汇组合不存在于该术语数据库中,则以该数字前的N-1个字符的组合为一第二词汇组合;对比该第二词汇组合与该术语数据库,若该第二词汇组合存在于该术语数据库中,则该第二词汇组合即为已辨识出的术语;若不存在于该术语数据库中,则以再减一个字符的词汇组合与该术语数据库对比,直到有一词汇组合存在于该术语数据库中或该词汇组合的字符数等于零;其中,若...

【专利技术属性】
技术研发人员:王懿融王惠玲何程凯芸楼颖智赖苏民
申请(专利权)人:高莹有限公司
类型:发明
国别省市:HK[中国|香港]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1