一种术语快速标注方法技术

技术编号:5266955 阅读:236 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种术语快速标注方法,包括:建立前缀表,并将所述前缀表加载到内存中,读取文字,所述文字包括至少一个子串;提取所述文字中的一个子串,将所述子串在所述前缀表中进行术语的检索;将当前查找到的子串作为术语记录下来。本发明专利技术在进行术语标注时,借助预先建立的缓存在内存中的术语前缀表做出预判断大大减少了对术语库的检索次数。

【技术实现步骤摘要】

本专利技术涉及一种翻译过程中稿件预处理分析技术,具体说,就是在进行翻译前先 将稿件中的已知术语快速速标注出来的方法。
技术介绍
目前应用于翻译领域稿件预处理分析工具的标注主要采用了 “最大正向匹配”或 “最大逆向匹配”的方法,以尽可能获得一个最长最完整含义的术语。下面就上面两种方法 做一个简单介绍。“最大正向匹配”,即从目标术语的最小长度的一个子串开始逐个到术语库中进行 检索,每检索一次字串长度就加1,直到导到字串长度达到某个阀值为止,其中最后一次匹 配到的字串就是目标术语。与“最大正向匹配”相反,“最大逆向匹配”是先从一个设定的最大长度的字串开始 阻隔到术语库中检索,每检索一次字串长度就减1,一旦发现字串与术语库中的内容匹配就 停止,其中最后一次匹配到的字串就是目标术语。现在以“最大逆向匹配”为例做一个简单地分析。假设有句子S = “我们将有机 会与中国一批成功的商业人士和慈善家就中国的慈善工作进行交流。”,同时假设术语的最 大长度为10,句子中没有术语。根据上面的条件如果需要找到句子S中的所有术语则需要从句子S的第一个字开 始在术语库中检索第一个长度10的字串,我们记做S(l,10),如果术语库中没有检索到则 继续S(l,9)依此类推知道找到术语为止,如果到S(l,l)时仍未找到术语则从S(2,10)开 始继续直到匹配到术语或这一直进行到S(n,1)。具体过程如下表所示权利要求,包括建立前缀表,并将所述前缀表加载到内存中,读取文字,所述文字包括至少一个子串;提取所述文字中的一个子串,将所述子串在所述前缀表中进行术语的检索;将当前查找到的子串作为术语记录下来。2.如权利要求1所述的术语快速标注方法,其特征在于所述前缀表的结构包括术语 的前缀、术语的最小长度和术语的最大长度。3.如权利要求2所述的术语快速标注方法,其特征在于如果所述子串的长度在术语 的最小长度和最大长度之间,则检索术语库。4.如权利要求1所述的术语快速标注方法,其特征在于建立术语表,将,所述术语表 加载到内存中,将记录后的术语在所述术语表中检索,将所述术语统一到所述术语库中进 行检索获得所述术语的原文、译文以及附加信息中。5.如权利要求4所述的术语快速标注方法,其特征在于如果所述子串没有在术语表 中检索到,同时所述子串的前缀在前缀表中是存在的,那么当前子串的起始位置不变,将长 度缩短后继续检索所述前缀表。6.如权利要求4所述的术语快速标注方法,其特征在于如果当前子串的长度小于前 缀表中最短术语的长度,改变所述当前子串的起始位置,并重新从最大术语长度开始检索 所述前缀表。7.如权利要求4所述的术语快速标注方法,其特征在于如果当前子串的长度大于所 述前缀表中最大术语的长度,改变当前子串的起始位置,并重新从最大术语长度开始检索 所述前缀表。8.如权利要求7所述的术语快速标注方法,其特征在于使用所述术语的原文在内存 中的所述术语表中进行检索,如果检索到则返回术语的术语唯一标识ID ;将所述术语ID统 一到所述术语库中进行检索获得术语的原文、译文以及附加信息中。9.如权利要求4所述的术语快速标注方法,其特征在于所述术语表的数据结构包括 术语的源语言ID、术语的目标语言ID、唯一标识、术语原文和字节数。全文摘要本专利技术公开了,包括建立前缀表,并将所述前缀表加载到内存中,读取文字,所述文字包括至少一个子串;提取所述文字中的一个子串,将所述子串在所述前缀表中进行术语的检索;将当前查找到的子串作为术语记录下来。本专利技术在进行术语标注时,借助预先建立的缓存在内存中的术语前缀表做出预判断大大减少了对术语库的检索次数。文档编号G06F17/28GK101986308SQ20101054576公开日2011年3月16日 申请日期2010年11月16日 优先权日2010年11月16日专利技术者江潮 申请人:传神联合(北京)信息技术有限公司本文档来自技高网...

【技术保护点】
一种术语快速标注方法,包括:建立前缀表,并将所述前缀表加载到内存中,读取文字,所述文字包括至少一个子串;提取所述文字中的一个子串,将所述子串在所述前缀表中进行术语的检索;将当前查找到的子串作为术语记录下来。

【技术特征摘要】

【专利技术属性】
技术研发人员:江潮
申请(专利权)人:传神联合北京信息技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1