一种术语识别抽取方法及系统技术方案

技术编号:18458692 阅读:16 留言:0更新日期:2018-07-18 12:39
本发明专利技术属于语言识别技术领域,公开了一种术语识别抽取方法及系统,包括:对术语进行多次识别抽取;识别出多术语组合术语;匹配出翻译译文;并进行术语提取。本发明专利技术为改善本地化译员工作,提高翻译效率,提供一种术语识别抽取方法,程序自动对文档进行分析,抽取专业术语,快速匹配出翻译译文,为本地化译员提高了工作效率,以及翻译的准确性。本发明专利技术对术语进行多次识别抽取,提高准确率;能准确识别多术语组合术语。

A method and system for terms recognition and extraction

The present invention belongs to the field of language recognition technology, and discloses a method and system for recognition and extraction of terminology, including multiple recognition and extraction of terminology, recognition of terminology combination terms, matching translation translations, and terminology extraction. In order to improve the work of localizing interpreters and improve the efficiency of translation, the present invention provides a method of terminology recognition extraction. The program automatically analyzes the document, extracts professional terms, quickly matches the translation translation, improves the efficiency of the localizing interpreter and the accuracy of the translation. The invention improves the accuracy rate by identifying and extracting the terms repeatedly, and can accurately identify the terms combination terms of many terms.

【技术实现步骤摘要】
一种术语识别抽取方法及系统
本专利技术属于语言识别
,尤其涉及一种术语识别抽取方法及系统。
技术介绍
实际工作中发现,本地化译员在翻译文档时需要对文档中的专业术语进行手工筛选,然后再对其挨个进行专业翻译,工作过程中发现该操作不近程序繁琐而且耗时耗力,最重要的是要做很多重复性工作。现有技术本地化译员工作中,翻译效率低;准确性差。综上所述,现有技术存在的问题是:现有技术最主要的缺陷是在术语提取时,存在相邻术语的组合是一个整体术语的情况,在处理过后就把这个大的术语拆成了多个术语,但实际是一个术语,缺陷的原因在于只是对分词之后的单个词汇做了术语分析,没有考虑临近词之间的术语关系,难点在于通过计算临近词汇的关系来判定相邻词汇的组合是否是术语。而且现有技术不能通过术语提取算法,通过计算相邻术语权重的方式来判定相邻术语组成的字符串是否是一个术语。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种术语识别抽取方法及系统。本专利技术是这样实现的,一种术语识别抽取方法,所述术语识别抽取方法包括:对术语进行多次识别抽取;识别出多术语组合术语;匹配出翻译译文;并进行术语提取。进一步,所述专业术语识别抽取包括:a)准备:整理各语种各领域术语库、对应的翻译内容、语种及领域:b)领域的划分;c)操作领域和分词,通过词性标注算法对分词进行检测(分词之后对每个词通过词性标注算法进行词性标注,去除数词、量词、副词、介词、连词、助词、叹词等词性的词。),判断该分词是术语概率有多少,如果低,直接忽略,概率高的则保留;d)根据步骤c)产生的词汇,与所述语种、领域的术语库进行匹配(拿到产生的词汇挨个去术语库匹配查询是否存在),如果匹配,认定为术语,剩余的词汇进行下一步操作;e)步骤d)剩余的词汇,通过非术语词汇表,进行匹配过滤(拿到剩余的词汇挨个去非术词汇表查询是否存在,如果存在,那该词汇不属于术语),如果词汇存在非术语词汇表,认定该词汇不是术语;f)与术语库、非术语库的匹配,确定出两组数据:术语、非术语。g)将文档的术语、非术语数据通过术语提取方法重新再进行一次术语的提取。进一步,术语提取方法进一步包括:1)把给定的文本T按照完整句子进行分割(按照标点符号进行断句分割),T=[S1,S2,...,Sm];2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词(分词之后对每个词通过词性标注算法进行词性标注,去除数词、量词、副词、介词、连词、助词、叹词等词性的词。),Si=[ti,1,ti,2,...,ti,m],其中ti,j∈Sj是保留后的候选术语;3)构建候选术语图G=(V,E),其中V为节点集,由生成的所述候选术语组成;然后采用共现关系构造任两点之间的边(通过共现关系以当前词为中心构造出一个窗口,比如左右各移动两个词的距离,那这个窗口里面就存在了5个词),两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,最多共现K个单词;4)根据公式并结合庞大的语料库,迭代传播各节点的权重(在每个词的窗口内,依次计算该词跟窗口内每个词的权重关系),直至收敛;5)对节点权重进行倒序排序(按照权重大小进行倒叙排序,权重大的排在前面),得到最重要的T个单词,作为候选术语;6)由5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词术语;加入术语序列;7)确定出两组数据:术语、非术语;8)对两次术语处理产生的术语数据进行整合,排重,然后合并(两次术语处理之后得到两组结果,将两组结果合并,去除重复词语只留一个),最后得到所有术语。本专利技术的另一目的在于提供一种所述的术语识别抽取方法的语言翻译系统。本专利技术为改善本地化译员工作,提高翻译效率,现提供一种术语识别抽取方法,程序自动对文档进行分析,抽取专业术语,快速匹配出翻译译文,为本地化译员提高了工作效率,以及翻译的准确性,以前译员翻译一篇文章需要3天,现在1天就可以满足。本专利技术对术语进行多次识别抽取,提高准确率。本专利技术能准确识别多术语组合术语。附图说明图1是本专利技术实施例提供的术语识别抽取方法流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。现有技术最主要的缺陷是在术语提取时,存在相邻术语的组合是一个整体术语的情况,在处理过后就把这个大的术语拆成了多个术语,但实际是一个术语;而且现有技术不能通过术语提取算法,通过计算相邻术语权重的方式来判定相邻术语组成的字符串是否是一个术语。下面结合附图对本专利技术的应用原理作详细的描述。如图1所示,本专利技术实施例提供的术语识别抽取方法,包括:一)专业术语识别抽取:a)准备:整理各语种各领域术语库、对应的翻译内容、语种及领域:例如:计算机
的术语:苹果,对应的翻译内容可能为:AppleTechnolegy。b)食品领域的属于:苹果,对应的翻译内容可能为:applefruit;程序处理文档,对文档中的文本内容进行分词处理(剔除各种标点符号并分词)。c)操作领域和分词,通过词性标注算法对分词进行检测,判断该分词是术语概率有多少,如果低,直接忽略,概率高的则保留。d)根据步骤c)产生的词汇,与该语种、领域的术语库进行匹配,如果匹配上的,认定其为术语,剩余的词汇进行下一步操作。e)步骤d)剩余的词汇,通过非术语词汇表,进行匹配过滤,如果词汇存在非术语词汇表,则认定该词汇不是术语。f)经过前几步骤与术语库、非术语库的匹配可以确定出两组数据:术语、非术语;g)将文档的数据通过术语提取算法重新再进行一次术语的提取,步骤如下:术语提取算法:1)把给定的文本T按照完整句子进行分割,即T=[S1,S2,...,Sm]。2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,即Si=[ti,1,ti,2,...,ti,m],其中ti,j∈Sj是保留后的候选术语。3)构建候选术语图G=(V,E),其中V为节点集,由②生成的候选术语组成,然后采用共现关系构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。4)根据上面公式,并结合庞大的语料库,迭代传播各节点的权重,直至收敛。5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选术语。6)由5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词术语。例如,文本中有句子“Matlabcodeforplottingambiguityfunction”,如果“Matlab”和“code”均属于候选术语,则组合成“Matlabcode”加入术语序列。7)可以确定出两组数据:术语、非术语,其中术语组中包含了多个词语或者多个术语组成的术语。8)对两次术语处理产生的术语数据进行整合,排重,然后合并,最后得到本篇文章中的所有术语。下面结合具体实施例对本专利技术作进一步描述。本专利技术实施例提供的术语识别抽取方法,包括:1、测试数据:程序员是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不非常清楚,特别是在中国。软件从业人本文档来自技高网
...

【技术保护点】
1.一种术语识别抽取方法,其特征在于,所述术语识别抽取方法包括:对术语进行多次识别抽取;识别出多术语组合术语;匹配出翻译译文;并进行术语提取。

【技术特征摘要】
1.一种术语识别抽取方法,其特征在于,所述术语识别抽取方法包括:对术语进行多次识别抽取;识别出多术语组合术语;匹配出翻译译文;并进行术语提取。2.如权利要求1所述的术语识别抽取方法,其特征在于,所述专业术语识别抽取方法包括:a)准备:整理各语种各领域术语库、对应的翻译内容、语种及领域:b)领域的划分;c)操作领域和分词,通过词性标注算法对分词进行检测,判断该分词是术语概率有多少,如果低,直接忽略,概率高的则保留;d)根据步骤c)产生的词汇,与所述语种、领域的术语库进行匹配,如果匹配,认定为术语,剩余的词汇进行下一步操作;e)步骤d)剩余的词汇,通过非术语词汇表,进行匹配过滤,如果词汇存在非术语词汇表,认定该词汇不是术语;f)与术语库、非术语库的匹配,确定出两组数据:术语、非术语。g)将文档的术语、非术语数据通过术语提取方法重新再进行一次术语的提取。3.如权利要求1所述的术语识别抽取方法,其特征在于,所述专业术语识别抽取方法进一步包括:1)把给定的文本T按照完整句子进行分割,T=[S1,S2,...,Sm];2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,Si=[ti,1,ti,2,...,ti,m],其中ti,j∈Sj是保留后的候选术语;3)构建候选术语图G=(V,E),其中V为节点集,由生成的所述候选术语组成;然后采用共现关系构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,最多共现K个单词;4)根据上面公式,并结合庞大的语料库,迭代传播各节点的权重,直至收敛;5)对节点权...

【专利技术属性】
技术研发人员:王建华程国艮
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1