一种术语识别抽取方法及系统技术方案

技术编号：18458692 阅读：16 留言：0更新日期：2018-07-18 12:39

本发明专利技术属于语言识别技术领域，公开了一种术语识别抽取方法及系统，包括：对术语进行多次识别抽取；识别出多术语组合术语；匹配出翻译译文；并进行术语提取。本发明专利技术为改善本地化译员工作，提高翻译效率，提供一种术语识别抽取方法，程序自动对文档进行分析，抽取专业术语，快速匹配出翻译译文，为本地化译员提高了工作效率，以及翻译的准确性。本发明专利技术对术语进行多次识别抽取，提高准确率；能准确识别多术语组合术语。

A method and system for terms recognition and extraction

The present invention belongs to the field of language recognition technology, and discloses a method and system for recognition and extraction of terminology, including multiple recognition and extraction of terminology, recognition of terminology combination terms, matching translation translations, and terminology extraction. In order to improve the work of localizing interpreters and improve the efficiency of translation, the present invention provides a method of terminology recognition extraction. The program automatically analyzes the document, extracts professional terms, quickly matches the translation translation, improves the efficiency of the localizing interpreter and the accuracy of the translation. The invention improves the accuracy rate by identifying and extracting the terms repeatedly, and can accurately identify the terms combination terms of many terms.

全部详细技术资料下载

【技术实现步骤摘要】
一种术语识别抽取方法及系统
本专利技术属于语言识别
，尤其涉及一种术语识别抽取方法及系统。
技术介绍
实际工作中发现，本地化译员在翻译文档时需要对文档中的专业术语进行手工筛选，然后再对其挨个进行专业翻译，工作过程中发现该操作不近程序繁琐而且耗时耗力，最重要的是要做很多重复性工作。现有技术本地化译员工作中，翻译效率低；准确性差。综上所述，现有技术存在的问题是：现有技术最主要的缺陷是在术语提取时，存在相邻术语的组合是一个整体术语的情况，在处理过后就把这个大的术语拆成了多个术语，但实际是一个术语，缺陷的原因在于只是对分词之后的单个词汇做了术语分析，没有考虑临近词之间的术语关系，难点在于通过计算临近词汇的关系来判定相邻词汇的组合是否是术语。而且现有技术不能通过术语提取算法，通过计算相邻术语权重的方式来判定相邻术语组成的字符串是否是一个术语。
技术实现思路
针对现有技术存在的问题，本专利技术提供了一种术语识别抽取方法及系统。本专利技术是这样实现的，一种术语识别抽取方法，所述术语识别抽取方法包括：对术语进行多次识别抽取；识别出多术语组合术语；匹配出翻译译文；并进行术语提取。进一步，所述专业术语识别抽取包括：a)准备：整理各语种各领域术语库、对应的翻译内容、语种及领域：b)领域的划分；c)操作领域和分词，通过词性标注算法对分词进行检测(分词之后对每个词通过词性标注算法进行词性标注，去除数词、量词、副词、介词、连词、助词、叹词等词性的词。)，判断该分词是术语概率有多少，如果低，直接忽略，概率高的则保留；d)根据步骤c)产生的词汇，与所述语种、领域的术语库进行匹配(拿到产...

【技术保护点】
1.一种术语识别抽取方法，其特征在于，所述术语识别抽取方法包括：对术语进行多次识别抽取；识别出多术语组合术语；匹配出翻译译文；并进行术语提取。

【技术特征摘要】
1.一种术语识别抽取方法，其特征在于，所述术语识别抽取方法包括：对术语进行多次识别抽取；识别出多术语组合术语；匹配出翻译译文；并进行术语提取。2.如权利要求1所述的术语识别抽取方法，其特征在于，所述专业术语识别抽取方法包括：a)准备：整理各语种各领域术语库、对应的翻译内容、语种及领域：b)领域的划分；c)操作领域和分词，通过词性标注算法对分词进行检测，判断该分词是术语概率有多少，如果低，直接忽略，概率高的则保留；d)根据步骤c)产生的词汇，与所述语种、领域的术语库进行匹配，如果匹配，认定为术语，剩余的词汇进行下一步操作；e)步骤d)剩余的词汇，通过非术语词汇表，进行匹配过滤，如果词汇存在非术语词汇表，认定该词汇不是术语；f)与术语库、非术语库的匹配，确定出两组数据：术语、非术语。g)将文档的术语、非术语数据通过术语提取方法重新再进行一次术语的提取。3.如权利要求1所述的术语识别抽取方法，其特征在于，所述专业术语识别抽取方法进一步包括：1)把给定的文本T按照完整句子进行分割，T＝[S1，S2，...，Sm]；2)对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，Si＝[ti,1，ti,2，...，ti,m]，其中ti,j∈Sj是保留后的候选术语；3)构建候选术语图G＝(V,E)，其中V为节点集，由生成的所述候选术语组成；然后采用共现关系构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，最多共现K个单词；4)根据上面公式，并结合庞大的语料库，迭代传播各节点的权重，直至收敛；5)对节点权...

【专利技术属性】
技术研发人员：王建华，程国艮，
申请(专利权)人：中译语通科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人