一种用于提升术语匹配性能的方法和装置、存储介质制造方法及图纸

技术编号:35029927 阅读:12 留言:0更新日期:2022-09-24 23:03
本发明专利技术公开一种用于提升术语匹配性能的方法和装置、存储介质,包括:根据数据库中的术语条目构建术语森林;将获取的待处理短语输入到所述术语森林中进行术语匹配。采用本发明专利技术的技术方案,以解决当数据量较大或请求频率增大时会加重数据库负担进而降低匹配性能的问题。时会加重数据库负担进而降低匹配性能的问题。时会加重数据库负担进而降低匹配性能的问题。

【技术实现步骤摘要】
一种用于提升术语匹配性能的方法和装置、存储介质


[0001]本专利技术属于术语匹配
法,涉及一种用于提升术语匹配性能的方法和装置、存储介质。

技术介绍

[0002]术语通常是由一个单词,或者几个单词组成的短语,是在特定学科领域或特定行业里用来表示概念的称谓的集合。术语匹配是翻译领域中比较常用到的翻译辅助方法,术语管理员不断收集术语并保存至数据库中,同时提供一种匹配算法,从存储的术语中识别出同输入句段里某些短语相匹配的术语集合,进而取得这些术语对应的译文,为翻译人员提供行业术语的标准译法。
[0003]由此可见,影响术语匹配性能的关键环节是原文的存储方式和匹配算法。术语的存储方式作为匹配算法的基础和依据,决定了匹配算法的计算性能。当术语数据库的数据量随着翻译业务逐渐增大,匹配算法的执行次数和内存开销就会增多。所以,术语的存储方式是影响匹配性能的重要因素。
[0004]传统做法,是先根据输入句段内容,从术语数据库中查询到可能匹配到的术语,然后将这些术语放到应用程序内存中,用匹配算法再次分析上述术语条目是否可以最终作为输入句段中某些短语的翻译参考。
[0005]这种存储方式和匹配算法,每一次请求都会去查询一遍数据库。随着数据库数据量的增加以及请求频率的增大,都会不断加大数据库的开销,降低数据库运行性能。同时数据量的增加会使得每次查询到的术语个数增多,算法分析并计算这些术语得到最终匹配结果时的效率也会降低。

技术实现思路

[0006]本专利技术要解决的技术问题是,本专利技术提供一种用于提升术语匹配性能的方法和装置、存储介质,以解决当数据量较大或请求频率增大时会加重数据库负担进而降低匹配性能的问题。
[0007]为实现上述目的。本专利技术采用如下的技术方案:
[0008]一种用于提升术语匹配性能的方法,包括以下步骤:
[0009]步骤S1、根据数据库中的术语构建术语森林;
[0010]步骤S2、将获取的待处理短语输入到所述术语森林中进行术语匹配。
[0011]作为优选,步骤S1包括:
[0012]步骤S10、将输入文本的术语进行分词,得到多个单词,所述输入文本为数据库中的术语;
[0013]步骤S11、识别所述输入文本中的单词是否已经构建到所述术语森林中;
[0014]步骤S12、如果所述输入文本的单词没有构建到所述术语森林中,则进行术语构建。
[0015]作为优选,步骤S11包括以下步骤:
[0016]步骤S111、获取从首部到第i位置的输入文本内容f
w

r
(i)以及同位置区间的所述术语森林中的术语内容f
t

r
(i);
[0017]步骤S112、如果所述f
w

r
(i)和所述f
t

r
(i)相等,则说明所述输入文本已经构建到所述术语森林中,进入下一个位置的术语识别f
c
(i+1),否则,将所述输入文本构建到所述术语森林中。
[0018]作为优选,在步骤S12术语构建中,当所述数据库中的术语无法在所述术语森林中识别到时,将所述数据库中的术语的当前位置一直到所述数据库中的术语最后单词之间的内容,构建到所述术语森林中当前位置之后。
[0019]本专利技术还提供一种用于提升术语匹配性能的装置,包括:
[0020]构建模块,用于根据数据库中的术语构建术语森林;
[0021]匹配模块,用于将获取的待处理短语输入到所述术语森林中进行术语匹配。
[0022]作为优选,构建模块包括:
[0023]分词单元,用于将输入文本的术语进行分词,得到多个单词,所述输入文本为数据库中的术语;
[0024]识别单元,用于识别所述输入文本中的单词是否已经构建到所述术语森林中;
[0025]构建单元,用于如果所述输入文本的单词没有构建到所述术语森林中,则进行术语构建。
[0026]作为优选,所述构建单元,还用于当所述数据库中的术语无法在所述术语森林中识别到时,将所述数据库中的术语的当前位置一直到所述数据库中的术语最后单词之间的内容,构建到所述术语森林中当前位置之后。
[0027]本专利技术还提供一种存储介质,所述存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现用于提升术语匹配性能的方法。
[0028]本专利技术将术语内容存储到系统内存中,相比从数据库中查询数据,从内存中处理数据的速度要快的多。数据库只负责收集和管理术语,也就是术语库的维护。系统会每天定时从术语数据库中读取最新术语,将内容构建到内存中,使用优化后的匹配算法,将输入句段同内存中的术语进行分析和匹配,识别出同某些
[0029]相匹配的术语集合。基于数据库查询,需要查询两条记录,同时处理两条记录的全部文本内容,基于术语森林查询,只需要查找根节点部分的单词内容,然后依照维护在内存里的关系顺延查找其他子节点,查找内容数量大量减少,需要处理的数据量减少。
附图说明
[0030]图1为本专利技术实施例提供一种用于提升术语匹配性能的方法的流程图;
[0031]图2为术语森林对单词的存储方式示意图;
[0032]图3为术语森林结构的示意图;
[0033]图4为输入文本识别过程示意图;
[0034]图5为术语创建过程示意图;
[0035]图6为术语森林中匹配多条术语示意图
[0036]图7为图形法说明匹配算法实现过程示意图。
具体实施方式
[0037]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0038]如图1所示,本专利技术实施例提供一种用于提升术语匹配性能的方法,包括以下步骤:
[0039]步骤S1、根据数据库中的术语构建术语森林;
[0040]步骤S2、将获取的待处理短语输入到所述术语森林中进行术语匹配。
[0041]作为本实施例的一种实施方式,所述术语森林概述如下:现实中的森林是由很多大树组成的,每颗大树是由一个树干和繁多的树枝组成的,每根树枝又可能生长出很多的树枝,如果从一条树枝开始规划路线,都可以顺延其他树枝直到树干。术语森林就模仿了这个生态结构,如果把术语的首部单词比作树干,后面的单词都比作树枝的话,那么术语森林对单词的存储方式如图2所示。术语森林通过按每个单词在其所属术语中的位置和内容为依据,将数据库中的全部术语整合到一套各元素之间存在隶属关系的单词节点集合中。为术语匹配算法提供数据依据。
[0042]所述术语森林的成员组成如下:
[0043]节点:即术语中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于提升术语匹配性能的方法,其特征在于,包括以下步骤:步骤S1、根据数据库中的术语构建术语森林;步骤S2、将获取的待处理短语输入到所述术语森林中进行术语匹配。2.如权利要求1所述的用于提升术语匹配性能的方法,其特征在于,步骤S1包括:步骤S10、将输入文本的术语进行分词,得到多个单词,所述输入文本为数据库中的术语;步骤S11、识别所述输入文本中的单词是否已经构建到所述术语森林中;步骤S12、如果所述输入文本的单词没有构建到所述术语森林中,则进行术语构建。3.如权利要求2所述的用于提升术语匹配性能的方法,其特征在于,步骤S11包括以下步骤:步骤S111、获取从首部到第i位置的输入文本内容f
w

r
(i)以及同位置区间的所述术语森林中的术语内容f
t

r
(i);步骤S112、如果所述f
w

r
(i)和所述f
t

r
(i)相等,则说明所述输入文本已经构建到所述术语森林中,进入下一个位置的术语识别f
c
(i+1),否则,将所述输入文本构建到所述术语森林中。4.如权利要求3所述的用于提...

【专利技术属性】
技术研发人员:郝顺平关祎宁
申请(专利权)人:沈阳创思佳业科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1