一种用于提升术语匹配性能的方法和装置、存储介质制造方法及图纸

技术编号：35029927 阅读：12 留言：0更新日期：2022-09-24 23:03

本发明专利技术公开一种用于提升术语匹配性能的方法和装置、存储介质，包括：根据数据库中的术语条目构建术语森林；将获取的待处理短语输入到所述术语森林中进行术语匹配。采用本发明专利技术的技术方案，以解决当数据量较大或请求频率增大时会加重数据库负担进而降低匹配性能的问题。时会加重数据库负担进而降低匹配性能的问题。时会加重数据库负担进而降低匹配性能的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于提升术语匹配性能的方法和装置、存储介质

[0001]本专利技术属于术语匹配
法，涉及一种用于提升术语匹配性能的方法和装置、存储介质。

技术介绍

[0002]术语通常是由一个单词，或者几个单词组成的短语，是在特定学科领域或特定行业里用来表示概念的称谓的集合。术语匹配是翻译领域中比较常用到的翻译辅助方法，术语管理员不断收集术语并保存至数据库中，同时提供一种匹配算法，从存储的术语中识别出同输入句段里某些短语相匹配的术语集合，进而取得这些术语对应的译文，为翻译人员提供行业术语的标准译法。
[0003]由此可见，影响术语匹配性能的关键环节是原文的存储方式和匹配算法。术语的存储方式作为匹配算法的基础和依据，决定了匹配算法的计算性能。当术语数据库的数据量随着翻译业务逐渐增大，匹配算法的执行次数和内存开销就会增多。所以，术语的存储方式是影响匹配性能的重要因素。
[0004]传统做法，是先根据输入句段内容，从术语数据库中查询到可能匹配到的术语，然后将这些术语放到应用程序内存中，用匹配算法再次分析上述术语条目是否可以最终作为输入句段中某些短语的翻译参考。
[0005]这种存储方式和匹配算法，每一次请求都会去查询一遍数据库。随着数据库数据量的增加以及请求频率的增大，都会不断加大数据库的开销，降低数据库运行性能。同时数据量的增加会使得每次查询到的术语个数增多，算法分析并计算这些术语得到最终匹配结果时的效率也会降低。

技术实现思路

[0006]本专利技术要解决的技术问题是，本专利技术提供一...

【技术保护点】

【技术特征摘要】
1.一种用于提升术语匹配性能的方法，其特征在于，包括以下步骤：步骤S1、根据数据库中的术语构建术语森林；步骤S2、将获取的待处理短语输入到所述术语森林中进行术语匹配。2.如权利要求1所述的用于提升术语匹配性能的方法，其特征在于，步骤S1包括：步骤S10、将输入文本的术语进行分词，得到多个单词，所述输入文本为数据库中的术语；步骤S11、识别所述输入文本中的单词是否已经构建到所述术语森林中；步骤S12、如果所述输入文本的单词没有构建到所述术语森林中，则进行术语构建。3.如权利要求2所述的用于提升术语匹配性能的方法，其特征在于，步骤S11包括以下步骤：步骤S111、获取从首部到第i位置的输入文本内容f
w
‑
r
(i)以及同位置区间的所述术语森林中的术语内容f
t
‑
r
(i)；步骤S112、如果所述f
w
‑
r
(i)和所述f
t
‑
r
(i)相等，则说明所述输入文本已经构建到所述术语森林中，进入下一个位置的术语识别f
c
(i+1)，否则，将所述输入文本构建到所述术语森林中。4.如权利要求3所述的用于提...

【专利技术属性】
技术研发人员：郝顺平，关祎宁，
申请(专利权)人：沈阳创思佳业科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人