对多语言翻译语料进行存储、搜索和显示方法及装置制造方法及图纸

技术编号:36405679 阅读:10 留言:0更新日期:2023-01-18 10:14
本发明专利技术涉及一种对多语言翻译语料进行存储、搜索和显示方法及装置;方法包括:通过在浏览器界面上设置的语料输入窗口输入新增语料,并通过语料库后端服务将新增语料存储到Elasticsearch的索引中;通过在浏览器界面上设置的搜索过滤窗口输入搜索过滤条件,并通过语料库后端服务生成与搜索过滤条件对应的目标Elasticsearch DSL查询语句、查询方式以及查询路径;输出到Elasticsearch进行语料数据的搜索和排序,得到语料数据搜索结果;语料库后端服务根据Elasticsearch的搜索结果,将需显示的原—译文语料数据中的业务字段进行加工处理后,发送到浏览器的显示窗口中进行对齐显示。本发明专利技术可实现辅助翻译,提升译员们的效率。率。率。

【技术实现步骤摘要】
对多语言翻译语料进行存储、搜索和显示方法及装置


[0001]本专利技术属于智能搜索
以及自然语言处理领域,具体涉及一种对多语言翻译语料进行存储、搜索和显示方法及装置。

技术介绍

[0002]在翻译译员们进行语音翻译时,需要从自己以前翻译过的文本或其他译员历史工作中找到相关的翻译语料数据进行参考,以提升翻译的效率。因此,在翻译工作中,帮助翻译译员们存储记忆自己或其他译员们之前曾经翻译过的语料数据,并在需要参考时,能够快速查找到相关语料数据并形成原文和译文的对照显示的方法及装置成为一种需求。
[0003]并且,通常存储的原文和译文语料为包含多个句子的段落语料。并且由于不同语种的表达方式不同,存在原文句与译文句不能直接对应的情况。在进行原文和译文显示时,如果原文句和译文句不能直接对照显示,就需译员自己进行原文句和相应的译文句人工查询。会增加译员的工作量,降低翻译效率。

技术实现思路

[0004]鉴于上述的分析,本专利技术旨在公开了一种对多语言翻译语料进行存储、搜索和显示方法及装置,以实现辅助翻译,提升译员们翻译效率。
[0005]本专利技术公开了一种对多语言翻译语料进行存储、搜索和显示方法,包括以下步骤:语料数据存储步骤;通过在浏览器界面上设置的语料输入窗口输入新增语料,并通过语料库后端服务将新增语料存储到Elasticsearch的索引中;所述新增语料为成段的、包括原文和与原文对应的至少一种语种译文的原—译文语料;语料数据搜索步骤;通过在浏览器界面上设置的搜索过滤窗口输入搜索过滤条件,生成与搜索过滤条件对应的目标Elasticsearch DSL查询语句、查询方式以及查询路径;输出到Elasticsearch进行语料数据的搜索和排序,得到语料数据搜索结果;搜索结果处理显示步骤:语料库后端服务根据Elasticsearch的搜索结果,将需显示的原—译文语料数据中的业务字段进行加工处理后,发送到客户端浏览器中进行对齐显示;在对齐显示中,原文和译文之间保持逐句对齐。
[0006]进一步地,所述语料数据存储步骤,包括:步骤S101、通过浏览器界面的语料输入窗口发起新增语料请求;输入包括语料的原文、译文、年份、出处和领域在内的新增语料的属性信息;步骤S102、浏览器将新增语料请求发送至语料库后端服务;步骤S103、语料库后端服务收到请求后,解析得到新增语料的属性信息;并判断出新增语料的原文语言,根据原文语言进行分词预处理后,存储到Elasticsearch的索引中。
[0007]进一步地,对于一对一单语种翻译的新增语料,在Elasticsearch的索引结构中具体的字段包含:原文文本、译文文本、翻译语言方向、语料类型、权威等级、专业领域ID、出处、年份、上传者ID、语料权限、创建时间unix时间戳、更新时间unix时间戳。
[0008]进一步地,对于一对N的多语种翻译的新增语料,在Elasticsearch的索引结构中具体的字段包含:原文文本、第1译文文本、

、第i译文文本、

、第N译文文本、翻译语言方向、语料类型、权威等级、专业领域ID、出处、年份、上传者ID、语料权限、创建时间unix时间戳、更新时间unix时间戳。
[0009]进一步地,所述语料数据搜索步骤,包括:步骤S201、通过在浏览器界面上设置的搜索过滤窗口输入搜索关键词以及包括年份、出处和权威等级在内的搜索过滤条件,点击“搜索”按钮后,浏览器将搜索请求发送至语料库后端服务;步骤S202、语料库后端服务收到请求后,解析得到搜索关键词以及搜索过滤条件,并进行预处理,拼接组合得到目标Elasticsearch DSL查询语句、查询方式以及查询路径;步骤S203、利用RestClient组件与Elasticsearch建立查询连接;步骤S204、建立连接后,将拼接好的Elasticsearch DSL查询语句,以及查询方式和查询路径发送给Elasticsearch;步骤S205、然后Elasticsearch根据指定的DSL查询语句、查询方式和查询路径进行数据搜索,并将搜索到的目标数据通过RestClient组件之间的连接返回给语料库后端服务。
[0010]进一步地,在后端服务拼接Elasticsearch DSL查询语句时,对于用户输入的原文查询关键词,会设置成将完全匹配的数据进行提取,使之尽可能排在前面,其余模糊匹配的搜索结果,按默认的BM25排序算法计算出的相关行分值进行排序;当包括年份、权威等级和语料类型在内的搜索过滤项,拼接DSL查询语句时,将所述搜索过滤项转换成TermQuery方式进行布尔查询过滤。
[0011]进一步地,在搜索结果处理显示步骤中,原文和译文的逐句对齐显示的方法包括:步骤S301、将搜索结果中的译文文本根据标点符号逐句翻译,形成与译文文本句对齐的第二原文文本;步骤S302、将翻译的第二原文文本与原文文本进行滑动窗口相似度匹配;实现第二原文文本和原文文本的句匹配对齐;步骤S303、根据译文文本和第二原文文本的对齐关系,以及第二原文文本和原文文本的句匹配对齐关系,将译文文本与原文文本逐句对齐显示。
[0012]进一步地,所述步骤S302中,基于鸽巢原理,对于滑动窗口相似度匹配中第二原文文本与原文文本中相似度最高的部分进行组合拆分;实现第二原文文本和原文文本的句匹配对齐。
[0013]进一步地,滑动窗口相似度匹配和基于鸽巢原理的组合拆分过程包括:1)将第二原文文本和原文文本分别进行分词得到一系列相互独立的词语;根据词语对文档的重要程度对每个词语赋以一个权值以表示该词的权重;得到分词后的文本表示;2)将进行分词和赋以权重的第二原文文本和原文文本输入到基于神经网络的滑窗模型中,进行相似度匹配,得到词与词之间的相似度值;3)基于鸽巢原理,对于滑动窗口相似度匹配中第二原文文本与原文文本中相似度最高的部分进行组合拆分和对齐;
本专利技术还公开了一种对多语言翻译语料进行存储、搜索和显示装置,包括用户端、语料库和语料库后端服务;所述用户端为Web浏览器,通过Web浏览器向用户提供语料输入窗口、搜索过滤窗口和语料显示窗口;所述语料输入窗口为语料数据存储时的输入窗口,所述搜索过滤窗口为语料数据搜索时的输入窗口,所述语料显示窗口为对搜索结果处理后的显示窗口;所述语料库包括Elasticsearch和MySQL关系型数据库;其中,Elasticsearch用于存放语料数据,MySQL关系型数据库用于存放与语料数据相关的包括用户信息和语料专业领域在内的业务数据;所述语料库后端服务,用于在语料数据存储时,将通过在浏览器界面上设置的语料输入窗口输入新增语料存储到Elasticsearch的索引中;在语料数据搜索时,将通过在浏览器界面上设置的搜索过滤窗口输入搜索过滤条件,生成与搜索过滤条件对应的目标Elasticsearch DSL查询语句、查询方式以及查询路径,输出到Elasticsearch进行语料数据的搜索和排序,得到语料数据搜索结果;在搜索结果显示时,根据Elastics本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对多语言翻译语料进行存储、搜索和显示方法,其特征在于,包括以下步骤:语料数据存储步骤;通过在浏览器界面上设置的语料输入窗口输入新增语料,并通过语料库后端服务将新增语料存储到Elasticsearch的索引中;所述新增语料为成段的多语言翻译语料,包括原文文本和与原文对应的至少一种语种译文本;语料数据搜索步骤;通过在浏览器界面上设置的搜索过滤窗口输入搜索过滤条件,并通过语料库后端服务生成与搜索过滤条件对应的目标Elasticsearch DSL查询语句、查询方式以及查询路径;输出到Elasticsearch进行语料数据的搜索和排序,得到语料数据搜索结果;搜索结果处理显示步骤:语料库后端服务根据Elasticsearch的搜索结果,将需显示的原—译文语料数据中的业务字段进行加工处理后,发送到浏览器的显示窗口中进行对齐显示;在对齐显示中,原文和译文之间保持逐句对齐。2.根据权利要求1所述的对多语言翻译语料进行存储、搜索和显示方法,其特征在于,所述语料数据存储步骤,包括:步骤S101、通过浏览器界面的语料输入窗口发起新增语料请求;输入包括语料的原文、译文、年份、出处和领域在内的新增语料的属性信息;步骤S102、浏览器将新增语料请求发送至语料库后端服务;步骤S103、语料库后端服务收到请求后,解析得到新增语料的属性信息;并判断出新增语料的原文语言,根据原文语言进行分词预处理后,存储到Elasticsearch的索引中。3.根据权利要求2所述的对多语言翻译语料进行存储、搜索和显示方法,其特征在于,对于一对一单语种翻译的新增语料,在Elasticsearch的索引结构中具体的字段包含:原文文本、译文文本、翻译语言方向、语料类型、权威等级、专业领域ID、出处、年份、上传者ID、语料权限、创建时间unix时间戳、更新时间unix时间戳。4.根据权利要求2所述的对多语言翻译语料进行存储、搜索和显示方法,其特征在于,对于一对N的多语种翻译的新增语料,在Elasticsearch的索引结构中具体的字段包含:原文文本、第1译文文本、

、第i译文文本、

、第N译文文本、翻译语言方向、语料类型、权威等级、专业领域ID、出处、年份、上传者ID、语料权限、创建时间unix时间戳、更新时间unix时间戳。5.根据权利要求1所述的对多语言翻译语料进行存储、搜索和显示方法,其特征在于,所述语料数据搜索步骤,包括:步骤S201、通过在浏览器界面上设置的搜索过滤窗口输入搜索关键词以及包括年份、出处和权威等级在内的搜索过滤条件,点击“搜索”按钮后,浏览器将搜索请求发送至语料库后端服务;步骤S202、语料库后端服务收到请求后,解析得到搜索关键词以及搜索过滤条件,并进行预处理,拼接组合得到目标Elasticsearch DSL查询语句、查询方式以及查询路径;步骤S203、利用RestClient组件与Elasticsearch建立查询连接;步骤S204、建立连接后,将拼接好的Elasticsearch DSL查询语句,以及查询方式和查询路径发送给Elasticsearch;步骤S205、然后Elasticsearch根据指定的DSL查询语句、查询方式和查询路径进行数据搜索,并将搜索到的目标数据通过RestClient组件之间的连接返回给...

【专利技术属性】
技术研发人员:胡博林凡林刘雨钦梁延肇邹吉明
申请(专利权)人:墨责北京科技传播有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1