一种平行语料的获取储存装置及方法制造方法及图纸

技术编号:35834956 阅读:19 留言:0更新日期:2022-12-03 14:05
本发明专利技术涉及机器翻译技术领域,具体为一种平行语料的获取储存装置及方法,包括:一种电子设备,包括存储器、处理器及存储在储存器上并可在计算机上运行的计算机程序,其特征在于,所述程序通过执行一种系统而建立对于获取的双语文本进行精度检索并收录的方法。本发明专利技术方法系统通过对搭载装置上建立一种系统,进而通过对获取的文本进行预处理,再通过对其进行语句集拆分,从而建立双向对标检测,从而完成整个文本的精度确认,使得系统能够将获取的文本进行筛选从而获得高质量平行语料库,并通过平行语料库对后续获取的文本进行反馈检测,进而使得语料库逐步扩充,以达到正向反馈的目的。的。的。

【技术实现步骤摘要】
一种平行语料的获取储存装置及方法


[0001]本专利技术涉及机器翻译
,具体为一种平行语料的获取储存装置及方法。

技术介绍

[0002]平行语料是由原文文本及其平行对应的译语文本构成的双语或者多语语料库,其对齐程度可有词级、句级、段级和篇级几种。
[0003]对于平行语料的运用主要在于机器翻译的学习,其主要用于对翻译系统进行深度学习,进而提供更加准确的翻译效果,但目前的高质量平行语料在获取上较为困难,而在网络上所获取的翻译文本材料不具备高度的准确性,从而使得翻译系统达不到良好的正向反馈结果,因此亟需设计一种平行语料的获取储存装置及方法来解决上述问题。

技术实现思路

[0004]本专利技术的目的在于提供一种平行语料的获取储存装置及方法,以解决上述
技术介绍
中提出的目前的高质量平行语料在获取上较为困难,而在网络上所获取的翻译文本材料不具备高度的准确性,从而使得翻译系统达不到良好的正向反馈结果的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:包括:一种电子设备,包括存储器、处理器及存储在储存器上并可在计算机上运行的计算机程序,其特征在于,所述程序通过执行一种系统而建立对于获取的双语文本进行精度检索并收录的方法,所述系统包括获取端、数据处理端、数据分析端和存储端。
[0006]优选的,所述获取端主要进行地址索引工作和文本收集工作,其具体为对语言翻译文本网站进行索引,并进行大范围与量度的收集,以此而获得大量的双语平行语料文本,并使其传递至后端程序进行进一步处理。/>[0007]优选的,所述数据处理端主要进行文本格式降噪工作、文本语种辩识工作以及语句集分离工作,其具体为对获取端所获取的高量度文本进行批量化格式降噪,并且对其内容进行语种识别并进行语句集分离,以此而获得第一语句集和第二语句集,并将双语语句集传递至后续程序中进行进一步处理。
[0008]优选的,所述数据分析端分为两种执行状态,所述两种执行状态分别为一级执行和二级执行,所述一级执行的优先度高于二级执行,所述一级执行状态中主要进行句节拆分工作、词汇对齐工作以及词汇标记工作,具体为对于数据处理端所传递的第一语句集和第二语句集进行句节拆分,并进行句子中词汇的对齐以及对认定词汇进行标记。
[0009]优选的,所述词汇对齐工作主要为对数据处理端所传递的第一语句集和第二语句集进行相应词汇的对齐,所述词汇标记工作主要为对词汇对齐工作所完全对齐的词汇进行标记,并以标记词汇作为参照点,以使数据分析端能够进行后续的二级执行状态。
[0010]优选的,所述二级执行状态主要进行全文检索工作、词汇对标工作以及阈值放大工作,其具体为对数据分析端的一级执行状态所执行的工作结果进行进一步地加工处理,所述全文检索表示对所获取的文本内容进行通篇检索,从而获得所有词汇在文中所出现的
比例数据,进而对一级执行状态所标记的词汇进行比对。
[0011]优选的,所述词汇对标工作存在一种判定机制,其判定关键词为对词汇对标完成进行判定,当判定结果为词汇对标全部完成时,数据分析端将对语句集执行存储端的传递工作,当词汇对标为全部完成时,其数据分析端将进而执行阈值放大工作,所述阈值放大工作为对系统所设定的阈值进行逐级式放大,具体为对双语语句集中对应词汇在文中所出现的比例数据相似度阈值进行放大,从而进行进一步的二级执行工作。
[0012]优选的,所述存储端主要进行句式整理工作以及语料收录工作,其具体为当数据分析端的二级执行状态完全结束后,对执行状态所标记的语句集进行格式整理,进而将其进行长效存储。
[0013]与现有技术相比,本专利技术的有益效果是:
[0014]1、本专利技术方法系统通过对搭载装置上建立一种系统,从而对全网络的翻译文本进行获取,进而通过对获取的文本进行预处理,再通过对其进行语句集拆分,从而建立双向对标检测,通过对检测结果施行循环判定与阈值放大工作,从而完成整个文本的精度确认,使得系统能够将获取的文本进行筛选从而获得高质量平行语料库,并通过平行语料库对后续获取的文本进行反馈检测,进而使得语料库逐步扩充,以达到正向反馈的目的。
附图说明
[0015]图1为本专利技术的系统方法流程示意图;
具体实施方式
[0016]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清除、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]请参阅图1,本专利技术提供的一种实施例:
[0018]一种平行语料的获取储存装置及方法,包括:一种电子设备,包括存储器、处理器及存储在储存器上并可在计算机上运行的计算机程序,其特征在于,所述程序通过执行一种系统而建立对于获取的双语文本进行精度检索并收录的方法,所述系统包括获取端、数据处理端、数据分析端和存储端,此种方法通过在电子设备上建立一种系统程序,使其实现对网址进行索引,从而获得大量的双语翻译文本,并通过对文本进行预处理以及后续的检测处理工作,以达到对高量度文本库的筛选工作,从而帮助装置最终获得精度更高的平行语料,并使其收录在语料库中进行存储。
[0019]进一步的,所述获取端主要进行地址索引工作和文本收集工作,其具体为对语言翻译文本网站进行索引,并进行大范围与量度的收集,以此而获得大量的双语平行语料文本,并使其传递至后端程序进行进一步处理,通过获取端对网络地址的大范围索引,从而使得装置能够获得大量的翻译文本进行筛选检测,此种方式保证了装置对于平行语料的收集工作处于最大化状态,使得后期通过处理筛选能够最大程度获取到高准确度的平行语料。
[0020]进一步的,所述数据处理端主要进行文本格式降噪工作、文本语种辩识工作以及语句集分离工作,其具体为对获取端所获取的高量度文本进行批量化格式降噪,并且对其
内容进行语种识别并进行语句集分离,以此而获得第一语句集和第二语句集,并将双语语句集传递至后续程序中进行进一步处理,通过数据处理端对获取的高量度文本库进行批量的格式降噪,使得其能够被后续的端口进行执行分析,通过对文本的语种辩识,保证其能够根据语种对原文本进行句集分离,并能够根据语种在后期建立不同的平行语料库,以达到装置的高范度收集,通过对语句集进行分离从而为后续的句节拆分提供条件。
[0021]进一步的,所述数据分析端分为两种执行状态,所述两种执行状态分别为一级执行和二级执行,所述一级执行的优先度高于二级执行,所述一级执行状态中主要进行句节拆分工作、词汇对齐工作以及词汇标记工作,具体为对于数据处理端所传递的第一语句集和第二语句集进行句节拆分,并进行句子中词汇的对齐以及对认定词汇进行标记,根据数据分析端对双语语句集进行分离,并使其以标点符号为划分点进行拆分,从而将语句集拆分成为句节,根据句节的对应关系从而更加容易使得内部的词汇进行对应,以达到高准度的检测筛选效果。
[0022]进一步的,所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种平行语料的获取储存装置及方法,其特征在于,包括:一种电子设备,包括存储器、处理器及存储在储存器上并可在计算机上运行的计算机程序,其特征在于,所述程序通过执行一种系统而建立对于获取的双语文本进行精度检索并收录的方法,所述系统包括获取端、数据处理端、数据分析端和存储端。2.根据权利要求1所述的一种平行语料的获取储存装置及方法,其特征在于:所述获取端主要进行地址索引工作和文本收集工作,其具体为对语言翻译文本网站进行索引,并进行大范围与量度的收集,以此而获得大量的双语平行语料文本,并使其传递至后端程序进行进一步处理。3.根据权利要求1所述的一种平行语料的获取储存装置及方法,其特征在于:所述数据处理端主要进行文本格式降噪工作、文本语种辩识工作以及语句集分离工作,其具体为对获取端所获取的高量度文本进行批量化格式降噪,并且对其内容进行语种识别并进行语句集分离,以此而获得第一语句集和第二语句集,并将双语语句集传递至后续程序中进行进一步处理。4.根据权利要求1所述的一种平行语料的获取储存装置及方法,其特征在于:所述数据分析端分为两种执行状态,所述两种执行状态分别为一级执行和二级执行,所述一级执行的优先度高于二级执行,所述一级执行状态中主要进行句节拆分工作、词汇对齐工作以及词汇标记工作,具体为对于数据处理端所传递的第一语句集和第二语句集进行句节拆分,并进行句子中词汇的对齐以及对认定词汇进行标记。5.根据权利要求4所述的一种平行语料的获取...

【专利技术属性】
技术研发人员:符甜
申请(专利权)人:火星语盟深圳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1