确定互译文本及文本间相似度分析方法、装置及设备制造方法及图纸

技术编号:23470972 阅读:33 留言:0更新日期:2020-03-06 12:55
本公开提出了一种确定互译文本及文本间相似度分析方法、装置及设备。获取第一文本集合和第二文本集合,第一文本集合使用第一语言编写且被翻译为第二语言,第二文本集合使用第二语言编写,第一文本集合和第二文本集合均包括多个文本,文本中包括多个字或词;分别以第一文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第一索引;分别以第二文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第二索引;将第一索引和第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及基于文本对的出现次数,确定属于互译关系的文本。由此,可以减少计算量,提高互译文本的识别效率。

Methods, devices and equipment for determining the similarity between translated texts and texts

【技术实现步骤摘要】
确定互译文本及文本间相似度分析方法、装置及设备
本公开涉及互联网
,特别是涉及一种确定互译文本及文本间相似度分析方法、装置及设备。
技术介绍
机器翻译技术是指使用计算机等计算设备将一种自然语言(一般称为源语言)的原文翻译为另一种自然语言(一般称为目标语言)的译文的技术。主要是由训练好的机器翻译模型实现自动翻译,因此与人工翻译相比,可以以相对短的时间处理大量的翻译工作。语料是机器翻译模型的训练数据,无论是统计机器翻译(SMT),还是神经网络机器翻译(NMT)都极端依赖于语料数据。在机器翻译中,多语种的支持、每个语言方向翻译质量的优劣,都与语料数据的规模和质量息息相关。这里述及的语料通常指的是大规模双语种的语句对集合。目前,主要通过如下3种方式获取这种语料数据。1.直接购买。成本很高,买到的语料和机器翻译中需要的数据会有一定的差异,并且不是每个语种方向都有,尤其是小语种。2.找人工译员制作。能获得较高质量的语料,但成本非常高,生产的量级几乎达不到机器翻译需要的规模。3.从互联网上下载/挖掘。网络上存在大量多语言网站,比如苹果官网(https://www.apple.com/choose-your-country/),这类多语言网站上有很多语言的网页版本,并且其中很多内容是互为翻译的,因此可以抓取这些数据形成双语语料。在实际应用中,通常是采用以上三种方案来获取较为丰富的语料。其中,第1、第2种方式比较简单,在通过第3种方式获取语料时比较复杂,存在网页自动对齐问题。>具体来说,对于互联网上的多语言网站,首先可以通过爬虫将其各个语种分站的所有网页抓取下来。在获得不同语种分站网页后,需要挖掘(识别)出互为翻译的网页,这一步便称作“网页自动对齐”。最后,在互译的两个网页中,可以抽取出双语句对,最终形成双语句对库,作为机器翻译的语料。可见,在通过第3种方式获取语料时,如何快速确定互译文本,以实现网页自动对齐,是方案实现的关键。
技术实现思路
本公开的一个目的在于,提供一种能够快速确定互译文本的方案。根据本公开的第一个方面,提出了一种确定互译文本的方法,包括:获取第一文本集合和第二文本集合,第一文本集合使用第一语言编写且被翻译为第二语言,第二文本集合使用第二语言编写,第一文本集合和第二文本集合均包括多个文本,多个文本中包括多个字或词;分别以第一文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第一索引;分别以第二文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第二索引;将第一索引和第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及基于文本对的出现次数,确定属于互译关系的文本。可选地,文本对中的两个文本标识符所对应的文本分属于不同的文本集合。可选地,出现次数为文本对中的两个文本具有相同键的个数。可选地,确定属于互译关系的文本的步骤包括:对于第一文本,将出现次数最多的第一文本对中的第二文本,确定为该第一文本对应的使用第一语言编写的文本的互译文本,其中,第一文本对为包含该第一文本的文本对,第一文本为第一文本集合中的文本,第二文本为第二文本集合中的文本;以及/或者对于第二文本,将出现次数最多的第二文本对中的第一文本对应的使用第一语言编写的文本,确定为该第二文本的互译文本,其中,第二文本对为包含该第二文本的文本对。可选地,确定属于互译关系的文本对的步骤包括:对于第一文本,将出现次数最多的第一预定数量个第一文本对中的第二文本,作为该第一文本的候选文本集合,其中,第一文本对为包含该第一文本的文本对,第一文本为第一文本集合中的文本,第二文本为第二文本集合中的文本;计算候选文本集合中每个第二文本与第一文本之间的相似度;以及选取相似度最大的第二文本作为该第一文本对应的使用第一语言编写的文本的互译文本。可选地,确定属于互译关系的文本的步骤包括:对于第二文本,依据出现次数排名,将出现次数最多的第二预定数量个第二文本对中的第一文本,作为该第二文本的候选文本集合,其中,第二文本对为包含该第二文本的文本对,第一文本为第一文本集合中的文本,第二文本为第二文本集合中的文本;计算候选文本集合中每个第一文本与第二文本之间的相似度;以及选取相似度最大的第一文本,将该第一文本对应的使用第一语言编写的文本作为第二文本的互译文本。可选地,该方法还包括:从多语言网站获取不同语言的网页文本,其中,第一文本集合中的文本是从多语言网站获取的第一语言的网页文本对应第二语言的翻译文本,第二文本集合中的文本是从多语言网站获取的第二语言的网页文本。可选地,该方法还包括:去除第一文本集合中的停用词和/或高频用词;以及/或者去除第二文本集合中的停用词和/或高频用词。可选地,该方法还包括:为各个字或词分别设定权重,其中,确定属于互译关系的文本的步骤包括:基于文本对的出现次数及每次出现时对应的字或词的权重,确定属于互译关系的文本。可选地,确定属于互译关系的文本的步骤包括:计算各个文本对在每次出现时对应的字或词的权重之和,以得到各个文本对的权重值;基于文本对的权重值,确定属于互译的文本。根据本公开的第二个方面,还提供了一种确定互译文本的方法,包括:获取第一文本集合和第二文本集合,第一文本集合使用第一语言编写且被翻译为第三语言,第二文本集合使用第二语言编写且被翻译为第三语言,第一文本集合和第二文本集合包括多个第二文本,多个文本中包括多个字或词;分别以第一文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第一索引;分别以第二文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第二索引;将第一索引和第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及基于文本对的出现次数,确定属于互译关系的文本。根据本公开的第三个方面,还提供了一种文本间相似度的分析方法,包括:获取文本集合,文本集合包括多个文本,多个文本中包括多个字或词;分别以文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建索引;将索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及基于文本对的出现次数,确定该文本对中两个文本之间的相似度,其中,相似度与出现次数正相关。根据本公开的第四个方面,还提供了一种确定互译文本的装置,包括:获取模块,用于获取第一文本集合和第二文本集合,第一文本集合使用第一语言编写且被翻译为第二语言,第二文本集合使用第二语言编写,第一文本集合和第二文本集合均包括多个文本,多个文本中包括多个字或词;第一构建模块,用于分别以第一文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第一索引;第二构建模块,用于分别以第二文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第二索引;统计模块,将第一索引和第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及确定模块,用于本文档来自技高网...

【技术保护点】
1.一种确定互译文本的方法,包括:/n获取第一文本集合和第二文本集合,所述第一文本集合使用第一语言编写且被翻译为第二语言,所述第二文本集合使用第二语言编写,所述第一文本集合和所述第二文本集合均包括多个文本,所述多个文本中包括多个字或词;/n分别以所述第一文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第一索引;/n分别以所述第二文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第二索引;/n将所述第一索引和所述第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及/n基于所述文本对的出现次数,确定属于互译关系的文本。/n

【技术特征摘要】
1.一种确定互译文本的方法,包括:
获取第一文本集合和第二文本集合,所述第一文本集合使用第一语言编写且被翻译为第二语言,所述第二文本集合使用第二语言编写,所述第一文本集合和所述第二文本集合均包括多个文本,所述多个文本中包括多个字或词;
分别以所述第一文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第一索引;
分别以所述第二文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第二索引;
将所述第一索引和所述第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及
基于所述文本对的出现次数,确定属于互译关系的文本。


2.根据权利要求1所述的方法,其中,
所述文本对中的两个文本标识符所对应的文本分属于不同的文本集合。


3.根据权利要求1所述的方法,其中,
所述出现次数为文本对中的两个文本具有的相同键的个数。


4.根据权利要求2所述的方法,其中,所述确定属于互译关系的文本的步骤包括:
对于第一文本,将出现次数最多的第一文本对中的第二文本,确定为该第一文本对应的使用第一语言编写的文本的互译文本,其中,所述第一文本对为包含该第一文本的文本对,所述第一文本为所述第一文本集合中的文本,所述第二文本为所述第二文本集合中的文本;以及/或者
对于第二文本,将出现次数最多的第二文本对中的第一文本对应的使用第一语言编写的文本,确定为该第二文本的互译文本,其中,所述第二文本对为包含该第二文本的文本对。


5.根据权利要求2所述的方法,其中,所述确定属于互译关系的文本的步骤包括:
对于第一文本,将出现次数最多的第一预定数量个第一文本对中的第二文本,作为该第一文本的候选文本集合,其中,所述第一文本对为包含该第一文本的文本对,所述第一文本为所述第一文本集合中的文本,所述第二文本为所述第二文本集合中的文本;
计算所述候选文本集合中每个第二文本与所述第一文本之间的相似度;以及
选取相似度最大的第二文本作为该第一文本对应的使用第一语言编写的文本的互译文本。


6.根据权利要求2所述的方法,其中,所述确定属于互译关系的文本的步骤包括:
对于第二文本,将出现次数最多的第二预定数量个第二文本对中的第一文本,作为该第二文本的候选文本集合,其中,所述第二文本对为包含该第二文本的文本对,所述第一文本为所述第一文本集合中的文本,所述第二文本为所述第二文本集合中的文本;
计算所述候选文本集合中每个第一文本与所述第二文本之间的相似度;以及
选取相似度最大的第一文本,将该第一文本对应的使用第一语言编写的文本作为所述第二文本的互译文本。


7.根据权利要求1所述的方法,还包括:
从多语言网站获取不同语言的网页文本,其中,
所述第一文本集合中的文本是从所述多语言网站获取的第一语言的网页文本对应第二语言的翻译文本,所述第二文本集合中的文本是从所述多语言网站获取的第二语言的网页文本。


8.根据权利要求1所述的方法,还包括:
去除所述第一文本集合中的停用词和/或高频用词;以及/或者
去除所述第二文本集合中的停用词和/或高频用词。


9.根据权利要求1所述的方法,还包括:
为各个字或词分别设定权重,
其中,所述确定属于互译关系的文本的步骤包括:基于所述文本对的出现次数及每次出现时对应的字或词的权重,确定属于互译关系的文本。


10.根据权利要求9所述的方法,其中,所述确定属于互译关系的文本的步骤包括:
计算各个文本对在每次出现时对应的字或词的权重之和,以得到各个文本对的权重值;以及
基于所述文本对的权重值,确定属于互译关系的文本。


11.一种确定互译文本的方法...

【专利技术属性】
技术研发人员:陆军施杨斌龙旺钦
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1