篇章对齐方法、装置、计算机设备和介质制造方法及图纸

技术编号:33643101 阅读:29 留言:0更新日期:2022-06-02 20:18
本公开提供了一种篇章对齐方法、装置、计算机设备和介质。该篇章对齐方法用于确定第一文本包括的第一篇章和第二文本包括的第二篇章是否对齐,第一文本包括第二篇章的多个预对齐篇章且第二文本包括第一篇章的多个预对齐篇章,该方法包括:确定第一篇章和第二篇章各自篇章向量的余弦相似度,得到目标相似度;确定第一篇章和其预对齐篇章各自篇章向量的余弦相似度,得到多个第一相似度;确定第二篇章和其预对齐篇章各自篇章向量的余弦相似度,得到多个第二相似度;根据目标相似度与多个第一相似度和多个第二相似度的差距,确定第一篇章和第二篇章是否对齐。本公开使得篇章对的判别精准度得以提高。精准度得以提高。精准度得以提高。

【技术实现步骤摘要】
篇章对齐方法、装置、计算机设备和介质


[0001]本公开涉及人工智能领域,具体而言,涉及一种篇章对齐方法、装置、计算机 设备和介质。

技术介绍

[0002]高质量、大数量的双语平行语料是训练机器翻译模型的关键。双语平行语料的 来源众多,常见的不仅有联合国语料、字幕语料和词典例句语料,还有近些年来随 互联网发展而越来越多的互联网语料。
[0003]从互联网语料中提取双语平行语料,离不开互译篇章对的挖掘(即需要执行篇 章对齐的步骤)。以苹果公司为例,该公司具有中英日韩等几乎所有国家的本地化 官网,这些本地化官网各自提供以本地语言描述iPhone 13的互联网语料,从这些 互联网语料中提取双语平行语料,首先需要从两个本地化官网中挖掘出描述iPhone 13的互译篇章对,在得到篇章对后方可通过篇章对中挖掘互译句对来得到所需的双 语平行语料。
[0004]目前,篇章对齐方法在确定两篇章是否对齐时只考虑了两篇章各自所对应篇章 向量的余弦相似度,这种方法会因多语言嵌入信息部分丢失或不准而降低篇章对判 别的精准度。

技术实现思路

[0005]有鉴于此,本公开旨在改善篇章对齐方法,从而使得确定的篇章对具有较高的 对齐准确度。
[0006]根据本公开的第一方面,提供一种篇章对齐方法,用于确定第一文本包括的第 一篇章和第二文本包括的第二篇章是否对齐,第一文本包括所述第二篇章的多个预 对齐篇章且第二文本包括所述第一篇章的多个预对齐篇章,所述方法包括:
[0007]确定所述第一篇章和所述第二篇章各自篇章向量的余弦相似度,得到目标相似 度;
[0008]确定所述第一篇章和其预对齐篇章各自篇章向量的余弦相似度,得到多个第一 相似度;
[0009]确定所述第二篇章和其预对齐篇章各自篇章向量的余弦相似度,得到多个第二 相似度;
[0010]根据所述目标相似度与所述多个第一相似度和所述多个第二相似度的差距,确 定所述第一篇章和所述第二篇章是否对齐。
[0011]可选地,根据所述目标相似度与所述多个第一相似度和所述多个第二相似度的 差距,确定所述第一篇章和所述第二篇章是否对齐,包括:
[0012]根据第一相似信息确定所述第一篇章和所述第二篇章是否对齐;
[0013]其中,所述第相似一信息为所述目标相似度和相似度平均值的商,所述相似度 平均值为所述多个第一相似度和所述多个第二相似度的平均值。
似度,得到多个第二相似度;
[0034]第四确定单元,用于根据所述目标相似度与所述多个第一相似度和所述多个第 二相似度的差距,确定所述第一篇章和所述第二篇章是否对齐。
[0035]根据本公开的第三方面,提供一种计算机设备,包括:
[0036]存储器,用于存储计算机可执行代码;
[0037]处理器,用于执行所述计算机可执行代码,以实现第一方面所述的任一种方法。
[0038]根据本公开的第四方面,提供一种计算机可读介质,包括计算机可执行代码, 所述计算机可执行代码被处理器执行时实现第一方面所述的任一种方法。
[0039]本公开实施例中,第一文本包括第二篇章的多个预对齐篇章,第二文本包括第 一篇章的多个预对齐篇章,第一文本包括的第一篇章和第二文本包括的第二篇章是 否对齐是根据目标相似度与多个第一相似度和多个第二相似度的差距确定,差距越 大表示第一篇章和第二篇章不对齐的可能性越大。其中,目标相似度为第一篇章和 第二篇章各自篇章向量的余弦相似度,第一相似度为第一篇章和其预对齐篇章各自 篇章向量的余弦相似度,第二相似度为第二篇章和其预对齐篇章各自篇章向量的余 弦相似度,因而,第一篇章和第二篇章对齐的情况下,不仅需要第一篇章和第二篇 章足够相似,还需要第一篇章和其预对齐篇章的相似度、第二篇章和其预对齐篇章 的相似度远小于第一篇章和第二篇章的相似度。这种确定两篇章对齐方法更加贴合 篇章对的要求,因而在一定程度上能够抵消多语言嵌入信息部分丢失或不准而导致 的篇章对判别精准度的下降部分,达到了提高篇章对判别精准度的技术效果。
附图说明
[0040]通过参考以下附图对本公开实施例的描述,本公开的上述以及其它目的、特征 和优点将更为清楚,在附图中:
[0041]图1示出了应用本公开实施例篇章对齐方法的一个体系架构图;
[0042]图2A

2C示出了本公开实施例的篇章对齐方法应用时的一种界面状态图;
[0043]图3示出了根据本公开一个实施例的篇章对齐方法的流程图;
[0044]图4示出了在当前文本中确定当前篇章的预对齐篇章的篇章向量方法流程图;
[0045]图5示出了多语言嵌入的向量空间图;
[0046]图6示出了根据本公开一个实施例的篇章对齐装置的结构示意图;
[0047]图7示出了根据本公开一个实施例的计算机设备的结构图。
具体实施方式
[0048]以下基于实施例对本公开进行描述,但是本公开并不仅仅限于这些实施例。在 下文对本公开的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员 来说没有这些细节部分的描述也可以完全理解本公开。为了避免混淆本公开的实质, 公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。
[0049]本公开应用的场景和体系架构
[0050]篇章对齐在从互联网语料提取双语平行语料的场景中较为常见。从互联网语料 提取双语平行语料,需要执行如下步骤:从互联网下载文本

从文本挖掘互译的篇 章对

从互译的篇章对挖掘互译的句对。
[0051]互联网语料,即来自互联网的文本。很多跨国公司会提供多语言平行的网站。 以苹果公司为例,该公司就有中英日韩等几乎所有国家的本地化官网,这些本地化 官网各自以本地语言描述同一产品(例如iPhone 13)或同一事件(例如新品发布), 因而能够提供有着互译关系的互联网语料。通常情况下,同一跨国公司的不同本地 化官网的域名会包含相同的公司表征部分和不同的地区表征部分。因而,从互联网 下载文本,可以是依据域名从同一跨国公司的不同本地化官网下载有着互译关系的 文本。网站内容以网页为单位提供同一主题的信息,本公开实施例中将某一公司的 任一本地化官网下载的文本称作一个文本,而一个文本中来自一个网页的内容称作 一个篇章,因而一个文本会包括大量篇章。本公开实施例旨在从两个各自包括大量 篇章的文本中挖掘出具有互译关系的篇章对。
[0052]双语平行语料,即两种语言表达的有着互译关系的语料,上述互译的句对即为 双语平行语料。示例性地,互译的篇章对由英文篇章和中文篇章组成,英文篇章包 括句子“Discover the innovative world of Apple”,中文篇章包括句子“了解苹果公 司的这个创新世界”,最后从该篇章对挖掘出的句对“Discover the innovative worldof Apple”和“了解苹果公司的这个创新世本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种篇章对齐方法,用于确定第一文本包括的第一篇章和第二文本包括的第二篇章是否对齐,第一文本包括所述第二篇章的多个预对齐篇章且第二文本包括所述第一篇章的多个预对齐篇章,所述方法包括:确定所述第一篇章和所述第二篇章各自篇章向量的余弦相似度,得到目标相似度;确定所述第一篇章和其预对齐篇章各自篇章向量的余弦相似度,得到多个第一相似度;确定所述第二篇章和其预对齐篇章各自篇章向量的余弦相似度,得到多个第二相似度;根据所述目标相似度与所述多个第一相似度和所述多个第二相似度的差距,确定所述第一篇章和所述第二篇章是否对齐。2.根据权利要求1所述的篇章对齐方法,其中,根据所述目标相似度与所述多个第一相似度和所述多个第二相似度的差距,确定所述第一篇章和所述第二篇章是否对齐,包括:根据第一相似信息确定所述第一篇章和所述第二篇章是否对齐;其中,所述第相似一信息为所述目标相似度和相似度平均值的商,所述相似度平均值为所述多个第一相似度和所述多个第二相似度的平均值。3.根据权利要求2所述的篇章对齐方法,其中,所述第一文本和所述第二文本包括的各篇章皆为一个网页中的文本内容,根据第一相似信息确定所述第一篇章和所述第二篇章是否对齐,包括:根据所述第一相似信息和第二相似信息的加权和确定所述第一篇章和所述第二篇章是否对齐;其中,所述第二相似信息为确定第一文档信息和第二文档信息是否相似的信息,所述第一文档信息为所述第一篇章所对应网页的元信息,所述第二文档信息为所述第二篇章所对应网页的元信息。4.根据权利要求1所述的篇章对齐方法,还包括确定所述第一篇章和所述第二篇章各自预对齐篇章的篇章向量,且确定步骤如下:获取当前文本中各篇章的篇章向量,得到多个候选篇章向量;获取当前篇章的篇章向量,得到一个当前篇章向量;在所述多个候选篇章向量中检索出与所述当前篇章向量较接近的预设数量个候选篇章向量,并将检索出的各候选篇章向量确定为所述当前篇章的预对齐篇章的篇章向量;其中,所述当前篇章为所述第一篇章和所述第二篇章中的一个,所述当前篇章为所述第一篇章的情况下所述当前文本为所述第二文本,所述当前篇章为所述第二篇章的情况下所述当前文本为所述第一...

【专利技术属性】
技术研发人员:施杨斌葛鑫
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1