基于双语词典映射指导的跨语言信息检索方法技术

技术编号:29156607 阅读:16 留言:0更新日期:2021-07-06 22:55
本发明专利技术涉及基于双语词典映射指导的跨语言信息检索方法。包括:构建并预处理汉越CLIR数据集;预处理英法、英菲、英斯三种CLIR公共数据集;构建的双语映射词典并基于词级映射分别构造查询辅助句;利用共享Transformer分别获取查询、辅助句及文档的上下文表示,同时借助查询与辅助句之间的双语交互注意力机制获得查询的跨语言特征表示;最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。本发明专利技术利用双语映射词典实现跨语言沟通,缓解了缺乏查询‑文档对齐语料及语言差异性给信息检索带来的影响。本发明专利技术相比跨语言信息检索主流方法,MAP指标明显提升。且本方法在差异性不同的语言对上都具有明显的优势。

【技术实现步骤摘要】
基于双语词典映射指导的跨语言信息检索方法
本专利技术涉及双语映射词典指导的跨语言信息检索方法,属于自然语言处理领域。
技术介绍
在自然语言处理中,跨语言信息检索(Cross-languageinformationretrieval,CLIR)即用一种语言的查询检索出用另一种语言的相关文档信息,也就是一种跨越语言界限进行检索的问题。然而,由于查询和文档属于不同的语言,如何实现不同语言的句子在公共语义空间的语义对齐进而实现文本匹配就成为了CLIR的核心难点。跨语言信息检索(CLIR)目前已经成为了国内外的一个研究热点。学者们针对如何在源语言和目标语言之间建立沟通桥梁进行了一系列研究和讨论。传统的跨语言信息检索算法大都基于机器翻译的思想,通常包括机器翻译和单语信息检索两部分,即首先基于机器翻译实现跨语言的语义对齐,然后在单一语义空间中完成信息检索。基于机器翻译CLIR方法属于一种管道式(pipeline)的方法,该方法很容易受到翻译误差的累积影响,特别是对于低资源语言或者差异性比较大的语言对,机器翻译误差累积会为后续的检索造成较大的影响,甚至导致检索的失败。RobertLitschko等提出了一个完全无监督的跨语言信息检索框架,它不需要使用任何双语数据,该框架利用共享的跨语言词嵌入空间来表示查询和文档。该方法优于单词级对齐的跨语言词嵌入基线模型。另外,对于低资源跨语言信息检索,Zhao,L等提出了一种弱监督神经模型;该模型不需要任何相关标注信息,而是基于从机器翻译的语料库中抽取弱监督样本,利用预先训练的跨语言词嵌入表征平行句对,以此训练深度模型。然后该模型通过计算外文文档中每一个句子与输入查询的相关概率来实现跨语言信息检索。上述基于CLE的方法需要昂贵的标注成本,对于跨语言情况下的低资源语言对或者差异性比较大的语言对来说,这是很难实现的。除此之外,ShotaSasaki等人基于CNN对查询和文档分别编码,利用二者的句子向量计算相似度,实现跨语言检索。但是,该方法没有考虑不同语言之间的差异性问题,所以该方法也不是很好的选择。
技术实现思路
本专利技术提供了基于双语词典映射指导的跨语言信息检索方法,即首先利用词映射生成查询辅助句实现跨语言的语义对齐,然后利用双语交互注意力来获取查询的跨语言特征表示,进而实现跨语言检索,缓解了缺乏查询-文档对齐语料及语言差异性给信息检索带来的影响。专利技术技术方案:基于双语词典映射指导的跨语言信息检索方法,首先利用词映射生成查询辅助句实现跨语言的语义对齐,然后利用双语交互注意力来获取查询的跨语言特征表示,最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。所述方法的具体步骤如下:Step1、调用谷歌翻译的接口将英-越CLIR公共数据集中的英语查询翻译为汉语查询,通过人工筛选和校对构建汉越CLIR数据集。同时对英法、英菲、英斯三种CLIR公共数据集进行一系列预处理。Step2、将Step1预处理过的数据利用预先构建的双语映射词典,基于词级映射分别构造查询辅助句;然后利用共享Transformer分别获取查询、辅助句及文档的上下文表示,同时借助查询与辅助句之间的双语交互注意力机制获得查询的跨语言特征表示;最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。作为本专利技术的进一步方案,所述步骤Step1的具体步骤为:Step1.1、调用谷歌翻译的接口将英-越CLIR公共数据集中的英语查询翻译为汉语查询,通过人工筛选和校对,将翻译质量比较差以及翻译错误的查询句进行删除;Step1.2、为了防止任务变成一个简单的关键字匹配问题,将汉语查询中的主题词删除,并根据实际情况将每个文档长度限制在文章的前250个词以内,同时将查询和文档中的乱码符号以及停用词进行删除;Step1.3、经过一系列数据整理和预处理,根据查询和文档对应的编号以及相关性标签r,其中r∈{0,1},获得英法、英菲、英斯、汉越四种CLIR数据集的三元组:(查询,正样本专利技术档,负样本专利技术档);作为本专利技术的优选方案,所述步骤Step2的具体步骤如下:Step2.1、查询辅助句的生成:由于传统的基于句子级机器翻译的方法在差异性比较大的语言对上翻译质量很差,所以没有办法基于翻译系统来进行单语检索。为此,本专利技术使用双语映射词典基于词级映射来生成查询辅助句,进而保留查询中大部分关键词的准确信息,如公式(1)所示。其中,D表示双语映射词典;map()表示词级映射函数;xi表示查询中的第i个词;yi表示词映射之后查询辅助句中的第i个词。Step2.2、给定一个查询qzh=(x1,x2,…,x|q|)和文档d=(z1,z2,…,z|d|),其中,|q|和|d|表示查询和文档的长度。首先根据Step2.1利用双语映射词典基于词级映射生成查询辅助句的qvi=(y1,y2,…,y|q|)。然后将每个句子的每个单词表示成n维词向量,如公式(2)-(4)所示:Qz=[Eqz(x1);Eqz(x2);…;Eqz(x|q|)](2)Qv=[Eqv(y1);Eqv(y2);…;Eqv(y|q|)](3)D=[Ed(z1);Ed(z2);…;Ed(z|d|)](4)其中,Qz∈Rn×|q|、Qz∈Rn×|q|和D∈Rn×|d|,分别表示查询、查询辅助句和文档的嵌入特征表示矩阵;xi、yi和zi表示查询、查询辅助句及文档的第i个词;Eqz、Eqv和Ed分别表示查询、查询辅助句及文档的嵌入函数,它可以将每一个输入序列中的每个词转化为对应的n维词向量;“分号”表示连接操作符;Step2.3、本专利技术为了获得查询、查询辅助句及文档的上下文表示,使用了基于Transformer的共享编码模块。该编码模块共由6个相同的层堆叠在一起,每一层又分为两个子层。第一个子层是一个多头的自注意力机制,第二个子层是一个简单的全连接前馈网络。在两个子层外面都添加了一个残差连接,然后进行了层归一化的操作。具体对查询、辅助句及文档的编码过程如公式(5)-(7)所示。其中,及分别表示查询、文档及查询辅助句的上下文特征表示序列;TransformerEncoder()表示对输入序列的编码映射函数。获取到查询、文档及查询辅助句的上下文特征表示之后,将上下文表示进行归一化,使得每个特征向量都成为等于1的L2范数,这样使得任何两个特征向量的内积等于他们的余弦相似度。Step2.4、本专利技术为了语义上对齐两个句子,使得两种语言的嵌入空间尽可能接近。具体地,在查询和辅助句之间定义了一个双语交互注意力机制,该机制使得查询每一个词的特征表征通过只关注来自辅助句的相关词的特征表征来表示。基于Transformer的共享编码模块可以获取到查询和辅助句的特征表示序列和然后利用辅助句的每一个特征表示的加权平均值来表示查询的第i个词的跨语言特征表示ci,计算如公式(8)所示:其中,ci表示查询的第i个词的跨语言特征表示;注意力本文档来自技高网
...

【技术保护点】
1.基于双语词典映射指导的跨语言信息检索方法,其特征在于:首先利用词映射生成查询辅助句实现跨语言的语义对齐,然后利用双语交互注意力来获取查询的跨语言特征表示,最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。/n

【技术特征摘要】
1.基于双语词典映射指导的跨语言信息检索方法,其特征在于:首先利用词映射生成查询辅助句实现跨语言的语义对齐,然后利用双语交互注意力来获取查询的跨语言特征表示,最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。


2.根据权利要求1所述的基于双语词典映射指导的跨语言信息检索方法,其特征在于:所述方法的具体步骤如下:
Step1、将英越CLIR公共数据集中的英语查询翻译为汉语查询,通过人工筛选和校对构建汉越CLIR数据集;同时对英法、英菲、英斯三种CLIR公共数据集进行预处理;
Step2、将Step1预处理过的数据利用预先构建的双语映射词典,基于词级映射分别构造查询辅助句;然后利用共享Transformer分别获取查询、辅助句及文档的上下文表示,同时借助查询与辅助句之间的双语交互注意力机制获得查询的跨语言特征表示;最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。


3.根据权利要求2所述的基于双语词典映射指导的跨语言信息检索方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、利用谷歌翻译的接口将英-越CLIR公共数据集中的英语查询翻译为汉语查询,通过人工筛选和校对,将翻译质量差以及翻译错误的查询句进行删除;
Step1.2、将汉语查询中的主题词删除,将每个文档长度限制在文章的前250个词以内,同时将查询和文档中的乱码符号以及停用词进行删除;
Step1.3、根据查询和文档对应的编号以及相关性标签r,其中r∈{0,1},获得英法、英菲、英斯、汉越四种CLIR数据集的三元组包括:查询、正样本发明档、负样本发明档。


4.根据权利要求2所述的基于双语词典映射指导的跨语言信息检索方法,其特征在于:所述步骤Step2包括:
Step2.1、查询辅助句的生成:使用双语映射词典基于词级映射来生成查询辅助句,进而保留查询中大部分关键词的准确信息,如公式(1)所示:



其中,D表示双语映射词典;map()表示词级映射函数;xi表示查询中的第i个词;yi表示词映射之后查询辅助句中的第i个词;
Step2.2、给定一个查询qzh=(x1,x2,…,x|q|)和文档d=(z1,z2,…,z|d|),其中,|q|和|d|表示查询和文档的长度;首先根据Step2.1利用双语映射词典基于词级映射生成查询辅助句的qvi=(y1,y2,…,y|q|);然后将每个句子的每个单词表示成n维词向量,如公式(2)-(4)所示:
Qz=[Eqz(x1);Eqz(x2);…;Eqz(x|q|)](2)
Qv=[Eqv(y1);Eqv(y2);…;Eqv(y|q|)](3)
D=[Ed(z1);Ed(z2);…;Ed(z|d|)](4)
其中,Qz∈Rn×|q|、Qz∈Rn×|q|和D∈Rn×|d|,分别表示查询、查询辅助句和文档的嵌入特征表示矩阵;xi、yi和zi表示查询、查询辅助句及文档的第i个词;Eqz、Eqv和Ed分别表示查询、查询辅助句及文档的嵌入函数,嵌入函数能将每一个输入序列中的每个词转化为对应的n维词向量;“分号”表示连接操作符;
Step2.3、为了获得查询、查询辅助句及文档的上下文表示,使用了基于Transformer的共享编码模块;该编码模块共由...

【专利技术属性】
技术研发人员:余正涛李岩郭军军线岩团黄于欣相艳
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1