基于双语词典映射指导的跨语言信息检索方法技术

技术编号：29156607 阅读：16 留言：0更新日期：2021-07-06 22:55

本发明专利技术涉及基于双语词典映射指导的跨语言信息检索方法。包括：构建并预处理汉越CLIR数据集；预处理英法、英菲、英斯三种CLIR公共数据集；构建的双语映射词典并基于词级映射分别构造查询辅助句；利用共享Transformer分别获取查询、辅助句及文档的上下文表示，同时借助查询与辅助句之间的双语交互注意力机制获得查询的跨语言特征表示；最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。本发明专利技术利用双语映射词典实现跨语言沟通，缓解了缺乏查询‑文档对齐语料及语言差异性给信息检索带来的影响。本发明专利技术相比跨语言信息检索主流方法，MAP指标明显提升。且本方法在差异性不同的语言对上都具有明显的优势。

全部详细技术资料下载

【技术实现步骤摘要】
基于双语词典映射指导的跨语言信息检索方法
本专利技术涉及双语映射词典指导的跨语言信息检索方法，属于自然语言处理领域。
技术介绍
在自然语言处理中，跨语言信息检索(Cross-languageinformationretrieval，CLIR)即用一种语言的查询检索出用另一种语言的相关文档信息，也就是一种跨越语言界限进行检索的问题。然而，由于查询和文档属于不同的语言，如何实现不同语言的句子在公共语义空间的语义对齐进而实现文本匹配就成为了CLIR的核心难点。跨语言信息检索(CLIR)目前已经成为了国内外的一个研究热点。学者们针对如何在源语言和目标语言之间建立沟通桥梁进行了一系列研究和讨论。传统的跨语言信息检索算法大都基于机器翻译的思想，通常包括机器翻译和单语信息检索两部分,即首先基于机器翻译实现跨语言的语义对齐，然后在单一语义空间中完成信息检索。基于机器翻译CLIR方法属于一种管道式(pipeline)的方法，该方法很容易受到翻译误差的累积影响，特别是对于低资源语言或者差异性比较大的语言对，机器翻译误差累积会为后续的检索造成较大的影响，甚至导致检索的失败。RobertLitschko等提出了一个完全无监督的跨语言信息检索框架，它不需要使用任何双语数据，该框架利用共享的跨语言词嵌入空间来表示查询和文档。该方法优于单词级对齐的跨语言词嵌入基线模型。另外，对于低资源跨语言信息检索，Zhao,L等提出了一种弱监督神经模型；该模型不需要任何相关标注信息，而是基于从机器翻译的语料库中抽取弱监督样本，利用预先训练的跨语言词嵌入...

【技术保护点】
1.基于双语词典映射指导的跨语言信息检索方法，其特征在于：首先利用词映射生成查询辅助句实现跨语言的语义对齐，然后利用双语交互注意力来获取查询的跨语言特征表示，最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。/n

【技术特征摘要】
1.基于双语词典映射指导的跨语言信息检索方法，其特征在于：首先利用词映射生成查询辅助句实现跨语言的语义对齐，然后利用双语交互注意力来获取查询的跨语言特征表示，最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。

2.根据权利要求1所述的基于双语词典映射指导的跨语言信息检索方法，其特征在于：所述方法的具体步骤如下：
Step1、将英越CLIR公共数据集中的英语查询翻译为汉语查询，通过人工筛选和校对构建汉越CLIR数据集；同时对英法、英菲、英斯三种CLIR公共数据集进行预处理；
Step2、将Step1预处理过的数据利用预先构建的双语映射词典，基于词级映射分别构造查询辅助句；然后利用共享Transformer分别获取查询、辅助句及文档的上下文表示，同时借助查询与辅助句之间的双语交互注意力机制获得查询的跨语言特征表示；最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。

3.根据权利要求2所述的基于双语词典映射指导的跨语言信息检索方法，其特征在于：所述步骤Step1的具体步骤为：
Step1.1、利用谷歌翻译的接口将英-越CLIR公共数据集中的英语查询翻译为汉语查询，通过人工筛选和校对，将翻译质量差以及翻译错误的查询句进行删除；
Step1.2、将汉语查询中的主题词删除，将每个文档长度限制在文章的前250个词以内，同时将查询和文档中的乱码符号以及停用词进行删除；
Step1.3、根据查询和文档对应的编号以及相关性标签r，其中r∈{0，1}，获得英法、英菲、英斯、汉越四种CLIR数据集的三元组包括：查询、正样本发明档、负样本发明档。

4.根据权利要求2所述的基于双语词典映射指导的跨语言信息检索方法，其特征在于：所述步骤Step2包括：
Step2.1、查询辅助句的生成：使用双语映射词典基于词级映射来生成查询辅助句，进而保留查询中大部分关键词的准确信息，如公式(1)所示：

其中，D表示双语映射词典；map()表示词级映射函数；xi表示查询中的第i个词；yi表示词映射之后查询辅助句中的第i个词；
Step2.2、给定一个查询qzh＝(x1，x2，…，x|q|)和文档d＝(z1，z2，…，z|d|)，其中，|q|和|d|表示查询和文档的长度；首先根据Step2.1利用双语映射词典基于词级映射生成查询辅助句的qvi＝(y1，y2，…，y|q|)；然后将每个句子的每个单词表示成n维词向量，如公式(2)-(4)所示：
Qz＝[Eqz(x1)；Eqz(x2)；…；Eqz(x|q|)](2)
Qv＝[Eqv(y1)；Eqv(y2)；…；Eqv(y|q|)](3)
D＝[Ed(z1)；Ed(z2)；…；Ed(z|d|)](4)
其中，Qz∈Rn×|q|、Qz∈Rn×|q|和D∈Rn×|d|，分别表示查询、查询辅助句和文档的嵌入特征表示矩阵；xi、yi和zi表示查询、查询辅助句及文档的第i个词；Eqz、Eqv和Ed分别表示查询、查询辅助句及文档的嵌入函数，嵌入函数能将每一个输入序列中的每个词转化为对应的n维词向量；“分号”表示连接操作符；
Step2.3、为了获得查询、查询辅助句及文档的上下文表示，使用了基于Transformer的共享编码模块；该编码模块共由...

【专利技术属性】
技术研发人员：余正涛，李岩，郭军军，线岩团，黄于欣，相艳，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南;53

全部详细技术资料下载我是这个专利的主人