一种面向大数据的跨语言检索方法技术

技术编号:14512557 阅读:76 留言:0更新日期:2017-02-01 10:30
本发明专利技术公开了一种面向大数据的跨语言检索方法,所述面向大数据的跨语言检索方法采用中英维基百科词条及词条间的跨语言关系,构建双语词向量模型,再利用这个双语词向量模型对查询做翻译,最后根据候选译文构建新的查询执行检索。所述跨语言检索模型以源语言查询向量为输入,输出和查询向量语义相近的目标语言文档的相似度;查询翻译过程中,采用典型关联分析的结果。本发明专利技术从查询自动翻译的角度出发,利用不同语种之间文档的语义相似性特点,找到两种语言的共享语义空间,在此共享空间上对查询做语义转述,从而实现查询的自动翻译功能。

【技术实现步骤摘要】

本专利技术属于跨语言检索
,尤其涉及一种面向大数据的跨语言检索方法
技术介绍
随着信息化技术的不断发展和世界各国文化交流的加深,互联网已经逐步成为一个全球性的多语言信息共享仓库。如何从海量的信息库中快速准确的获取用户满意的跨语言信息,是多语言信息时代一个亟待解决的问题。跨语言信息检索即是一个获取多语言信息的重要手段,跨语言信息检索(Cross-languageInformationRetrieval,CLIR)是指以某语言为载体构建的查询,检索其他一种或多种语言表示的信息的信息检索技术或方法。CLIR作为信息检索(InformationRetrieval,IR)领域的一个分支,在语言层面上有其自身的复杂度,除了要处理IR所面临的问题,CLIR还要处理查询和文档集语种不一致的问题。在CLIR中,用户输入的查询语言称为源语言(SourceLanguage),系统返回的文档所使用的语言称为目标语言(TargetLanguage),CLIR的主要问题就是要在源语言和目标语言之间做一个映射。很自然的想法是对查询或文档做翻译,然后把CLIR的问题统一到单语IR的问题上。维基百科(Wikipedia)作为当下最权威的多语言网络百科全书之一,包含460万篇文章,涵盖了社会、艺术、历史、科学技术等诸多领域的数字信息,是一个潜力巨大的信息仓库。由于维基百科的多语言特性,可以把它当作一本多语网络词典运用于CLIR技术研究中。跨语言信息检索面临的主要问题是查询所使用的语言和文档使用的语言不一致,导致无法采用传统的信息检索技术,但又希望用户在不改变查询输入的情况下,依然可以检索到和查询相关的其他语言的文档结果。综上所述,现有跨语言信息检索方法面临存在查询所使用的语言和文档使用的语言不一致的问题。
技术实现思路
本专利技术的目的在于提供一种面向大数据的跨语言检索方法,旨在解决跨语言信息检索面临存在查询所使用的语言和文档使用的语言不一致的问题。本专利技术是这样实现的,一种跨语言检索模型,所述跨语言检索模型以源语言查询向量为输入,输出和查询向量语义相近的目标语言文档的相似度;查询翻译过程中,采用典型关联分析的结果,利用下式计算查询和目标文档的相似度,其中,f(x)是单语词向量模型函数:Score(q,dt)=Σi=1nαif(q)·βif(dt)Σi=1nαif(q)2Σi=1nβif(dt)2.]]>进一步,所述构建方法包括:根据维基百科中英文可比语料库,分别构建中文和英文词条的字典树;英文字典树采用trie树数据结构,词条是转换成小写后的英文词;对于中文字典树采用改进的trie树结构,由trie树和哈希函数组成;对于查询词,根据语种在不同的字典树中查找,如果能找到,返回对应的词条编号;根据词条编号和中英文词条的跨语言链接关系,返回该编号对应的目标语言词条;如果字典树没有找到对应的词条,则根据语种的不同,利用前面训练单语词向量模型将查询表示成查询向量其中qj表示第j个查询词项,n表示词向量模型的输出维度;输出目标语言查询词或查询词向量。进一步,所述面向大数据的跨语言检索方法采用中英维基百科词条及词条间的跨语言关系,构建双语词向量模型,再利用这个双语词向量模型对查询做翻译,最后根据候选译文构建新的查询执行检索。进一步,从维基百科网站上收集同时具有中英文版本的词条,抽取词条的标题、正文和跨语言链接,并对文本内容做预处理,包括去停用词、分词、词根化;最后生成XML文件;将维基百科的词条标题称为主题,正文中出现的非主题词称为普通词;语料库的构建采取如下流程:用网页URL作为词条的统一标识,抽取词条的标题、正文和跨语言链接;解析网页正文,对非主题词做停用词、分词处理,主题词保留原格式及重定向链接;建立跨语言链接表,标示表示同一主题的中英文词条URL。进一步,所述双语词向量模型的构建方法包括:根据语料库,分别训练中英文主题词的词向量模型,拟采取DBN算法;训练普通词的词向量模型,拟采取共现主题词向量叠加模型;拟采用线性回归模型训练双语词向量模型间的语言连接。本专利技术的另一目的在于提供一种利用跨语言检索模型的双语互相翻译目标方法,包括:X是源语言文档向量,对X的每一维,X是由每个维度的线性组合而成,表示为下式:X=α1x1+α2x2+…+αnxnY是目标语言文档向量,同样将Y表示为下的形式:Y=β1y1+β2y2+…+βmym利用皮尔森相关系数,度量X和Y的关系;最大化ρX,Y就是要求解最优参数A=(α1,α2,...,αn)和B=(β1,β2,...,βm),使得X和Y有最大可能的关联度;模型的优化目标变为下式,其中∑ij是X和Y的协方差矩阵:MaximizeαT∑12β约束:αT∑11α=1,βT∑22β=1通过拉格朗日的对偶性,将公式MaximizeαT∑12β的有约束问题,转换为无约束问题,问题MaximizeαT∑12β转化为最大化λ;根据求解的最大的λ,求出当λ取最大时的α和β,α和β称之为典型变量,λ是变量A和B之间的相关系数.本专利技术提供的面向大数据的跨语言检索方法,从查询自动翻译的角度出发,利用不同语种之间文档的语义相似性特点,找到两种语言的共享语义空间,在此共享空间上对查询做语义转述,从而实现查询的自动翻译功能。维基百科词条独具语言多样性的特点,因此本专利技术以维基百科的中英文词条为数据基础,构建语义相似的中英文可比语料。基于中英可比语料,利用深度学习方法,训练双语词向量模型对查询进行语义翻译。同时由于维基百科词条本身的规范性,可以直接用于基于词典的查询翻译。本专利技术结合以上两种查询翻译策略,实现了一个中英跨语言检索模型。附图说明图1是本专利技术实施例提供的面向大数据的跨语言检索方法流程图。图2是本专利技术实施例提供的系统整体框架设计图。图3是本专利技术实施例提供的系统实现流程图。图4是本专利技术实施例提供的RBM结构图。图5是本专利技术实施例提供的DBN结构图。图6是本专利技术实施例提供的自动编码器结构图。图7是本专利技术实施例提供的DBN网络层次结构图。图8是本专利技术实施例提供的查询翻译模块流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。下面结合附图对本专利技术的应用原理作详细的描述。如图1所示,本专利技术实施例的面向大数据的跨语言检索方法包括以下步骤:S101:根据维基百科中英文可比语料库,分别构建中文和英文词条的字典树;S102:对于查询词,根据语种在不同的字典树中查找,如果能找到,返回对应的词条编号;S103:根据词条编号和中英文词条的跨语言链接关系,返回该编号对应的目标语言词条;S104:如果字典树没有找到对应的词条,则根据语种的不同,利用前面训练单语词向量模型将查询表示成查询向量;S105:输出目标语言查询词或查询词向量。下面结合具体实施例对本专利技术的应用原理作进一步的描述。本专利技术实施例拟采用中英维基百科词条及词条间的跨语言关系,构建双语词向量模型,再利用这个双语词向量模型对查询做翻译,最后根据候选译文构建新的查询执行检本文档来自技高网
...

【技术保护点】
一种跨语言检索模型,其特征在于,所述跨语言检索模型以源语言查询向量为输入,输出和查询向量语义相近的目标语言文档的相似度;查询翻译过程中,采用典型关联分析的结果,利用下式计算查询和目标文档的相似度,其中,f(x)是单语词向量模型函数:Score(q,dt)=Σi=1nαif(q)·βif(dt)Σi=1nαif(q)2Σi=1nβif(dt)2.]]>

【技术特征摘要】
1.一种跨语言检索模型,其特征在于,所述跨语言检索模型以源语言查询向量为输入,输出和查询向量语义相近的目标语言文档的相似度;查询翻译过程中,采用典型关联分析的结果,利用下式计算查询和目标文档的相似度,其中,f(x)是单语词向量模型函数:Score(q,dt)=Σi=1nαif(q)·βif(dt)Σi=1nαif(q)2Σi=1nβif(dt)2.]]>2.一种如权利要求1所述跨语言检索模型的构建方法,其特征在于,所述构建方法包括:根据维基百科中英文可比语料库,分别构建中文和英文词条的字典树;英文字典树采用trie树数据结构,词条是转换成小写后的英文词;对于中文字典树采用改进的trie树结构,由trie树和哈希函数组成;对于查询词,根据语种在不同的字典树中查找,如果能找到,返回对应的词条编号;根据词条编号和中英文词条的跨语言链接关系,返回该编号对应的目标语言词条;如果字典树没有找到对应的词条,则根据语种的不同,利用前面训练单语词向量模型将查询表示成查询向量其中qj表示第j个查询词项,n表示词向量模型的输出维度;输出目标语言查询词或查询词向量。3.一种利用权利要求1所述跨语言检索模型的面向大数据的跨语言检索方法,其特征在于,所述面向大数据的跨语言检索方法采用中英维基百科词条及词条间的跨语言关系,构建双语词向量模型,再利用这个双语词向量模型对查询做翻译,最后根据候选译文构建新的查询执行检索。4.如权利要求3所述的面向大数据的跨语言检索方法,其特征在于,从维基百科网站上收集同时具有中英文版本的词条,抽取词条的标题、正文和跨语言链...

【专利技术属性】
技术研发人员:程国艮巢文涵王文声
申请(专利权)人:中译语通科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1