一种面向大数据的跨语言检索方法技术

技术编号：14512557 阅读：76 留言：0更新日期：2017-02-01 10:30

本发明专利技术公开了一种面向大数据的跨语言检索方法，所述面向大数据的跨语言检索方法采用中英维基百科词条及词条间的跨语言关系，构建双语词向量模型，再利用这个双语词向量模型对查询做翻译，最后根据候选译文构建新的查询执行检索。所述跨语言检索模型以源语言查询向量为输入，输出和查询向量语义相近的目标语言文档的相似度；查询翻译过程中，采用典型关联分析的结果。本发明专利技术从查询自动翻译的角度出发，利用不同语种之间文档的语义相似性特点，找到两种语言的共享语义空间，在此共享空间上对查询做语义转述，从而实现查询的自动翻译功能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于跨语言检索
，尤其涉及一种面向大数据的跨语言检索方法。
技术介绍
随着信息化技术的不断发展和世界各国文化交流的加深，互联网已经逐步成为一个全球性的多语言信息共享仓库。如何从海量的信息库中快速准确的获取用户满意的跨语言信息，是多语言信息时代一个亟待解决的问题。跨语言信息检索即是一个获取多语言信息的重要手段，跨语言信息检索(Cross-languageInformationRetrieval，CLIR)是指以某语言为载体构建的查询，检索其他一种或多种语言表示的信息的信息检索技术或方法。CLIR作为信息检索(InformationRetrieval，IR)领域的一个分支，在语言层面上有其自身的复杂度，除了要处理IR所面临的问题，CLIR还要处理查询和文档集语种不一致的问题。在CLIR中，用户输入的查询语言称为源语言(SourceLanguage)，系统返回的文档所使用的语言称为目标语言(TargetLanguage)，CLIR的主要问题就是要在源语言和目标语言之间做一个映射。很自然的想法是对查询或文档做翻译，然后把CLIR的问题统一到单语IR的问题上。维基百科(Wikipedia)作为当下最权威的多语言网络百科全书之一，包含460万篇文章，涵盖了社会、艺术、历史、科学技术等诸多领域的数字信息，是一个潜力巨大的信息仓库。由于维基百科的多语言特性，可以把它当作一本多语网络词典运用于CLIR技术研究中。跨语言信息检索面临的主要问题是查询所使用的语言和文档使用的语言不一致，导致无法采用传统的信息检索技术，但又希望用户在不改变查询输入的情况下，依然可...

【技术保护点】
一种跨语言检索模型，其特征在于，所述跨语言检索模型以源语言查询向量为输入，输出和查询向量语义相近的目标语言文档的相似度；查询翻译过程中，采用典型关联分析的结果，利用下式计算查询和目标文档的相似度，其中，f(x)是单语词向量模型函数：Score(q,dt)=Σi=1nαif(q)·βif(dt)Σi=1nαif(q)2Σi=1nβif(dt)2.]]>

【技术特征摘要】
1.一种跨语言检索模型，其特征在于，所述跨语言检索模型以源语言查询向量为输入，输出和查询向量语义相近的目标语言文档的相似度；查询翻译过程中，采用典型关联分析的结果，利用下式计算查询和目标文档的相似度，其中，f(x)是单语词向量模型函数：Score(q,dt)=Σi=1nαif(q)·βif(dt)Σi=1nαif(q)2Σi=1nβif(dt)2.]]>2.一种如权利要求1所述跨语言检索模型的构建方法，其特征在于，所述构建方法包括：根据维基百科中英文可比语料库，分别构建中文和英文词条的字典树；英文字典树采用trie树数据结构，词条是转换成小写后的英文词；对于中文字典树采用改进的trie树结构，由trie树和哈希函数组成；对于查询词，根据语种在不同的字典树中查找，如果能找到，返回对应的词条编号；根据词条编号和中英文词条的跨语言链接关系，返回该编号对应的目标语言词条；如果字典树没有找到对应的词条，则根据语种的不同，利用前面训练单语词向量模型将查询表示成查询向量其中qj表示第j个查询词项，n表示词向量模型的输出维度；输出目标语言查询词或查询词向量。3.一种利用权利要求1所述跨语言检索模型的面向大数据的跨语言检索方法，其特征在于，所述面向大数据的跨语言检索方法采用中英维基百科词条及词条间的跨语言关系，构建双语词向量模型，再利用这个双语词向量模型对查询做翻译，最后根据候选译文构建新的查询执行检索。4.如权利要求3所述的面向大数据的跨语言检索方法，其特征在于，从维基百科网站上收集同时具有中英文版本的词条，抽取词条的标题、正文和跨语言链...

【专利技术属性】
技术研发人员：程国艮，巢文涵，王文声，
申请(专利权)人：中译语通科技北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人