本发明专利技术公开了一种跨语言推荐方法和系统,包括:基于用户检索会话日志构建及更新的双语检索词向量模型,挖掘双语检索词间的关联性;基于中英双语平行语料库构建及更新的双语概念向量模型,建立并更新概念词向量模型,挖掘相关的双语概念;检索串预处理模块,解析用户输入检索串,过滤噪声字符;基于双语检索词向量模型和双语概念词向量模型构建的推荐词计算模块,查找计算相似推荐词;长尾检索词处理模块,对不常见的低频检索词,经过检索词改写和同义词查找处理;结果输出模块,将经过后处理的推荐词呈现给用户。该发明专利技术无需在线人工翻译,提高了用户的检索效率,通过长尾检索词的相关检索词推荐方法,提高了推荐覆盖率,扩大了相关检索词的支持范围,通过动态更新推荐模型的机制,使模型能及时反映检索系统用户关注的最新研究热点和研究趋势。
【技术实现步骤摘要】
本专利技术涉及信息检索和推荐系统的
,尤其涉及一种跨语言推荐方法和系统。
技术介绍
互联网的发展为无国界知识共享提供了基础条件,随着文献信息的日益增长,用户对中外文文献的检索需求日渐丰富。海量学术资源的有效筛选离不开合理的检索策略。用户在检索中文文献时,通常也迫切希望了解相应研究方向的国外研究动态;由于申报国家课题项目等需要,在检索外文文献时,对相关的国内动态也有所需求。由于语言的表达本身具有多样性,对于中国人来说,检索外文文献资源的主要问题在于用户往往不知道应该如何用专业英文术语表达自己的需求,而在表达的时候由于语言水平的局限性,也会带来部分错误。这也增加了用户使用英文进行检索的难度。此外,如何以合适的中文检索词找到相应同一方向的中文文献,开拓研究思路,也是用户在检索外文文献时的一大问题。因此,如何对用户进行智能引导,推荐双语相关检索词,帮助用户表达检索需求,找到所需资源,扩展知识发现的范围,了解专业领域国内外同行的研究趋势,是学术文献搜索系统的重要一环,目前的相关检索词推荐系统存在的问题包括:(1)往往只考虑同语言层面上的推荐;(2)用户检索词呈现长尾分布,缺乏合理的策略处理长尾查询词;(3)建立模型时没有考虑动态更新问题,由于文献资源的特殊性,用户检索词的时效性很强,静态的模型难以反映用户关注的最新研究热点和可能的最新研究趋势。
技术实现思路
为实现上述目的,本专利技术提供如下技术方案:一种跨语言推荐方法和系统,包括双语检索词向量模型模块,基于用户检索会话日志,建立并更新检 索词向量模型,挖掘用户检索会话中双语query的关联性;双语概念词向量模型模块,基于中英双语文献平行语料库,建立并更新概念词向量模型,挖掘相关的双语概念;检索串预处理模块,是对用户输入的检索串进行解析,并过滤其中夹杂的噪声字符;推荐词计算模块,基于双语检索词向量模型和双语概念词向量模型,查找相似性最高的检索词推荐给用户;长尾检索词处理模块,针对不常见的低频检索词,通过检索词改写和同义词查找方法,提高相关检索词的推荐覆盖率;推荐词后处理模块,通过邻近词拼接、相似词过滤等技术手段来提高、改善用户体验;结果输出模块,将经过后处理的推荐词呈现给用户。具体步骤如下:步骤一:双语检索词向量模型模块,主要基于用户检索会话日志,用户的检索会话中,往往蕴含了双语query,例如,用户在用中文检索后,可能还会在同一会话中,再次检索相关的英文检索词,例如,用户在同一检索会话中,既检索了“机器学习”,又检索了“machine learning”和“machine learning algorithms”,所以,通过对同一会话中的双语query序列建模,可以有效地将双语query间的关联性挖掘出来。模型的构建主要分三步:首先,从用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,基于word embedding模型训练得到双语检索词向量。具体如下:(1)会话提取、预处理,首先,根据时间间隔切分检索会话,将时间间隔设为15分钟,其次,从会话数据中提取检索属性和行为等必要的文本数据,包括用户检索词等,最后,过滤不合法query,如HTML字符,标点符号等,保留需要的含有双语检索词的会话数据;(2)生成训练数据,根据采用的词向量模型需求,将预处理后会话中的双语检索词序列,组织成待用的文本训练数据集,每个会话对应训练数据集中的一个样本;(3)训练双语检索词向量模型,根据预设的无监督word embedding模型及参数,在文本训练数据集上,训练 双语检索词向量模型;模型的更新主要分三步,首先,从新生成的用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,加载原有双语检索词向量模型,采用动态增量更新方式对双语检索词向量进行更新。具体如下:(1)更新会话数据,基于新生成或搜集得到的用户日志数据,提取并预处理会话数据;(2)更新训练数据,根据新的会话数据,更新原有训练数据集;(3)动态增量更新双语检索词向量模型,基于原模型词汇表及双语检索词向量,采用动态增量更新方式,更新双语检索词向量模型及词汇表;步骤二:双语概念词向量模型模块,主要基于中英双语文献平行语料库,建立概念词向量模型,挖掘相关的双语概念,更新模型。模型的构建主要分两步:首先,从中英双语文献平行语料库中,提取平行语料数据,组织成待用的模型训练数据,然后,基于双语word embedding模型训练得到双语概念词向量。具体如下:(1)构建双语训练数据,首先,从中英双语文献平行语料库中,提取平行语料数据,平行语料主要包括双语关键词,然后,按模型需求组织成待用的模型训练数据集,一篇文献的关键词序列构成了训练数据集中的一个样本;(2)训练双语概念词向量模型,根据预设的模型及参数,在文本训练数据集上,训练双语概念词向量模型。模型的更新主要分两步:首先,更新中英双语文献平行语料数据,然后,加载原有双语概念词向量模型,采用动态增量更新方式对双语概念词词向量进行更新。具体如下:(1)更新双语训练数据,首先,获取新中英双语文献平行语料数据,然后,从中提取平行语料数据,最后,按模型需求,组织并更新待用的模型训练数据集;(2)动态增量更新双语概念词向量模型,基于原模型词汇表及双语概念词向量,采用动态增量更新方式,更新双语概念词向量模型及词汇表;步骤三:检索串预处理模块,检索串预处理主要用于解析用户输入检索串,过滤噪声字符;步骤四:推荐词计算模块,基于双语检索词向量模型和双语概念词向量模型,首先,对现有词向量模型进行单位化处理,然后,根据预设的向量夹角余弦相似度计算公式,在两个模型中,分别计算检索词和可能的推荐词之间的相似度,最后,按预设的权重合并,排序输出相似性最高的前K个推荐词,K为预先指定的数目,本实施例中,K取20。具体如下:首先,模型预处理,单位化两模型词向量,预处理主要包括检查并单位化两模型的词向量,其次,计算检索词与模型词向量的相似度,采用基于余弦度量法及预设权重的方法,具体公式如余弦度量法(cosine measure),其中: 表示向量的长度(模),加权相似度(weighted similarity),sim(x,y)=α·sim1(x,y)+(1-α)·sim2(x,y),其中,simi(x,y)为各模型对应的相似度,sim(x,y)为计算得到的最终相似度,α为预设的权重(默认0.5),最后,排序输出最相似的前K个推荐词,K为预先指定的数目,本专利技术中取20;步骤五:长尾检索词处理模块,长尾检索词处理主要包括检索词改写和同义词查找。检索词改写,基于编辑距离策略,同义词查找策略包括缩略语还原扩展、基于同义词典查找和拼音翻译,同义词查找,具体方法包括:缩略语还原,基于同义词典查找,拼音翻译。具体如下:第一,基于编辑距离算法,对检索词进行改写后,重新查找,首先基于预设的策略或算法,对检索词进行改写,本专利技术中采用基于编辑距离的方法,然后返回步骤四中的计算检索词与模型词向量的相似度,重新查找相应的相似性最高的检索词作为推荐结果;第二,基于缩略语还原、同义词典及拼音翻译方法,查找同义词,缩略语还原,通过查找缩本文档来自技高网...
【技术保护点】
一种跨语言推荐方法和系统,其特征在于:包括双语检索词向量模型模块,基于用户检索会话日志,建立并更新检索词向量模型,挖掘用户检索会话中双语query的关联性;双语概念词向量模型模块,基于中英双语文献平行语料库,建立并更新概念词向量模型,挖掘相关的双语概念;检索串预处理模块,是对用户输入的检索串进行解析,并过滤其中夹杂的噪声字符;推荐词计算模块,基于双语检索词向量模型和双语概念词向量模型,查找相似性最高的检索词推荐给用户;长尾检索词处理模块,针对不常见的低频检索词,通过检索词改写和同义词查找方法,提高相关检索词的推荐覆盖率;推荐词后处理模块,通过邻近词拼接、相似词过滤等技术手段来提高、改善用户体验;结果输出模块,将经过后处理的推荐词呈现给用户。具体步骤如下:步骤一:双语检索词向量模型模块,主要基于用户检索会话日志,用户的检索会话中,往往蕴含了双语query,例如,用户在用中文检索后,可能还会在同一会话中,再次检索相关的英文检索词,例如,用户在同一检索会话中,既检索了“机器学习”,又检索了“machine learning”和“machine learnin galgorithms”,所以,通过对同一会话中的双语query序列建模,可以有效地将双语query间的关联性挖掘出来。模型的构建主要分三步:首先,从用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,基于word embedding模型训练得到双语检索词向量。模型的更新主要分三步:首先,从新生成的用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,加载原有双语检索词向量模型,采用动态增量更新方式对双语检索词向量进行更新。具体如下:模型构建步骤:第一步,会话提取、预处理,首先,根据时间间隔切分检索会话,将时间间隔设为15分钟,其次,从会话数据中提取检索属性和行 为等必要的文本数据,包括用户检索词等,最后,过滤不合法query,如HTML字符,标点符号等,保留需要的含有双语检索词的会话数据;第二步,生成训练数据,根据采用的词向量模型需求,将预处理后会话中的双语检索词序列,组织成待用的文本训练数据集,每个会话对应训练数据集中的一个样本;第三步,训练双语检索词向量模型,根据预设的无监督word embedding模型及参数,在文本训练数据集上,训练双语检索词向量模型。模型更新步骤:第一步,更新会话数据,基于新生成或搜集得到的用户日志数据,提取并预处理会话数据;第二步,更新训练数据,根据新的会话数据,更新原有训练数据集;第三步,动态增量更新双语检索词向量模型,基于原模型词汇表及双语检索词向量,采用动态增量更新方式,更新双语检索词向量模型及词汇表;步骤二:双语概念词向量模型模块,主要基于中英双语文献平行语料库,建立概念词向量模型,挖掘相关的双语概念,更新模型。模型的构建主要分两步:首先,从中英双语文献平行语料库中,提取平行语料数据,组织成待用的模型训练数据,然后,基于双语word embedding模型训练得到双语概念词向量。具体如下:(1)构建双语训练数据,首先,从中英双语文献平行语料库中,提取平行语料数据,平行语料主要包括双语关键词,然后,按模型需求组织成待用的模型训练数据集,一篇文献的关键词序列构成了训练数据集中的一个样本;(2)训练双语概念词向量模型,根据预设的词向量模型及参数,在文本训练数据集上,训练双语概念词向量模型。模型的更新主要分两步:首先,更新中英双语文献平行语料数据,然后,加载原有双语概念词向量模型,采用动态增量更新方式对双语概念词词向量进行更新。具体如下:(1)更新双语训练数据,首先,获取新中英双语文献平行语料数据,然后,从中提取平行语料数据,最后,按模型需求,组织并更新待用的模型训练数据集;(2)动态增量更新双语概念词向量模型,基于原模型词汇表及双语概 念词向量,采用动态增量更新方式,更新双语概念词向量模型及词汇表;步骤三:检索串预处理模块,检索串预处理主要用于解析用户输入检索串,过滤噪声字符;步骤四:推荐词计算模块,基于双语检索词向量模型和双语概念词向量模型,首先,对现有词向量模型进行单位化处理;然后,根据预设的向量夹角余弦相似度计算公式,在两个模型中,分别计算检索词和可能的推荐词之间的相似度;最后,按预设的权重合并,排序输出相似性最高的前K个推荐词,K为预先指定的数目,本实施例中,K取20。具体如下:首先,模型预处理,单位化两模型词向量,预处理主要包括检查并单位化两模型的词向量,其次,计算检索词与模型词向量的相似度,采用基于余弦度量法及预设权重的方法,具体公式如下:余弦度量法(cosine measure),其中:表示向量的长度(模),加权相似度(weigh...
【技术特征摘要】
1.一种跨语言推荐方法和系统,其特征在于:包括双语检索词向量模型模块,基于用户检索会话日志,建立并更新检索词向量模型,挖掘用户检索会话中双语query的关联性;双语概念词向量模型模块,基于中英双语文献平行语料库,建立并更新概念词向量模型,挖掘相关的双语概念;检索串预处理模块,是对用户输入的检索串进行解析,并过滤其中夹杂的噪声字符;推荐词计算模块,基于双语检索词向量模型和双语概念词向量模型,查找相似性最高的检索词推荐给用户;长尾检索词处理模块,针对不常见的低频检索词,通过检索词改写和同义词查找方法,提高相关检索词的推荐覆盖率;推荐词后处理模块,通过邻近词拼接、相似词过滤等技术手段来提高、改善用户体验;结果输出模块,将经过后处理的推荐词呈现给用户。具体步骤如下:步骤一:双语检索词向量模型模块,主要基于用户检索会话日志,用户的检索会话中,往往蕴含了双语query,例如,用户在用中文检索后,可能还会在同一会话中,再次检索相关的英文检索词,例如,用户在同一检索会话中,既检索了“机器学习”,又检索了“machine learning”和“machine learnin galgorithms”,所以,通过对同一会话中的双语query序列建模,可以有效地将双语query间的关联性挖掘出来。模型的构建主要分三步:首先,从用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,基于word embedding模型训练得到双语检索词向量。模型的更新主要分三步:首先,从新生成的用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,加载原有双语检索词向量模型,采用动态增量更新方式对双语检索词向量进行更新。具体如下:模型构建步骤:第一步,会话提取、预处理,首先,根据时间间隔切分检索会话,将时间间隔设为15分钟,其次,从会话数据中提取检索属性和行 为等必要的文本数据,包括用户检索词等,最后,过滤不合法query,如HTML字符,标点符号等,保留需要的含有双语检索词的会话数据;第二步,生成训练数据,根据采用的词向量模型需求,将预处理后会话中的双语检索词序列,组织成待用的文本训练数据集,每个会话对应训练数据集中的一个样本;第三步,训练双语检索词向量模型,根据预设的无监督word embedding模型及参数,在文本训练数据集上,训练双语检索词向量模型。模型更新步骤:第一步,更新会话数据,基于新生成或搜集得到的用户日志数据,提取并预处理会话数据;第二步,更新训练数据,根据新的会话数据,更新原有训练数据集;第三步,动态增量更新双语检索词向量模型,基于原模型词汇表及双语检索词向量,采用动态增量更新方式,更新双语检索词向量模型及词汇表;步骤二:双语概念词向量模型模块,主要基于中英双语文献平行语料库,建立概念词向量模型,挖掘相关的双语概念,更新模型。模型的构建主要分两步:首先,从中英双语文献平行语料库中,提取平行语料数据,组织成待用的模型训练数据,然后,基于双语word embedding模型训练得到双语概念词向量。具体如下:(1)构建双语训练数据,首先,从中英双语文献平行语料库中,提取平行语料数据,平行语料主要包括双语关键词,然后,按模型需求组织成待用的模型训练数据集,一篇文献的关键词序列构成了训练数据集中的一个样本;(2)训练双语概念词向量模型,根据预设的词向量模型及参数,在文本训练数据集上,训练双语概念词向量模型。模型的更新主要分两步:首先,更新中英双语文献...
【专利技术属性】
技术研发人员:符文君,陈勇,魏圣磊,王鹏,王云飞,张振海,
申请(专利权)人:中国学术期刊光盘版电子杂志社有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。