一种资源推荐方法技术

技术编号:18458835 阅读:34 留言:0更新日期:2018-07-18 12:43
本发明专利技术提供一种资源推荐方法,包括:A、获取待推荐的各个资源信息以及对照的资源信息;B、针对每个资源信息,获取其初始关键词标签,该初始关键词标签下包括该资源信息的若干关键词;C、针对每个初始关键词标签内的各关键词,确定出各关键词的相似关键词标签,该相似关键词标签下包括与所述关键词相似的若干关键词;D、针对每个资源信息,将对应其的初始关键词标签与相似关键词标签合并作为该资源信息新标签,该新标签下包括初始关键词标签与相似关键词标签所包含的关键词;E、根据每个待推荐的资源信息及对照资源信息中的新标签,计算待推荐的资源信息与对照的资源信息的相似性;并将相似结果超过指定阈值的待推荐的资源信息进行推荐。

A method of Resource Recommendation

The present invention provides a resource recommendation method, including: A, obtaining information of each resource to be recommended and resource information that is controlled; B, obtaining its initial keyword tag for each resource information, which includes several keywords of the resource information under the initial keyword tag; C, each of the initial keyword tags. Key words, identify similar key words for each keyword, which include a number of key words similar to the key words; D, for each resource information, it combines its initial keyword label with a similar keyword tag as a new label for the resource information, which includes the initial closure. Key words and similar key words are included in the key words; E, according to each recommended resource information and the new label in the control resource information, calculate the similarity between the resource information to be recommended and the control resource information, and recommend the recommended resource information that the similar results exceed the specified threshold.

【技术实现步骤摘要】
一种资源推荐方法
本专利技术属于计算机应用
,具体涉及一种资源推荐方法。
技术介绍
随着互联网技术的日益普及,有越来越多的信息在互联网上展示,如何对信息进行分类对于人们快速查找有用信息尤其重要。标签系统以关键词的形式对资源进行分类,是一种灵活的、开放的分类方式,是对用户无约束的运用自由定义的关键字的方式进行协作分类的一种工具。常见的关键词标签提取技术有TF-IDF算法,此算法主要通过特征词向量来描述文本特征。通过计算得到文本特征向量,通过计算向量之间的余弦相似度,得到文本相似度排序,随后对文本进行相似推荐。关键词提取的标签能帮助用户管理分类资源的信息资源,并提供分享和交流的平台,由于标签的自动化提取过程的不足,不可避免的出现以下问题:同义标签、标签的抽象程度不同,例如,苹果和水果,喜欢和喜爱,a股和股票。标签是在描述同一种类型,所要表达的信息类似,但是表达方式不同。但是由于通过余弦相似度来计算文本相似度仅仅是把标签当成一个维度,未考量每一个标签的相似标签,从而会导致标签粒度太粗,以使一些相似资源未获得推荐,从而导致推荐结果不准确。因此,目前亟需一种提高资源推荐准确度的资源推荐方法。
技术实现思路
有鉴于此,本申请提供一种资源推荐方法,对各个资源内部的各个初始关键词标签获取了其相似性标签,并进一步地据此进行资源之间的相似性的比对,本申请通过细化标签的粒度,有利于更精确的获取到相似的资源,以有利于提高资源推荐的准确度。本申请提供一种资源推荐方法,其特征在于,包括:A、获取待推荐的各个资源信息以及对照资源信息;B、分别获取每个资源信息的初始关键词标签集合,及获取各个初始关键词标签的权重;C、获取每个资源信息中的各个初始关键词标签的相似标签;并获取各个相似标签的权重;D、将所述初始关键词标签与所述相似标签合并作为新的标签,并计算各个新标签的权重;E、根据所述每个待推荐的资源信息及对照的资源信息中的标签集合中的各个新标签及其对应的权重,通过余弦相似度计算公式计算所述待推荐的资源信息与对照的资源信息的相似性;将相似结果超过指定阈值的待推荐的资源信息推荐给用户。由上,本申请提供一种资源推荐方法,对各个资源内部的各个初始关键词标签获取了其相似性标签,并进一步地据此进行资源之间的相似性的比对,本申请通过细化标签的粒度,有利于更精确的获取到相似的资源,以有利于提高资源推荐的准确度。优选地,所述步骤B包括:b1、针对每个资源,将该资源所包含的各个信息合并生成长文本信息,然后对生成的该文长本信息分别进行分词处理,并将其保存形成语料;b2、针对各个资源所形成的语料,通过TF-IDF算法对所述语料进行分析,获取初始关键词标签及其相应的权重,以得到各个资源信息分别对应的由每个资源的初始关键词标签组成的标签集合。优选地,所述步骤C包括:通过Word2Vec获取每个资源信息中的各个初始关键词标签对应的关键词的空间向量模型;根据所述空间向量模型,通过Word2Vec模型的距离功能获取每一个初始关键词标签对应的关键词的相似的一组关键词;并对该组关键词添加标签,以获取每一初始关键词标签对应的一组相似标签。由上,本申请对各个资源内部的各个初始关键词标签获取了其相似性标签,本申请通过细化标签的粒度,有利于更精确的获取到相似的资源,以有利于提高资源推荐的准确度。优选地,步骤D所述计算新标签中的相似关键词标签所对应的相似关键词的权重采用下述公式计算:Pn=Py*Pr*w;其中,Pn为一相似关键词标签所对应的关键词在新标签下的权重,Py为该关键词对应的初始关键词标签的权重,Pr为该关键词与其对应的初始关键词标签的相似度权重,w为强度传递参数,w取值在0-1之间。优选地,当相似关键词标签和初始关键词标签重复时,将相似标签的权重和初始关键词标签的权重相加。由上,当权重相加大于1时,通过乘以一强度传递参数,其中所述强度传递参数的值可以调整,以使所述权重值小于1。当不存在相似关键词与初始关键词重复的情形时,则初始关键词的权重还使用其最初的权重。优选地,步骤E所述根据所述每个待推荐的资源信息及对照资源信息中的新标签,计算所述待推荐的资源信息与对照的资源信息的相似性,步骤包括:e1、获取每一个待推荐资源信息及对照资源信息的新标签对应的关键词的词频;e2、生成每一个待推荐资源信息及对照资源信息的词频向量;e3、计算每一个待推荐资源信息分别与对照资源信息的词频向量的余弦相似度。优选地,步骤e3所述余弦相似度的计算采用如下公式:其中,xi表示待推荐的一资源信息的词频向量;yi表示对照的资源信息的词频向量;i表示第i个词;其中,cos(θ)结果越接近1,两个向量越相似,从而得到两个资源越相似。综上所述,本申请提供一种资源推荐方法,对各个资源内部的各个初始关键词标签获取了其相似性标签,并进一步地据此进行资源之间的相似性的比对,本申请通过细化标签的粒度,有利于更精确的获取到相似的资源,从而有利于提高资源推荐的准确度。附图说明图1为本申请实施例提供的一种资源推荐方法的流程示意图;图2为本申请实施例提供的CBOW和Skip_gram模型的流程结构示意图;图3为本申请实施例提供的一种资源推荐方法的具体实例的流程示意图。具体实施方式下面将结合本申请实施例中的附图对本申请进行说明。实施例一如图1所示,本申请实施例提供一种资源推荐方法,其特征在于,包括如下步骤:S101,获取待推荐的各个资源信息以及对照资源信息。其中,对照资源信息即为一指定的资源信息,例如可以是用户当前正在阅读的新闻、文章、电子书籍等,也可以是当前浏览的网页内的信息等,本专利技术的目的是向用户推荐与所述对照资源信息相似的信息。其中,关于待推荐的各个资源信息,资源最好数量多,种类多样,其中每个资源所包含的信息包括:文本、元数据信息、用户对资源的评价和对资源打的标签(人为的对资源进行分类或者评价的标签)等。S102,针对每个资源信息,获取其初始关键词标签(tag),以及获取初始关键词标签下的各个关键词的权重。例如,图3所示的实施例中即示出了资源A的初始关键词标签所包含的内容,如下:资源A的初始关键词标签为:{足球(权重0.986);总局(权重0.867);郑智(权重0.856);恒大(权重0.845);卡帅(权重0.759)……}。其中,“足球”、“总局”、“郑智”、“恒大”、“卡帅”等词语即为该初始关键词标签所包含的各个关键词,上述集合中的数字表示各个关键词对应的权重。其中,本S102步骤具体包括如下子步骤:S102.1、针对每个资源信息,将该资源所包含的各个信息合并生成长文本信息,然后对生成的该文长本信息进行分词处理,并将其保存形成语料;S102.2、针对各个资源所形成的语料,通过TF-IDF算法对所述语料进行分析,确定出各个资源包含的关键词及各关键词的权重,并将权重超过阈值的关键词作为其对应的资源的初始关键词标签,或称作将关键词打上初始关键词标签。其中,TF-IDF算法的主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为该词或者短语具有很好的类别区分能力,适合用来分类。本实施例中,通过TF-IDF算法对这些语料进行分析,获得各个词语的权重,并将权重超过指定阈值的词语加入初始本文档来自技高网...

【技术保护点】
1.一种资源推荐方法,其特征在于,包括:A、获取待推荐的各个资源信息以及对照的资源信息;B、针对每个资源信息,获取其初始关键词标签,所述初始关键词标签下包括所述资源信息的若干关键词;C、针对每个初始关键词标签内的各关键词,确定出各关键词的相似关键词标签,所述相似关键词标签下包括与所述关键词相似的若干关键词;D、针对每个资源信息,将对应其的初始关键词标签与相似关键词标签合并作为所述资源信息新标签,所述新标签下包括所述初始关键词标签与所述相似关键词标签所包含的关键词;E、根据每个所述待推荐的资源信息以及对照的资源信息中的新标签,计算所述待推荐的资源信息与对照的资源信息的相似性;并将相似结果超过指定阈值的待推荐的资源信息进行推荐。

【技术特征摘要】
1.一种资源推荐方法,其特征在于,包括:A、获取待推荐的各个资源信息以及对照的资源信息;B、针对每个资源信息,获取其初始关键词标签,所述初始关键词标签下包括所述资源信息的若干关键词;C、针对每个初始关键词标签内的各关键词,确定出各关键词的相似关键词标签,所述相似关键词标签下包括与所述关键词相似的若干关键词;D、针对每个资源信息,将对应其的初始关键词标签与相似关键词标签合并作为所述资源信息新标签,所述新标签下包括所述初始关键词标签与所述相似关键词标签所包含的关键词;E、根据每个所述待推荐的资源信息以及对照的资源信息中的新标签,计算所述待推荐的资源信息与对照的资源信息的相似性;并将相似结果超过指定阈值的待推荐的资源信息进行推荐。2.根据权利要求1所述的方法,其特征在于,所述步骤B包括:b1、针对每个资源信息,将其所包含的各个信息合并生成长文本信息,对所述文长本信息进行分词处理形成语料;b2、针对各资源所形成的语料,通过TF-IDF算法确定出各资源信息包含的关键词及各关键词的权重,并对于权重超过阈值的关键词打上初始关键词标签。3.根据权利要求2所述的方法,其特征在于,所述步骤b2中所述通过TF-IDF算法确定出各资源信息包含的关键词及各关键词的权重的步骤包括:针对所述各资源所形成的各语料中的各词语,计算各词语TF和IDF;将每个词语的TF和IDF相乘得到该词语的TF-IDF值作为各词语的权重;针对各个资源信息,将其对应的权重超过指定阈值的词语作为该资源的关键词。4.根据权利要求1-3任一项所述的方法,其特征在于,所述步骤C包括:c1、使用Word2Vec获取每个资源信息中的各个初始关键词标签内的各初始关键词的词空间向量模型;c2、根...

【专利技术属性】
技术研发人员:苗原李鹏公艳张勇
申请(专利权)人:北京方正阿帕比技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1