一种信息推荐方法及装置制造方法及图纸

技术编号:15822725 阅读:22 留言:0更新日期:2017-07-15 04:55
本发明专利技术公开了一种信息推荐方法及装置,该信息推荐方法包括:获取候选文章集、以及所述候选文章集中每一候选文章的标题信息;根据所述候选文章集和标题信息确定候选词集;根据所述候选词集、标题信息和候选文章集生成候选标签组,所述候选标签组中每一候选标签对应至少一篇候选文章;根据所述候选词集、候选标签组和候选文章集建立推荐数据库;基于所述推荐数据库向用户推荐信息。上述信息推荐方法及装置无需用户进行海量检索即可得到感兴趣的文章,方法简单、获取效率高。

【技术实现步骤摘要】
一种信息推荐方法及装置
本专利技术涉及计算机
,尤其涉及一种信息推荐方法及装置。
技术介绍
现在,化妆是一种潮流时尚,很多的职场女性或者出去约会的女生都需要化妆,化妆可以美化容貌、增加女性气质,可以说,化妆是现在女性生活中必不可少的一件事情。如何画一个精致又适合自己的妆容是很多美妆女性需要学习的内容,为此,很多女性用户会在互联网上搜索和阅读美妆教程类的相关文章,以提高自己的化妆水平。但是,对于大数据时代,若要用户自己从鱼龙混杂的互联网检索出想要的文章,需要花费大量的时间和精力,检索效率低、获取成本较高。
技术实现思路
本专利技术的目的在于提供一种信息推荐方法及装置,以解决现有美妆类教学文章获取途径繁杂、获取效率低的技术问题。为解决上述技术问题,本专利技术实施例提供以下技术方案:一种信息推荐方法,包括:获取候选文章集、以及所述候选文章集中每一候选文章的标题信息;根据所述候选文章集和标题信息确定候选词集;根据所述候选词集、标题信息和候选文章集生成候选标签组,所述候选标签组中每一候选标签对应至少一篇候选文章;根据所述候选词集、候选标签组和候选文章集建立推荐数据库;基于所述推荐数据库向用户推荐信息。为解决上述技术问题,本专利技术实施例还提供以下技术方案:一种信息推荐装置,包括:获取模块,用于获取候选文章集、以及所述候选文章集中每一候选文章的标题信息;确定模块,用于根据所述候选文章集和标题信息确定候选词集;生成模块,用于根据所述候选词集、标题信息和候选文章集生成候选标签组,所述候选标签组中每一候选标签对应至少一篇候选文章;建立模块,用于根据所述候选词集、候选标签组和候选文章集建立推荐数据库;推荐模块,用于基于所述推荐数据库向用户推荐信息。本专利技术所述的信息推荐方法及装置,通过获取候选文章集、以及该候选文章集中每一候选文章的标题信息,并根据该候选文章集和标题信息确定候选词集,之后,根据该候选词集、标题信息和候选文章集生成候选标签组,该候选标签组中每一候选标签对应至少一篇候选文章,之后,根据该候选词集、候选标签组和候选文章集建立推荐数据库,并基于该推荐数据库向用户推荐信息,从而无需用户进行海量检索即可得到感兴趣的文章,方法简单、获取效率高。附图说明下面结合附图,通过对本专利技术的具体实施方式详细描述,将使本专利技术的技术方案及其它有益效果显而易见。图1为本专利技术实施例提供的信息推荐方法的流程示意图;图2a为本专利技术实施例提供的信息推荐方法的流程示意图;图2b为本专利技术实施例提供的步骤S204的流程示意图;图2c为本专利技术实施例提供的候选标签的推荐流程示意图;图2d为本专利技术实施例提供的候选文章的推荐流程示意图;图3a为本专利技术实施例提供的信息推荐装置的结构示意图;图3b为本专利技术实施例提供的生成模块的结构示意图;图3c为本专利技术实施例提供的建立模块的结构示意图;图4本专利技术实施例提供的服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供一种信息推荐方法和装置。以下分别进行详细说明。需说明的是,以下实施例的编号并不作为对实施例优选顺序的限定。第一实施例本实施例将从信息推荐装置的角度进行描述,该信息推荐装置具体可以作为独立的实体来实现,也可以集成在其他的设备,比如服务器中来实现,该服务器可以是应用服务器。一种信息推荐方法,包括:获取候选文章集、以及该候选文章集中每一候选文章的标题信息,并根据该候选文章集和标题信息确定候选词集,之后,根据该候选词集、标题信息和候选文章集生成候选标签组集,每一候选词对应一个候选标签组,每一候选标签对应至少一篇候选文章,之后,根据该候选词集、候选标签组集和候选文章集建立推荐数据库,并基于该推荐数据库向用户推荐信息。如图1所示,该信息推荐方法的具体流程可以如下:S101、获取候选文章集、以及该候选文章集中每一候选文章的标题信息。本实施例中,该候选文章集包括至少一篇候选文章,该候选文章主要包括指定领域(比如美妆领域)的讲述类文章,这些讲述类文章可以是直接从网络下载的,也可以是本地存储的。该讲述类文章是指具有连续讲述步骤的文章,其包括字符和图像,每一字符包括汉字、字母或数字。每个讲述步骤是一个字符段落,一个图像也是一个段落,且每个讲述步骤都配有相应的图像。每一候选文章可以包括标题信息和正文内容,通常,该标题信息用于概括正文内容所描述的主题,其主要包括字符,该正文内容可以包括字符和图像。S102、根据该候选文章集和标题信息确定候选词集。例如,上述步骤S102具体可以包括:1-1、对该候选文章集中每一候选文章进行分词处理,得到词集。本实施例中,该词集包括至少一个词,每一个词包括至少两个字符。具体可以通过分词技术,比如基于字典、词库匹配的分词法(字符串匹配法),或者基于知识理解的分词法(语义分词法),或者基于词频度统计的分词法(统计分词法)等,对整个候选文章进行处理,得到每一侯选文章所包含的所有词。1-2、利用预设算法对该词集进行筛选操作,得到筛选后词集。本实施例中,该筛选后词集包括至少一个词,该预设算法可以根据需求而定,比如可以是TF-IDF(TermFrequency–InverseDocumentFrequency)算法,主要用于评估单个词对候选文章集的重要程度,具体可以结合单个词的出现频次和权重系数来计算重要程度,重要程度满足指定值的词可以存储在筛选后词集中。该出现频次主要指单个词的出现次数,该权重系数主要针对常见词和非常见词而设定的,通常,越常见的词设置的权重系数越小,比如对于“的”、“是”或者“在”等这种常见词,权重系数可以很小,对于“眼霜”这种非常见词,权重系数可以很大。1-3、根据该筛选后词集和标题信息确定候选词集。例如,上述步骤1-3具体可以包括:计算该筛选后词集中每一词在该标题信息中出现的总次数;将总次数大于第一预设阀值的词确定为候选词,并添入候选词集。本实施例中,该候选词集包括至少一个候选词,每一候选词主要是名词,也即表示名称的字符组合,比如眼霜、眼影或者BB霜等。该第一预设阈值可以根据候选文章集中候选文章的总量而定,比如可以是候选文章总数量的万分之一,主要用于过滤一些不常用的词,得到符合大多数用户用语习惯的词。S103、根据该候选词集、标题信息和候选文章集生成候选标签组,该候选标签组中每一候选标签对应至少一篇候选文章。本实施例中,该侯选标签组包括至少一个候选标签,每一侯选标签都是从标题信息中提炼出来的内容,通常都简明扼要的指示出候选文章的撰写意图,比如指示该候选文章是用来介绍某个产品性能的,还是用来介绍该产品是怎样使用的,或者是用来介绍该产品的制作工艺,等等,每一侯选标签一般都是一个短句,其字数少于标题信息所包含的字数。例如,上述步骤S103具体可以包括:2-1、根据该候选词集和标题信息对该候选文章集进行分组,得到待处理文章组,每一候选词对应一个待处理文章组。本实施例中,每一待处理文章组包括至少一篇候选文章。例如,上述步骤2-1具体可以包括:将每一候选文章的标本文档来自技高网...
一种信息推荐方法及装置

【技术保护点】
一种信息推荐方法,其特征在于,包括:获取候选文章集、以及所述候选文章集中每一候选文章的标题信息;根据所述候选文章集和标题信息确定候选词集;根据所述候选词集、标题信息和候选文章集生成候选标签组,所述候选标签组中每一候选标签对应至少一篇候选文章;根据所述候选词集、候选标签组和候选文章集建立推荐数据库;基于所述推荐数据库向用户推荐信息。

【技术特征摘要】
1.一种信息推荐方法,其特征在于,包括:获取候选文章集、以及所述候选文章集中每一候选文章的标题信息;根据所述候选文章集和标题信息确定候选词集;根据所述候选词集、标题信息和候选文章集生成候选标签组,所述候选标签组中每一候选标签对应至少一篇候选文章;根据所述候选词集、候选标签组和候选文章集建立推荐数据库;基于所述推荐数据库向用户推荐信息。2.根据权利要求1所述的信息推荐方法,其特征在于,所述根据所述候选词集、标题信息和候选文章集生成候选标签组,包括:根据所述候选词集和标题信息对所述候选文章集进行分组,得到待处理文章组,每一候选词对应一个待处理文章组;根据所述待处理文章组中待处理文章的标题信息和对应的候选词生成候选标签,并添入候选标签组。3.根据权利要求2所述的信息推荐方法,其特征在于,所述根据所述候选词集和标题信息对所述候选文章集进行分组,得到待处理文章组,包括:将每一候选文章的标题信息与所述候选词集中的候选词进行匹配;将与同一候选词匹配成功的所有候选文章归为同一组,得到待处理文章组。4.根据权利要求2所述的信息推荐方法,其特征在于,所述根据所述待处理文章组中待处理文章的标题信息和对应的候选词生成候选标签,并添入候选标签组,包括:对所述待处理文章组中每一候选文章的标题信息进行语法分析,得到词性信息;获取所述候选词在标题信息中出现的位置信息;根据所述候选词、位置信息、词性信息和标题信息生成候选标签,并添入候选标签组。5.根据权利要求4所述的信息推荐方法,其特征在于,所述根据所述候选词、位置信息、词性信息和标题信息生成候选标签,并添入候选标签组,包括:根据所述位置信息和词性信息,按照预设规则从所述待处理文章组的每一标题信息中确定目标词组,每一标题信息对应一个目标词组,每一目标词组包括至少一个目标词;根据每一目标词组和对应的候选词生成候选标签,并添入候选标签组。6.根据权利要求1所述的信息推荐方法,其特征在于,所述根据所述候选文章集和标题信息确定候选词集,包括:对所述候选文章集中每一候选文章进行分词处理,得到词集;利用预设算法对所述词集进行筛选操作,得到筛选后词集;根据所述筛选后词集和标题信息确定候选词集。7.根据权利要求6所述的信息推荐方法,其特征在于,所述根据所述筛选后词集和标题信息确定候选词集,包括:计算所述筛选后词集中每一词在所述标题信息中出现的总次数;将总次数大于第一预设阀值的词确定为候选词,并添入候选词集。8.根据权利要求1-7中任意一项所述的信息推荐方法,其特征在于,所述根据所述候选词集、候选标签组和候选文章集建立推荐数据库,包括:将所述候选文章集中具有相同候选标签的候选文章归为一组,得到候选文章组,每一候选标签对应一个候选文章组;建立所述候选词集中每一候选词与候选标签组之间的关联,得到第一关联关系;根据所述候选标签组和候选文章组确定第二关联关系;将所述第一关联关系和第二关联关系存储在推荐数据库中。9.根据权利要求8所述的信息推荐方法,其特征在于,所述根据所述候选标签组和候选文章组确定第二关联关系,包括:从所述候选文章组中提取出每一候选文章所包含的段落,得到段落组,每一候选文章对应一个段落组;根据所述段落组生成候选片段组,每一段落组对应一个候选片段组;建立每一候选标签和候选文章组之间、以及每一候选文章和候选片段组之间的关联,得到第二关联关系。10.根据权利要求9所述的信息推荐方法,其特征在于,所述根据所述段落组生成候选片段组,包括:从每一段落组中获取内容是图像的段落,作为目标段落;根据所述目标段落对所述段落组进行调整;将调整后段落组中的每一段落作为一个候选片段,得到候选片段组。11.根据权利要求10所述的信息推荐方法,其特征在于,所述根据所述目标段落对所述段落组进行调整,包括:从所述段落组中获取与所述目标段落相邻的下一个段落;计算获取的下一个段落的字数;将字数小于第二预设阀值的下一个段落合并到对应的目标段落中,以对所述段落组进行调整。12.根据权利要求9所述的信息推荐方法,其特征在于,所述基于所述推荐数据库向用户推荐信息,包括:获取信息推荐请求,所述信息推荐请求携带检索词;根据所述检索词和第一关联关系从所述推荐数据库中确定可选标签组;根据所述第二关联关系和可选标签组从所述推荐数据库中确定目标片段;向用户推荐所述目标片段。13.根据权利要求12所述的信息推荐方法,其特征在于,所述根据所述检索词和第一关联关系从所述推荐数据库中确定可选标签组,包括:将...

【专利技术属性】
技术研发人员:孙子荀
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1