人才推荐方法和装置制造方法及图纸

技术编号:16500228 阅读:60 留言:0更新日期:2017-11-04 11:25
本发明专利技术提供了一种人才推荐方法和装置;其中,该方法包括从预设的数据库中获取文本数据;其中,文本数据至少包括文章、论文和网页文本中的一种;根据文本数据的发布时间,对文本数据进行分类;采用分层狄利克雷过程的方式,对每个类型对应的文本数据进行主题提取处理;根据处理结果,获取当前时间段的热门主题;将热门主题对应的文本数据的作者作为人才进行推荐。本发明专利技术可以灵活准确地获取每个时间段内的主题以及当前的热门主题,避免了人为设置主题个数造成的提取出的主题冗余度大或主题遗漏的问题,进而提高了根据热门主题推荐人才的准确性和灵活性。

Talent recommendation method and device

The present invention provides a method and apparatus for the talent recommendation;, the method includes obtaining text data from the set database; the text data including at least one kind of articles, papers and web pages in the text; according to the text data published on text data for classification; hierarchical Dirichlet process on the way, each type of text data corresponding to the theme extraction processing; according to the results, the hot topic to obtain the current time; the text data corresponding to the author of the popular theme as talent recommendation. The invention can flexibly and accurately obtain each time the theme and popular themes of the day to avoid the redundant theme extracted large number of missing or theme setting theme caused problems, and improve the accuracy of recommendation according to the popular theme talent and flexibility.

【技术实现步骤摘要】
人才推荐方法和装置
本专利技术涉及数据检索
,尤其是涉及一种人才推荐方法和装置。
技术介绍
为了获取主题随着时间的演化规律,现有技术中通常通过如下三种方法:一是将时间信息结合到LDA模型,在LDA模型中引入时间因素,使得每个主题增添了一个时间属性,进而表达主题在不同时间的分布情况;二是首先使用LDA获取主题,再检索并量化主题在时间上的分布情况;三是先将文本离散到与之对应的时间窗上,再根据每个时间窗上的文本集合进行主题提取。上述三种方法均属于简单主题演化,采用上述方法进行主题演化时,易造成不同时间窗主题个数固定的问题,进而导致根据热门主题进行人才推荐的方式灵活度和准确度较低。针对上述人才推荐的方式灵活度和准确度较低的问题,尚未提出有效的解决方案。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种人才推荐方法和装置,以提高根据热门主题推荐人才的准确性和灵活性。第一方面,本专利技术实施例提供了一种人才推荐方法,包括:从预设的数据库中获取文本数据;其中,文本数据至少包括文章、论文和网页文本中的一种;根据文本数据的发布时间,对文本数据进行分类;采用分层狄利克雷过程的方式,对每个类型对应的文本数据进行主题提取处理;根据处理结果,获取当前时间段的热门主题;将热门主题对应的文本数据的作者作为人才进行推荐。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,上述根据文本数据的发布时间,对文本数据进行分类的步骤,包括:提取文本数据的发布时间;将发布时间分别与预先设置的多个时间段进行匹配;根据匹配结果确定文本数据所属的时间段。结合第一方面的第一种可能的实施方式,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,上述采用分层狄利克雷过程的方式,对每个类型对应的文本数据进行主题提取处理的步骤,包括:逐一获取每个时间段对应的文本数据;采用分层狄利克雷过程的方式,对每个时间段对应的文本数据进行主题提取处理,生成每个时间段对应的主题。结合第一方面的第二种可能的实施方式,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,上述根据处理结果,获取当前时间段对应的热门主题的步骤,包括:计算各个时间段内主题的出现频率,生成主题的演变规律;其中,演变规律为主题的出现频率与各个时间段的对应关系;根据主题的演变规律,确定当前时间段对应的热门主题。结合第一方面,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,上述将热门主题对应的文本数据的作者作为人才进行推荐的步骤,包括:获取热门主题对应的文本数据的作者;按照预设的排序条件,对作者进行排序;其中,预设的排序条件至少包括同一作者的文本数据的数量和文本数据的权重值中的一种;将排序结果满足预设阈值的作者作为人才进行推荐。第二方面,本专利技术实施例提供了一种人才推荐装置,包括:数据获取模块,用于从预设的数据库中获取文本数据;其中,文本数据至少包括文章、论文和网页文本中的一种;分类模块,用于根据文本数据的发布时间,对文本数据进行分类;主题提取模块,用于采用分层狄利克雷过程的方式,对每个类型对应的文本数据进行主题提取处理;主题获取模块,用于根据处理结果,获取每个类型对应的热门主题;人才推荐模块,用于将热门主题对应的文本数据的作者作为人才进行推荐。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中,上述分类模块,包括:时间提取单元,用于提取文本数据的发布时间;匹配单元,用于将发布时间分别与预先设置的多个时间段进行匹配;确定单元,用于根据匹配结果确定文本数据所属的时间段。结合第二方面的第一种可能的实施方式,本专利技术实施例提供了第二方面的第二种可能的实施方式,其中,上述主题提取模块,包括:数据获取单元,用于逐一获取每个时间段对应的文本数据;主题提取单元,用于采用分层狄利克雷过程的方式,对每个时间段对应的文本数据进行主题提取处理,生成每个时间段对应的主题。结合第二方面的第二种可能的实施方式,本专利技术实施例提供了第二方面的第三种可能的实施方式,其中,上述主题获取模块,包括:计算单元,用于计算各个时间段内主题的出现频率,生成主题的演变规律;其中,演变规律为主题的出现频率与各个时间段的对应关系;主题确定单元,用于根据主题的演变规律,确定当前时间段对应的热门主题。结合第二方面,本专利技术实施例提供了第二方面的第四种可能的实施方式,其中,上述人才推荐模块,包括:作者获取单元,用于获取热门主题对应的文本数据的作者;排序单元,用于按照预设的排序条件,对作者进行排序;其中,预设的排序条件至少包括同一作者的文本数据的数量和文本数据的权重值中的一种;人才推荐单元,用于将排序结果满足预设阈值的作者作为人才进行推荐。本专利技术实施例带来了以下有益效果:本专利技术实施例提供的一种人才推荐方法和装置,根据文本数据的发布时间,对获取到的文本数据进行分类;再采用分层狄利克雷过程的方式,对每个类型对应的文本数据进行主题提取处理,并获取当前时间段的热门主题;进而将热门主题对应的文本数据的作者作为人才进行推荐。该方式可以灵活准确地获取每个时间段内的主题以及当前的热门主题,避免了人为设置主题个数造成的提取出的主题冗余度大或主题遗漏的问题,进而提高了根据热门主题推荐人才的准确性和灵活性。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的第一种人才推荐方法的流程图;图2为本专利技术实施例提供的第二种人才推荐方法的流程图;图3为本专利技术实施例提供的第三种人才推荐方法的流程图;图4为本专利技术实施例提供的一种人才推荐装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。考虑到现有的人才推荐方式灵活度和准确度较低的问题,本专利技术实施例提供了一种人才推荐方法和装置;该技术可以应用于通过论文、文章及其他文本资料的数据库中获取当前热门主题的专家人才的场景中,尤其可以应用于通过主题演化模型的方式获取当前热门主题的专家人才的场景中。为便于对本实施例进行理解,首先对本专利技术实施例所公开的一种人才推荐方法进行详细介绍。实施例一:参见图1所示的第一种人才推荐方法的流程图,该方法包括如下步骤:步骤S102,从预设的数据库中获取文本数据;其中,该文本数据至少包括文章、论文和网页文本中的一种;例如,上述数据库可以为涵盖有多个领域(包括工业、农业、医药等等)、多种文献形式(包括学位论文、会本文档来自技高网...
人才推荐方法和装置

【技术保护点】
一种人才推荐方法,其特征在于,包括:从预设的数据库中获取文本数据;其中,所述文本数据至少包括文章、论文和网页文本中的一种;根据所述文本数据的发布时间,对所述文本数据进行分类;采用分层狄利克雷过程的方式,对每个类型对应的所述文本数据进行主题提取处理;根据处理结果,获取当前时间段的热门主题;将所述热门主题对应的所述文本数据的作者作为人才进行推荐。

【技术特征摘要】
1.一种人才推荐方法,其特征在于,包括:从预设的数据库中获取文本数据;其中,所述文本数据至少包括文章、论文和网页文本中的一种;根据所述文本数据的发布时间,对所述文本数据进行分类;采用分层狄利克雷过程的方式,对每个类型对应的所述文本数据进行主题提取处理;根据处理结果,获取当前时间段的热门主题;将所述热门主题对应的所述文本数据的作者作为人才进行推荐。2.根据权利要求1所述的方法,其特征在于,所述根据所述文本数据的发布时间,对所述文本数据进行分类的步骤,包括:提取所述文本数据的发布时间;将所述发布时间分别与预先设置的多个时间段进行匹配;根据匹配结果确定所述文本数据所属的时间段。3.根据权利要求2所述的方法,其特征在于,所述采用分层狄利克雷过程的方式,对每个类型对应的所述文本数据进行主题提取处理的步骤,包括:逐一获取每个时间段对应的所述文本数据;采用分层狄利克雷过程的方式,对每个时间段对应的所述文本数据进行主题提取处理,生成每个时间段对应的主题。4.根据权利要求3所述的方法,其特征在于,所述根据处理结果,获取当前时间段对应的热门主题的步骤,包括:计算各个时间段内所述主题的出现频率,生成所述主题的演变规律;其中,所述演变规律为所述主题的出现频率与各个时间段的对应关系;根据所述主题的所述演变规律,确定当前时间段对应的热门主题。5.根据权利要求1所述的方法,其特征在于,所述将所述热门主题对应的所述文本数据的作者作为人才进行推荐的步骤,包括:获取所述热门主题对应的所述文本数据的作者;按照预设的排序条件,对所述作者进行排序;其中,预设的排序条件至少包括同一作者的所述文本数据的数量和所述文本数据的权重值中的一种;将排序结果满足预设阈值的所述作者作为人才进行推荐。6.一种人才推荐装置,其特征...

【专利技术属性】
技术研发人员:李微王泽华吴志成张健徐衔郭晓茹
申请(专利权)人:三螺旋大数据科技昆山有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1