【技术实现步骤摘要】
基于文本相似性的课程推荐方法及相关设备
本专利技术涉及数据处理领域,尤其涉及一种基于文本相似性的课程推荐方法、装置、计算机装置及存储介质。
技术介绍
在互联网广泛普及的时代,人们越来越倾向于在互联网上获取知识,互联网在线课程因其观看便捷、形式多样、可重复学习等特性受到用户的喜爱。在线课程视频种类繁多,不同的教育领域下,还有很多细分的子领域,如何找到用户喜欢的课程,是在线教育行业亟待解决的问题。传统的解决方法需要基于大量的用户行为记录进行课程推荐,例如,一种是简单的依据课程点击量、观看时长等进行统计排序,评价课程的热度然后将排在最前面的N个课程组成热度排行榜,然而这种方法只关注用户有行为的课程,用户的操作行为越多,得到推荐的机会越大,那些没有用户行为的课程将不会被推荐;另一种方法是协同过滤,其基本思路是推荐与用户相似的群体看过的课程或者是推荐与用户看过的课程相似的课程,这种方法同样需要利用用户的行为信息或者是用户对课程的操作信息。因而,有必要提供一种课程推荐方法,能够降低对用户行为记录的依赖,提高课程推荐的效率 ...
【技术保护点】
1.一种基于文本相似性的课程推荐方法,其特征在于,所述基于文本相似性的课程推荐方法包括:/n获取预设数据库中课程的内容特征,其中,所述内容特征包括课程的标题、课程的主题及课程的简介;/n根据所述内容特征构建课程内容语料库;/n调用TF-IDF模型识别所述课程内容语料库得到第一向量,调用主题模型识别所述课程语料库得到第二向量,调用Word2vec模型识别所述课程内容语料库得到第三向量;/n确定所述第一向量对应的第一最优权值,确定所述第二向量对应的第二最优权值,确定所述第三向量对应的第三最优权值,并根据所述第一最优权值、所述第二最优权值及所述第三最优权值构建课程的最终向量;/n ...
【技术特征摘要】
1.一种基于文本相似性的课程推荐方法,其特征在于,所述基于文本相似性的课程推荐方法包括:
获取预设数据库中课程的内容特征,其中,所述内容特征包括课程的标题、课程的主题及课程的简介;
根据所述内容特征构建课程内容语料库;
调用TF-IDF模型识别所述课程内容语料库得到第一向量,调用主题模型识别所述课程语料库得到第二向量,调用Word2vec模型识别所述课程内容语料库得到第三向量;
确定所述第一向量对应的第一最优权值,确定所述第二向量对应的第二最优权值,确定所述第三向量对应的第三最优权值,并根据所述第一最优权值、所述第二最优权值及所述第三最优权值构建课程的最终向量;
根据所述课程的最终向量计算任意两个课程的相似度,并根据所述任意两个课程的相似度得到所述预设数据库中所有课程的相似度矩阵;
获取所述预设数据库中与用户身份信息对应的历史观看课程,并根据所述历史观看课程调用所述相似度矩阵,向所述用户推荐课程列表。
2.根据权利要求1所述的基于文本相似性的课程推荐方法,其特征在于,所述确定所述第一向量对应的第一最优权值,确定所述第二向量对应的第二最优权值,确定所述第三向量对应的第三最优权值的步骤包括:
获取带有标签的文本相似数据集,所述标签用于标识所述文本相似数据集中的文本是否相似;
调用TF-IDF模型识别所述文本相似数据集得到第四向量,调用主题模型识别所述文本相似数据集得到第五向量,调用Word2vec模型识别所述文本相似数据集得到第六向量;
将所述第四向量、所述第五向量及所述第六向量进行横向拼接,得到横向拼接向量;
调用集成树模型训练所述横向拼接向量,得到第一Shaply值;
按照竖向维度对所述第一Shaply值取绝对平均并缩放到[0,1]空间,得到所述第四向量、所述第五向量及所述第六向量对应的第二Shaply值;
将所述第二Shaply值求和取平均分别得到所述第一最优权值、所述第二最优权值与所述第三最优权值。
3.根据权利要求1所述的基于文本相似性的课程推荐方法,其特征在于,所述方法还包括:
按照预设时间间隔检测所述预设数据库中是否存在新增课程;
当检测结果为所述预设数据库中存在新增课程时,获取所述新增课程的数量;
判断所述数量是否超过预设新增数量阈值;
当判断结果为所述数量超过预设新增数量阈值时,调用第一更新规则更新所述相似度矩阵;
当判断结果为所述数量未超过预设新增数量阈值时,调用第二更新规则更新所述相似度矩阵。
4.根据权利要求3所述的基于文本相似性的课程推荐方法,其特征在于,所述调用第一更新规则更新所述相似度矩阵的步骤包括:
获取所述新增课程的新增内容特征,其中,所述新增内容特征包括新增课程的标题、新增课程的主题及新增课程的简介;
根据所述新增内容特征更新所述课程内容语料库;
调用TF-IDF模型识别更新后的课程内容语料库得到更新后的第一向量,调用主题模型识别更新后的课程内容语料库得到更新后的第二向量,调用Word2vec模型识别更新后的课程内容语料库得到更新后的第三向量;
确定更新后的第一向量对应的第一最优权值,确定更新后的第二向量对应的第二最优权值,确定更新后的第三向量对应的第三最优权值,并根据重新获取的所述第一最优权值、所述第二最优权值及所述第三最优权值更新所有课程的最终向量;
根据所有课程更新后的最终向量计算任意两个课程的相似度,...
【专利技术属性】
技术研发人员:黎洋,黎宇坤,
申请(专利权)人:中国平安财产保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。