一种成长激励型图书推荐方法及推荐系统技术方案

技术编号:23764881 阅读:66 留言:0更新日期:2020-04-11 19:18
本发明专利技术提出了一种成长激励型图书推荐方法,包括以下步骤:步骤一:收集图书的数据,并进行图书标签标注;步骤二:对所述图书的阅读数据进行特征提取,形成三维特征;所述三维特征包括:兴趣特征、心情特征和性格特征;步骤三:获取读者已读的图书信息,所述图书信息包括:三维特征与图书标签;计算读者已读图书与数据库中图书之间的距离,并根据k‑近邻的计算结果得到正向的推荐图书;通过统计读者已读图书的图书标签计算其反向标签,生成反向的推荐图书。本发明专利技术还提出了一种成长激励型图书推荐系统。

A kind of recommendation method and system of growing incentive books

【技术实现步骤摘要】
一种成长激励型图书推荐方法及推荐系统
本专利技术涉及一种推荐方法及推荐系统,特别是涉及一种图书的推荐方法及推荐系统。
技术介绍
随着电子化阅读的时代来临,“流量思维”的概念进入图书出版领域。通过顺应大规模用户眼球,吸引用户流量;“碎片化”阅读成为读者的常态,七成以上网民每日手机阅读市场为1至3小时,其中近半时间都贡献给了微信公众号和朋友圈,证明了所谓“数字阅读”的大多是碎片化、无目的性的阅读,难以使人沉淀下来深入挖掘与思考。一来是读者的阅读习惯趋于“快餐式”与“扁平化”,二来,随着生活习惯的变化,读者获取图书的渠道也受限于一些主流图书电商和营销机构的“垄断”。在流量与营销媒体占尽各领域眼球的当下,缺乏阅读经验的读者往往只能接收到大众化的、漫无目的的阅读推荐,而对热爱阅读的读者而言,其真正渴望获得的优质阅读资源又容易被淹没在纷繁的营销洪流中。在这样的背景下,如何使为读者提供真正个性化的、优质的荐书体验成为读者阅读体验的重中之重。以亚马逊、当当网、豆瓣读书为例,它们利用用户数据进行个性化图书推荐的方式可大致分为四类:(1)基于用户历史行为共同性的推荐,主要基于“协同过滤”概念,其原理依据是“人以群分,物以类聚”[1];(2)基于用户行为推测其兴趣,即根据用户搜索、浏览、购买图书的行为来推测其兴趣,推荐该兴趣分类中的畅销书籍;(3)组合搭配推荐,根据当前页面的图书推荐同类图书;(4)社会化推荐板块,通过用户自己的社交关系来获得图书推荐[2]。综合分析上述推荐方法,可得到影响主流荐书算法的3类核心数据:第一是用户行为的相似度数据,第二是图书的细分分类(以便于推荐同类畅销书),第三是用户的社交关系。这些方法中存在三个主要问题:第一,算法极易受潮流影响。图书销量直接影响协同过滤算法中同伴的购买行为数据及推荐列表中的排序。但是好的图书需要时间的沉淀,销量不能保证图书质量,更不能保证图书是否适合读者本身;第二,此类算法推荐图书时采用的是与其他类型产品一样的推荐方案,没有利用书本自身独特的特性,如图书的文本内容、读者感受等。这样就无法根据书本特性进一步优化图书推荐算法;第三,算法仅注重强化用户行为,忽视了读者的全面成长。可以容易地发现,上述算法只能推荐与读者已读书籍同类或者有关联的书,但这样也会使读者的阅读内容日益狭隘,无异于读者的全面成长。
技术实现思路
本专利技术提出了一种成长激励型的图书推荐方法,通过读者的阅读数据,建立兴趣、心情、性格三维读者画像,并以正向推荐与反向推荐结合的方式,从深度与宽度上拓展读者的阅读面,从而激励读者通过阅读全面成长。图1以思维导图的形式展示了深度推荐与广度推荐对读者阅读面产生影响的示意图,其中黑色表示读者读过的书籍,灰色代表推荐阅读的书籍。本专利技术提出的成长激励型图书推荐方法,包括以下步骤:步骤一:收集图书的数据,并进行图书标签标注;步骤二:对所述图书的阅读数据进行特征提取,形成三维特征;所述三维特征包括:兴趣特征、心情特征和性格特征;步骤三:获取读者已读的图书信息,所述图书信息包括:三维特征与图书标签;计算读者已读图书与数据库中图书之间的距离,并根据k-近邻的计算结果得到正向的推荐图书;通过统计读者已读图书的图书标签计算其反向标签,生成反向的推荐图书。本专利技术中,所述收集图书的数据为采用网络爬虫的方式,从图书网站爬取图书的基本数据和详情数据;所述图书标签标注为爬取图书网站上的所有图书标签,统计其中出现次数总量最高的前N个高频标签,对高频标签和非高频标签分别进行手动及自动的性格标注;所述N为在所有图书标签中出现次数在前6%的标签的数量。本专利技术中,所述基本数据包括图书的书名、作者、出版社,作为所有已出版图书的索引;所述详情数据包括图书的内容简介、标签、书评,用于内容特征、情感特征的提取。本专利技术中,所述三维特征包括:从所述兴趣特征通过内容简介提取;所述心情特征从所述书评中提取;所述性格特征通过性格标注整合来得到。本专利技术中,所述心情特征包括:伤心、喜欢、开心、厌恶、愤怒、害怕、惊喜;所述性格标注包括:爱、逻辑、深度、想象力、知识。本专利技术中,通过接收读者输入的书名,与图书数据匹配,从而得到读者已读的图书信息;所述与图书数据匹配方法输入为用户输入的书名与图书数据,输出为匹配到的图书b,包括以下步骤:1)利用图书数据B初始化词袋模型model;2)定义bag()函数,用于计算语句间的距离;3)定义bleu()函数,用于计算语句间的BLEU值;4)通过词袋模型model将输入书名K转换为向量ref,ref=model(K);5)将图书数据转化为向量列表sources,sources=model(B);6)设置一个新的向量Score=0;7)对于sources中的每一个元素source,循环执行g.1-g.3;7.1)计算向量ref的BLEU值Bleu_score,Bleu_score=bleu(ref,source);7.2)计算向量ref与图书数据之间的距离Bag_score,Bag_score=bag(ref,source);7.3)找到Score,Bleu_score,Bag_score中的最大值,保存到Score;8)找到使Score值最大的source;9)找到source在图书数据B中对应的图书b;10)返回图书b。本专利技术中,所述兴趣特征提取方法输入是图书兴趣特征列表F,特征长度n,图书兴趣特征列表F的长度N,输出是读者兴趣特征P,包括以下步骤:1)初始化聚类个数k,k=2;2)随机生产k个特征向量,保存在矩阵centroids,centroids的尺寸为(k,n);3)初始化矩阵dist,尺寸为(N,2);4)初始化m=0;5)循环执行5.1-5.3,直到跳出循环;5.1)当矩阵centroids没有发生变化时,循环执行5.1.1-5.1.2.2;5.1.1)对F中的每个元素f,循环执行5.1.1.1-5.1.1.2;5.1.1.1)计算离元素f最近的矩阵centroids中的点c与相应的距离d;5.1.1.2)将(c,d)保存在矩阵dist中对应元素f的行;5.1.2)对矩阵centroids中的每个元素c,循环执行5.1.2.1-5.1.2.2;5.1.2.1)从图书兴趣特征列表F中取出所有以元素c为最近邻的特征点,保存在读者兴趣画像P,P=F[dist[:,0]==c];5.1.2.2)更新元素c,设元素c为读者兴趣画像P集合的中心点,c=mean(P,axis=0);5.2)根据中心点与聚类的点之间的距离计算平均绝对误差MAE,保存在m′,m′=MAE(centroids,dist);5.3)判断是否m′>=m;5.3.1)跳出循环;5.4)如果m′<m;5.4.1)本文档来自技高网
...

【技术保护点】
1.一种成长激励型图书推荐方法,其特征在于,包括以下步骤:/n步骤一:收集图书的数据,并进行图书标签标注;/n步骤二:对所述图书的阅读数据进行特征提取,形成三维特征;所述三维特征包括:兴趣特征、心情特征和性格特征;/n步骤三:获取读者已读的图书信息,所述图书信息包括:三维特征与图书标签;计算读者已读图书与数据库中图书之间的距离,并根据k-近邻的计算结果得到正向的推荐图书;通过统计读者已读图书的图书标签计算其反向标签,生成反向的推荐图书。/n

【技术特征摘要】
1.一种成长激励型图书推荐方法,其特征在于,包括以下步骤:
步骤一:收集图书的数据,并进行图书标签标注;
步骤二:对所述图书的阅读数据进行特征提取,形成三维特征;所述三维特征包括:兴趣特征、心情特征和性格特征;
步骤三:获取读者已读的图书信息,所述图书信息包括:三维特征与图书标签;计算读者已读图书与数据库中图书之间的距离,并根据k-近邻的计算结果得到正向的推荐图书;通过统计读者已读图书的图书标签计算其反向标签,生成反向的推荐图书。


2.如权利要求1所述的成长激励型图书推荐方法,其特征在于,所述收集图书的数据为采用网络爬虫的方式,从图书网站爬取图书的基本数据和详情数据;所述图书标签标注为爬取图书网站上的所有图书标签,统计其中出现次数总量最高的前N个高频标签,对高频标签和非高频标签分别进行手动及自动的性格标注;所述N为在所有图书标签中出现次数在前6%的标签的数量。


3.如权利要求2所述的成长激励型图书推荐方法,其特征在于,所述基本数据包括图书的书名、作者、出版社,作为所有已出版图书的索引;所述详情数据包括图书的内容简介、标签、书评,用于内容特征、情感特征的提取。


4.如权利要求2所述的成长激励型图书推荐方法,其特征在于,所述三维特征包括:从所述兴趣特征通过内容简介提取;所述心情特征从所述书评中提取;所述性格特征通过性格标注整合来得到。


5.如权利要求4所述的成长激励型图书推荐方法,其特征在于,所述心情特征包括:伤心、喜欢、开心、厌恶、愤怒、害怕、惊喜;所述性格标注包括:爱、逻辑、深度、想象力、知识。


6.如权利要求1所述的成长激励型图书推荐方法,其特征在于,通过接收读者输入的书名,与图书数据匹配,从而得到读者已读的图书信息;所述与图书数据匹配方法输入为用户输入的书名与图书数据,输出为匹配到的图书b,包括以下步骤:
1)利用图书数据B初始化词袋模型model;
2)定义bag()函数,用于计算语句间的距离;
3)定义bleu()函数,用于计算语句间的BLEU值;
4)通过词袋模型model将输入书名K转换为向量ref,ref=model(K);
5)将图书数据转化为向量列表sources,sources=model(B);
6)设置一个新的向量Score=0;
7)对于sources中的每一个元素source,循环执行g.1-g.3;
7.1)计算向量ref的BLEU值Bleu_score,Bleu_score=bleu(ref,source);
7.2)计算向量ref与图书数据之间的距离Bag_score,Bag_score=bag(ref,source);
7.3)找到Score,Bleu_score,Bag_score中的最大值,保存到Score;
8)找到使Score值最大的source;
9)找到source在图书数据B中对应的图书b;
10)返回图书b。


7.如权利要求1所述的成长激励型图书推荐方法,其特征在于,所述兴趣特征提取方法输入是图书兴趣特征列表F,特征长度n,图书兴趣特征列表F的长度N,输出是读者兴趣特征P,包括以下步骤:
1)初始化聚类个数k,k=2;
2)随机生产k个特征向量,保存在矩阵centroids,centroids的尺寸为(k,n);
3)初始化矩阵dist,尺寸为(N,2);
4)初始化m=0;
5)循环执行5.1-5.3,直到跳出循环;
5.1)当矩阵centroids没有发生变化时,循环执行5.1.1-5.1.2.2;
5.1.1)对F中的每个元素f,循环执行5.1.1.1-5.1.1.2;
5.1.1.1)计算离元素f最近的矩阵centroids中的点c与相应的...

【专利技术属性】
技术研发人员:唐博远陈伟婷金加宝胡鸿伟
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1