基于随机游走的书籍相似度计算方法及电子设备技术

技术编号:22722668 阅读:56 留言:0更新日期:2019-12-04 05:35
本发明专利技术公开了一种基于随机游走的书籍相似度计算方法、电子设备及存储介质,其中,基于随机游走的书籍相似度计算方法包括:获取针对书籍的用户交互行为数据;根据用户交互行为数据,确定每个用户对应的交互书籍序列;根据各个用户对应的交互书籍序列,构造得到书籍关联图;依据书籍关联图进行随机游走计算,得到每本书籍相对于其他书籍的书籍相似度矩阵。该技术方案能够基于针对书籍的用户交互行为数据,方便、便捷地构造书籍关联图,依据书籍关联图进行随机游走计算,快捷地得到每本书籍相对于其他书籍的书籍相似度矩阵,精准、有效地从用户角度反映书籍之间的相似度,有效地提高了书籍相似度的计算准确度,优化了书籍相似度计算方式。

Book similarity calculation method and electronic equipment based on random walk

The invention discloses a Book similarity calculation method, an electronic device and a storage medium based on random walk, wherein the book similarity calculation method based on random walk includes: obtaining the user interaction behavior data for books; determining the interaction Book sequence corresponding to each user according to the user interaction behavior data; and determining the interaction book sequence corresponding to each user according to the interaction Book sequence corresponding to each user, The book association graph is constructed, and the similarity matrix of each book relative to other books is obtained by random walk calculation based on the book association graph. Based on the user interaction behavior data of books, the technical scheme can construct the book association graph conveniently and conveniently, calculate the random walk according to the book association graph, quickly get the book similarity matrix of each book relative to other books, accurately and effectively reflect the similarity between books from the user's perspective, and effectively improve the calculation accuracy of the book similarity Degree, optimized the book similarity calculation method.

【技术实现步骤摘要】
基于随机游走的书籍相似度计算方法及电子设备
本专利技术涉及数据处理
,具体涉及一种基于随机游走的书籍相似度计算方法、电子设备及存储介质。
技术介绍
电子书形式的书籍由于具有获取方便等优势,受到了大量用户的喜爱。书籍阅读平台大多是按照书籍内容的相似度进行书籍推荐的。现有技术中书籍相似度计算方式大多为对书籍内容进行文本识别、分析等处理,基于分析结果得到书籍之间的相似度。然而,上述书籍相似度计算方式是基于文本内容得到的,无法从用户角度上反映书籍之间的相似度,准确度较差,进而导致在利用书籍之间的相似度进行书籍推荐时所推荐的书籍的采用率较低,推荐效果不佳。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于随机游走的书籍相似度计算方法、电子设备及存储介质。根据本专利技术的一个方面,提供了一种基于随机游走的书籍相似度计算方法,包括:获取针对书籍的用户交互行为数据;根据用户交互行为数据,确定每个用户对应的交互书籍序列;根据各个用户对应的交互书籍序列,构造得到书籍关联图;依据书籍关联图进行随机游走计算,得到每本书籍相对于其他书籍的书籍相似度矩阵。根据本专利技术的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:获取针对书籍的用户交互行为数据;根据用户交互行为数据,确定每个用户对应的交互书籍序列;根据各个用户对应的交互书籍序列,构造得到书籍关联图;依据书籍关联图进行随机游走计算,得到每本书籍相对于其他书籍的书籍相似度矩阵。根据本专利技术的又一方面,提供了一种存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:获取针对书籍的用户交互行为数据;根据用户交互行为数据,确定每个用户对应的交互书籍序列;根据各个用户对应的交互书籍序列,构造得到书籍关联图;依据书籍关联图进行随机游走计算,得到每本书籍相对于其他书籍的书籍相似度矩阵。根据本专利技术提供的技术方案,能够基于针对书籍的用户交互行为数据,方便、便捷地构造书籍关联图,依据书籍关联图进行随机游走计算,快捷地得到每本书籍相对于其他书籍的书籍相似度矩阵,所得到的书籍相似度矩阵能够精准、有效地从用户角度反映书籍之间的相似度,有效地提高了书籍相似度的计算准确度,优化了书籍相似度计算方式。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术实施例一的一种基于随机游走的书籍相似度计算方法的流程示意图;图2示出了根据本专利技术实施例二的一种基于随机游走的书籍相似度计算方法的流程示意图;图3a示出了一种书籍关联图示意图;图3b示出了另一种书籍关联图示意图;图4示出了书籍1对应的深度树的示意图;图5示出了根据本专利技术实施例四的一种电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。实施例一图1示出了根据本专利技术实施例一的一种基于随机游走的书籍相似度计算方法的流程示意图,如图1所示,该方法包括如下步骤:步骤S101,获取针对书籍的用户交互行为数据。针对书籍的用户交互行为数据为用于描述用户与书籍之间发生交互的数据,具体可包括:用户针对书籍的书籍阅读数据、书籍评论数据、书籍下载数据等。用户交互行为数据隐含着数据变化的规律,可用于分析书籍之间的关联关系。在步骤S101中,可从书籍阅读平台中获取其存储的书籍阅读数据、书籍评论数据、书籍下载数据等用户交互行为数据。步骤S102,根据用户交互行为数据,确定每个用户对应的交互书籍序列。通过对用户交互行为数据进行数据分析可获知每个用户与哪些书籍发生过交互以及书籍交互顺序,根据每个用户交互过的书籍以及书籍交互顺序,确定每个用户对应的交互书籍序列。其中,用户对应的交互书籍序列是指将该用户在书籍阅读平台中交互过的书籍按照书籍交互顺序进行排列后所得到的序列,用户对应的交互书籍序列能够从用户角度上反映书籍之间的关联关系。随着时间的不断增长,所产生的用户交互行为数据越来越多,为了能够准确、有效地反映在一定时间阶段内的书籍之间的关联关系,在步骤S102中可根据预设时间窗口内的用户交互行为数据来确定每个用户对应的交互书籍序列,本领域技术人员可根据实际需要对预设时间窗口的窗口范围进行设置,例如可将窗口范围设置为7天内。步骤S103,根据各个用户对应的交互书籍序列,构造得到书籍关联图。具体地,可对各个用户对应的交互书籍序列进行统计、分析等处理,得到任两本书籍之间的关联关系以及对应的关联权重值,关联关系可包括直接关联关系和间接关联关系,关联权重值与关联关系对应的用户数量有关;若任两本书籍之间具有直接关联关系,则将该两本书籍进行连接,形成这两本书籍之间的边,然后依据关联权重值,确定各个边的边权重值,从而构造得到书籍关联图。通过书籍关联图可直观、便捷地反映各本书籍之间的关联关系。其中,书籍关联图可以为有向图,也可以为无向图。若书籍关联图为有向图,那么根据书籍关联图还可获知用户针对书籍的交互顺序。步骤S104,依据书籍关联图进行随机游走计算,得到每本书籍相对于其他书籍的书籍相似度矩阵。在本专利技术中,为了便于描述,针对某一本书籍,将除该书籍之外的书籍称为其他书籍。在得到了书籍关联图之后,基于随机游走算法,依据书籍关联图进行随机游走计算,计算得到每本书籍相对于其他书籍的相似度,从而得到每本书籍相对于其他书籍的书籍相似度矩阵。其中,随机游走算法是基于扩散运输定律而形成的算法,随机游走的核心概念是指任何无规则行走者所带的守恒量都各自对应着一个扩散运输定律,是布朗运动理想的数学状态。具体地,针对书籍关联图中的每本书籍,从该书籍出发,通过与该书籍相连的边向与该书籍具有关联关系的一本其他书籍游走,通过迭代的随机游走,直至游走完所有与该书籍具有关联关系的其他书籍,随机游走结束;然后根据该书籍游走至每一本其他书籍的游走路径对应的边的游走概率,计算该书籍与每一本其他书籍之间的相似度,从而得到该书籍相对于其他书本文档来自技高网...

【技术保护点】
1.一种基于随机游走的书籍相似度计算方法,包括:/n获取针对书籍的用户交互行为数据;/n根据所述用户交互行为数据,确定每个用户对应的交互书籍序列;/n根据各个用户对应的交互书籍序列,构造得到书籍关联图;/n依据所述书籍关联图进行随机游走计算,得到每本书籍相对于其他书籍的书籍相似度矩阵。/n

【技术特征摘要】
1.一种基于随机游走的书籍相似度计算方法,包括:
获取针对书籍的用户交互行为数据;
根据所述用户交互行为数据,确定每个用户对应的交互书籍序列;
根据各个用户对应的交互书籍序列,构造得到书籍关联图;
依据所述书籍关联图进行随机游走计算,得到每本书籍相对于其他书籍的书籍相似度矩阵。


2.根据权利要求1所述的方法,所述根据所述用户交互行为数据,确定每个用户对应的交互书籍序列进一步包括:
针对每个用户,对该用户对应的用户交互行为数据进行数据分析,确定该用户交互过的书籍以及书籍交互顺序;
按照所述书籍交互顺序对该用户交互过的书籍进行排列,得到该用户对应的交互书籍序列。


3.根据权利要求2所述的方法,所述根据所述用户交互行为数据,确定每个用户对应的交互书籍序列进一步包括:
针对每个用户,对该用户对应的用户交互行为数据进行数据分析,确定每本书籍对应的交互时长;
从该用户对应的交互书籍序列中筛除交互时长小于预设时长的书籍。


4.根据权利要求1所述的方法,所述根据各个用户对应的交互书籍序列,构造得到书籍关联图进一步包括:
按照书籍交互顺序将各个用户对应的交互书籍序列进行拆分,得到多个书籍关联对,该书籍关联对包含任两本书籍及其关联关系;
对各个书籍关联对对应的用户数量进行统计,得到各个书籍关联对的关联权重值;
按照各个书籍关联对,确定各本书籍之间的边,并依据各个书籍关联对的关联权重值,确定各个边的边权重值,构造得到书籍关联图;所述书籍关联图具体为有向图或者无向图。


5.根据权利要求1所述的方法,所述依据所述书籍关联图进行随机游走计算,得到每本书籍相对于其他书籍的书籍相似度矩阵进一步包括:
针对所述书籍关联图中的每本书籍,从所述书籍关联图中查找与该书籍具有关联关系的其他书籍;
根据与该书籍具有关联关系的其他书籍,构造该书籍对应的深度树;
根据所述书籍关联图中该书籍与其他书籍之间的边的边权重值,计算该书籍对应的深度树中各层节点书籍之间的边的游走概率;
对该书籍对应的深度树进行随机游走计算,得到该书籍相对于其他书籍的书籍相似度矩阵。


6.根据权利要求5所述的方法,所述根据与该书籍具有关联关系的其他书籍,构造该书籍对应的深度树进一步包括:

【专利技术属性】
技术研发人员:王海璐曹雯潇
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1