一种数据处理方法、装置以及计算机可读存储介质制造方法及图纸

技术编号:22884043 阅读:17 留言:0更新日期:2019-12-21 07:19
本申请公开了一种数据处理方法、装置以及计算机可读存储介质,该方法包括:获取电子读物中的多个标记文本,确定多个标记文本中任意两个标记文本之间的相似度;多个标记文本均属于电子读物中的文本内容;根据相似度,对多个标记文本进行分组,得到标记文本集合;根据标记文本集合,在多个标记文本中选择目标标记文本;根据目标标记文本,生成电子读物对应的推荐栏。采用本申请,提高了目标标记文本选取的准确性,从而提高了所生成的电子读物的推荐栏的准确性。

A data processing method, device and computer readable storage medium

【技术实现步骤摘要】
一种数据处理方法、装置以及计算机可读存储介质
本申请涉及数据处理的
,尤其涉及一种数据处理方法、装置以及计算机可读存储介质。
技术介绍
随着计算机网络的不断发展,电子书籍逐渐替代了纸质书籍,成为用户阅读书籍的主要方式。同时随着时间的推移,网络上可供用户阅读的电子书籍的数量已经异常庞大,导致向用户推荐的电子读物的数量也非常多,因此,用户也很难从向其推荐的电子读物中选择出想要阅读的电子读物。当前技术中,通常是通过电子读物的封面以及标题,来生成电子读物的推荐栏,推荐栏中的封面以及标题即是用于引导用户阅读相应的电子书籍。但是,仅仅通过电子书籍的封面以及标题,并不能让用户判断出是否想要对该电子书籍进行阅读。由此可知,在当前技术中,针对电子书籍的推荐栏的生成方式不准确且单一。申请内容本申请提供了一种数据处理方法、装置以及计算机可读存储介质,可丰富电子读物的推荐栏的生成方式,同时可提高电子读物的推荐栏的生成准确性。本申请一方面提供了一种数据处理方法,应用于服务器,包括:获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;所述多个标记文本均属于所述电子读物中的文本内容;根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;根据所述目标标记文本,生成所述电子读物对应的推荐栏。其中,所述获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度,包括:获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;对所述第一标记文本进行分词,得到第一分词结果,对所述第二标记文本进行分词,得到第二分词结果;根据所述第一分词结果和所述第二分词结果,确定所述第一标记文本和所述第二标记文本之间的语义相似度;将所述语义相似度,确定为所述第一标记文本和所述第二标记文本之间的所述相似度。其中,所述获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度,包括:获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;对所述第一标记文本和所述第二标记文本进行文本内容对比,得到所述第一标记文本中针对所述第二标记文本的第一相同文本占比,以及所述第二标记文本中针对所述第一标记文本的第二相同文本占比;根据所述第一相同文本占比和所述第二相同文本占比,确定所述第一标记文本和所述第二标记文本之间的所述相似度。其中,所述获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度,包括:获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;确定所述第一标记文本与第二标记文本之间的编辑距离;根据所述编辑距离,确定所述第一标记文本和所述第二标记文本之间的相似度。其中,所述根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合,包括:将所述多个标记文本中所述相似度达到第一相似度阈值的标记文本,划分到相同的标记文本集合。其中,所述根据所述标记文本集合,在所述多个标记文本中选择目标标记文本,包括:获取所述标记文本集合中的每个标记文本对应的标记次数,根据所述每个标记文本对应的标记次数,确定所述标记文本集合对应的标记总次数;将所述标记总次数最大的标记文本集合,确定为待选择集合;从所述待选择集合中获取所述目标标记文本。其中,所述从所述待选择集合中获取所述目标标记文本,包括:根据所述待选择集合中的每个标记文本对应的标记次数,确定所述每个标记文本对应的概率分布;根据所述概率分布,在所述待选择集合中随机选取所述目标标记文本。其中,所述从所述待选择集合中获取所述目标标记文本,包括:将所述待选择集合中,具有最大标记次数的标记文本确定为所述目标标记文本。其中,所述根据所述目标标记文本,生成所述电子读物对应的推荐栏,包括:获取第一用户对应的第一历史电子读物;当检测到所述第一历史电子读物与所述电子读物具有相同读物特征时,根据所述目标标记文本,生成所述电子读物对应的所述推荐栏;将所述推荐栏发送至所述第一用户对应的终端,以使所述终端在终端页面中输出所述推荐栏。其中,所述根据所述目标标记文本,生成所述电子读物对应的推荐栏,包括:当检测到第一用户与第二用户之间的用户相似度达到第二相似度阈值,且所述第二用户对应的第二历史电子读物中包括所述电子读物时,根据所述目标标记文本,生成所述电子读物对应的所述推荐栏;所述用户相似度指所述第一用户与所述第二用户的读物阅览偏好相似度;将所述推荐栏发送至所述第一用户对应的终端,以使所述终端在终端页面中输出所述推荐栏。本申请另一方面提供了一种数据处理方法,应用于终端,包括:获取服务器发送的电子读物对应的推荐栏;所述推荐栏是根据目标标记文本所生成的;所述目标标记文本是基于标记文本集合所获得的;所述标记文本集合是基于所述电子读物中的多个标记文本之间的相似度对所述多个标记文本进行分组得到的;将所述推荐栏输出至终端页面。其中,还包括:响应针对所述终端页面中的所述推荐栏的选择操作,跳转显示所述目标标记文本所在章节中的起始位置页面;或者,响应针对所述终端页面中的所述推荐栏的选择操作,跳转显示所述目标标记文本所在的页面。本申请一方面提供了一种数据处理装置,包括:第一获取模块,用于获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;所述多个标记文本均属于所述电子读物中的文本内容;分组模块,用于根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;选择模块,用于根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;生成模块,用于根据所述目标标记文本,生成所述电子读物对应的推荐栏。其中,所述第一获取模块,包括:第一获取单元,用于获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;分词单元,用于对所述第一标记文本进行分词,得到第一分词结果,对所述第二标记文本进行分词,得到第二分词结果;语义确定单元,用于根据所述第一分词结果和所述第二分词结果,确定所述第一标记文本和所述第二标记文本之间的语义相似度;第一确定单元,用于将所述语义相似度,确定为所述第一标记文本和所述第二标记文本之间的所述相似度。其中,所述第一获取模块,包括:第二获取单元,用于获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;对比单元,用于对所述第一标记文本和所述第二标记文本进行文本内容对比,得到所述第一标记文本中针对所述第二标记文本的第一相同文本占比,以及所述第二标记文本中针对所述第一标记文本的第二相同文本本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,应用于服务器,包括:/n获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;所述多个标记文本均属于所述电子读物中的文本内容;/n根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;/n根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;/n根据所述目标标记文本,生成所述电子读物对应的推荐栏。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于服务器,包括:
获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;所述多个标记文本均属于所述电子读物中的文本内容;
根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;
根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;
根据所述目标标记文本,生成所述电子读物对应的推荐栏。


2.根据权利要求1所述的方法,其特征在于,所述获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度,包括:
获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;
对所述第一标记文本进行分词,得到第一分词结果,对所述第二标记文本进行分词,得到第二分词结果;
根据所述第一分词结果和所述第二分词结果,确定所述第一标记文本和所述第二标记文本之间的语义相似度;
将所述语义相似度,确定为所述第一标记文本和所述第二标记文本之间的所述相似度。


3.根据权利要求1所述的方法,其特征在于,所述获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度,包括:
获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;
对所述第一标记文本和所述第二标记文本进行文本内容对比,得到所述第一标记文本中针对所述第二标记文本的第一相同文本占比,以及所述第二标记文本中针对所述第一标记文本的第二相同文本占比;
根据所述第一相同文本占比和所述第二相同文本占比,确定所述第一标记文本和所述第二标记文本之间的所述相似度。


4.根据权利要求1所述的方法,其特征在于,所述获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度,包括:
获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;
确定所述第一标记文本与第二标记文本之间的编辑距离;
根据所述编辑距离,确定所述第一标记文本和所述第二标记文本之间的相似度。


5.根据权利要求2、3或4所述的方法,其特征在于,所述根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合,包括:
将所述多个标记文本中所述相似度达到第一相似度阈值的标记文本,划分到相同的标记文本集合。


6.根据权利要求1所述的方法,其特征在于,所述根据所述标记文本集合,在所述多个标记文本中选择目标标记文本,包括:
获取所述标记文本集合中的每个标记文本对应的标记次数,根据所述每个标记文本对应的标记次数,确定所述标记文本集合对应的标记总次数;
将所述标记总次数最大的标记文本集合,确定为待选择集合;
从所述待选择集合中获取所述目标标记文本。


7.根据权利要求6所述的方法,其特征在于,所述从所述待选择集合中获取所述目标标记文本,包括:
根据所述待选择集合中的每个标记文本对应的标记次数,确定所述每个标记文本对应的概率分布;

【专利技术属性】
技术研发人员:许阳寅
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1