一种数据处理方法、装置以及计算机可读存储介质制造方法及图纸

技术编号：22884043 阅读：17 留言：0更新日期：2019-12-21 07:19

本申请公开了一种数据处理方法、装置以及计算机可读存储介质，该方法包括：获取电子读物中的多个标记文本，确定多个标记文本中任意两个标记文本之间的相似度；多个标记文本均属于电子读物中的文本内容；根据相似度，对多个标记文本进行分组，得到标记文本集合；根据标记文本集合，在多个标记文本中选择目标标记文本；根据目标标记文本，生成电子读物对应的推荐栏。采用本申请，提高了目标标记文本选取的准确性，从而提高了所生成的电子读物的推荐栏的准确性。

A data processing method, device and computer readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法、装置以及计算机可读存储介质
本申请涉及数据处理的
，尤其涉及一种数据处理方法、装置以及计算机可读存储介质。
技术介绍
随着计算机网络的不断发展，电子书籍逐渐替代了纸质书籍，成为用户阅读书籍的主要方式。同时随着时间的推移，网络上可供用户阅读的电子书籍的数量已经异常庞大，导致向用户推荐的电子读物的数量也非常多，因此，用户也很难从向其推荐的电子读物中选择出想要阅读的电子读物。当前技术中，通常是通过电子读物的封面以及标题，来生成电子读物的推荐栏，推荐栏中的封面以及标题即是用于引导用户阅读相应的电子书籍。但是，仅仅通过电子书籍的封面以及标题，并不能让用户判断出是否想要对该电子书籍进行阅读。由此可知，在当前技术中，针对电子书籍的推荐栏的生成方式不准确且单一。申请内容本申请提供了一种数据处理方法、装置以及计算机可读存储介质，可丰富电子读物的推荐栏的生成方式，同时可提高电子读物的推荐栏的生成准确性。本申请一方面提供了一种数据处理方法，应用于服务器，包括：获取电子读物中的多个标记文本，确定所述多个标记文本中任意两个标记文本之间的相似度；所述多个标记文本均属于所述电子读物中的文本内容；根据所述相似度，对所述多个标记文本进行分组，得到标记文本集合；根据所述标记文本集合，在所述多个标记文本中选择目标标记文本；根据所述目标标记文本，生成所述电子读物对应的推荐栏。其中，所述获取电子读物中的多个标记文本，确定所述多个标记文本中任意两个标记文本之间的相似...

【技术保护点】
1.一种数据处理方法，其特征在于，应用于服务器，包括：/n获取电子读物中的多个标记文本，确定所述多个标记文本中任意两个标记文本之间的相似度；所述多个标记文本均属于所述电子读物中的文本内容；/n根据所述相似度，对所述多个标记文本进行分组，得到标记文本集合；/n根据所述标记文本集合，在所述多个标记文本中选择目标标记文本；/n根据所述目标标记文本，生成所述电子读物对应的推荐栏。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，应用于服务器，包括：
获取电子读物中的多个标记文本，确定所述多个标记文本中任意两个标记文本之间的相似度；所述多个标记文本均属于所述电子读物中的文本内容；
根据所述相似度，对所述多个标记文本进行分组，得到标记文本集合；
根据所述标记文本集合，在所述多个标记文本中选择目标标记文本；
根据所述目标标记文本，生成所述电子读物对应的推荐栏。

2.根据权利要求1所述的方法，其特征在于，所述获取电子读物中的多个标记文本，确定所述多个标记文本中任意两个标记文本之间的相似度，包括：
获取所述多个标记文本中的任意两个标记文本，作为第一标记文本和第二标记文本；
对所述第一标记文本进行分词，得到第一分词结果，对所述第二标记文本进行分词，得到第二分词结果；
根据所述第一分词结果和所述第二分词结果，确定所述第一标记文本和所述第二标记文本之间的语义相似度；
将所述语义相似度，确定为所述第一标记文本和所述第二标记文本之间的所述相似度。

3.根据权利要求1所述的方法，其特征在于，所述获取电子读物中的多个标记文本，确定所述多个标记文本中任意两个标记文本之间的相似度，包括：
获取所述多个标记文本中的任意两个标记文本，作为第一标记文本和第二标记文本；
对所述第一标记文本和所述第二标记文本进行文本内容对比，得到所述第一标记文本中针对所述第二标记文本的第一相同文本占比，以及所述第二标记文本中针对所述第一标记文本的第二相同文本占比；
根据所述第一相同文本占比和所述第二相同文本占比，确定所述第一标记文本和所述第二标记文本之间的所述相似度。

4.根据权利要求1所述的方法，其特征在于，所述获取电子读物中的多个标记文本，确定所述多个标记文本中任意两个标记文本之间的相似度，包括：
获取所述多个标记文本中的任意两个标记文本，作为第一标记文本和第二标记文本；
确定所述第一标记文本与第二标记文本之间的编辑距离；
根据所述编辑距离，确定所述第一标记文本和所述第二标记文本之间的相似度。

5.根据权利要求2、3或4所述的方法，其特征在于，所述根据所述相似度，对所述多个标记文本进行分组，得到标记文本集合，包括：
将所述多个标记文本中所述相似度达到第一相似度阈值的标记文本，划分到相同的标记文本集合。

6.根据权利要求1所述的方法，其特征在于，所述根据所述标记文本集合，在所述多个标记文本中选择目标标记文本，包括：
获取所述标记文本集合中的每个标记文本对应的标记次数，根据所述每个标记文本对应的标记次数，确定所述标记文本集合对应的标记总次数；
将所述标记总次数最大的标记文本集合，确定为待选择集合；
从所述待选择集合中获取所述目标标记文本。

7.根据权利要求6所述的方法，其特征在于，所述从所述待选择集合中获取所述目标标记文本，包括：
根据所述待选择集合中的每个标记文本对应的标记次数，确定所述每个标记文本对应的概率分布；

【专利技术属性】
技术研发人员：许阳寅，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人