一种提取读者兴趣标签的方法技术

技术编号:30971459 阅读:14 留言:0更新日期:2021-11-25 20:51
本申请提供了一种提取读者兴趣标签的方法,包括:采集读者在阅读过程中的阅读行为;获取所述阅读行为对应的内容对象,提取所述内容对象对应的标签;根据所述阅读行为对所述标签进行兴趣度计算,并根据计算结果进行排序;根据所述排序确定读者的兴趣标签。本申请通过对读者在数字资源内容阅读过程中的阅读行为进行分析,同时获取阅读行为操作的内容对象,通过标签提取技术提取内容对象的标签,然后进行标签的兴趣度计算,将计算完成的兴趣度进行排序,从而获得读者的兴趣标签。从而获得读者的兴趣标签。从而获得读者的兴趣标签。

【技术实现步骤摘要】
一种提取读者兴趣标签的方法


[0001]本申请涉及计算机应用
,特别涉及一种提取读者兴趣标签的方法。

技术介绍

[0002]随着数字出版技术的发展,数字资源越来越丰富,更多的人选择使用电子设备进行数字资源的阅读,如何快速方便的通过读者行为了解读者感兴趣的内容,进行精准推荐,帮助读者快速找到自己感兴趣的资源内容,是各类数字资源运营平台面临的一个问题。
[0003]现有技术采用的方式多为通过读者检索内容、读者资源点击、读者资源购买等读者行为,再通过检索内容、被点击及购买资源的摘要、资源分类、关键字等相关信息分析获取读者感兴趣的内容与类别,其颗粒度都是完整的图书、论文等整篇文献,颗粒度过于粗大,将其用于进行相似性计算的读者感兴趣的内容不够准确,即使采用再好的相似性算法,那么计算出来的内容也和读者真实需求相差甚远。

技术实现思路

[0004]有鉴于此,本申请提出一种提取读者兴趣标签的方法,通过对读者在数字资源内容阅读过程中的阅读行为进行分析,同时获取阅读行为操作的内容对象,通过标签提取技术提取内容对象的标签,然后进行标签的兴趣度计算,将计算完成的兴趣度进行排序,从而获得读者的兴趣标签。从而为读者的个性化推荐提供更精准的内容基础。
[0005]第一方面,本申请提供了一种提取读者兴趣标签的方法,包括:
[0006]采集读者在阅读过程中的阅读行为;
[0007]获取所述阅读行为对应的内容对象,提取所述内容对象对应的标签;
[0008]根据所述阅读行为对所述标签进行兴趣度计算,并根据计算结果进行排序;
[0009]根据所述排序确定读者的兴趣标签。
[0010]由上,本方法通过对读者在数字资源内容阅读过程中的阅读行为进行分析,同时获取阅读行为操作的内容对象,通过标签提取技术提取内容对象的标签,然后进行标签的兴趣度计算,将计算完成的兴趣度进行排序,从而获得读者的兴趣标签。本方法可以大幅度提高读者兴趣标签的准确度,从而为读者的个性化推荐提高更好的内容基础。
[0011]可选的,还包括:
[0012]根据所述读者的兴趣标签向读者进行数字资源的个性化推荐。
[0013]由上,本方法还可根据确定的读者的多个兴趣标签,向读者进行数字资源的个性化推荐,由此可提高读者的阅读体验和阅读粘合度。
[0014]可选的,所述获取所述阅读行为对应的内容对象包括:
[0015]对所述阅读行为对应的文档版面进行分析,对所述版面的页眉页脚、页边距进行处理,确定文档版心位置,同时将文本、图像、表格分割为不同的版面区域;
[0016]对所述不同的版面区域进行版面元素提取和预处理,获取所述版面区域内的内容对象;所述版面元素提取包括文本、图像、表格的提取,所述预处理包括对修饰字符、排版控
制字符、艺术类字符和重叠类字符进行过滤,对标准编码字符进行转码,对非标准编码字符进行轮廓提取和识别。
[0017]由上,本方法通过对读者的阅读行为对应的内容对象进行版面分割和版面分析,通过将内容对象中的文本、图像、表格等内容进行分割,以生成不同的版面区域,每个版面区域中可包含一个段落、一个表格、一张图像或一个文字行,通过对该版面区域中的文本、图像、表格等进行提取,并对提取后的内容进行过滤、转码、轮廓识别等预处理,从而获取预处理后的内容对象。
[0018]可选的,所述提取所述内容对象对应的标签包括下述至少之一:
[0019]获取所述文本中的文字内容信息,提取所述文字内容信息中的标签;
[0020]识别所述图像中的文字,提取所述文字的标签;
[0021]对所述图像的内容进行理解,提取图像内容对应的标签;
[0022]识别所述表格的内容,提取表格内容对应的标签。
[0023]由上,可通过段落分析、图像处理或表格分析对文本、图像或表格中的内容进行识别,并提取内容对象对应的标签。
[0024]可选的,还包括:
[0025]将所述提取的标签与所述阅读行为进行绑定,建立所述标签与阅读行为的对应关系。
[0026]由上,通过将提取的标签与阅读行为进行绑定,得到标签与阅读行为的对应关系,为标签的兴趣度计算提供计算依据。
[0027]可选的,所述阅读行为包括批注、复制、加亮、下划线、椭圆标注、矩形标注、自由画线中的一种或多种。
[0028]可选的,所述根据所述阅读行为对所述标签进行兴趣度计算包括:
[0029]获取所述阅读行为分别对应的兴趣度权重;
[0030]根据所述兴趣度权重对所述标签进行兴趣度计算。
[0031]由上,通过对读者的不同的阅读行为分别设置不同的权重,并根据上述建立的标签与阅读行为的对应关系,对标签进行兴趣度计算,以得到每个标签的兴趣度,根据计算后的兴趣度,即可确定用户最感兴趣的标签。
[0032]可选的,所述兴趣度计算包括:
[0033]对所述标签对应的至少一个阅读行为的兴趣度进行线性运算。
[0034]由上,当一个标签对应多个阅读行为时,可将该多个阅读行为的权重进行线性相加,即可得到该标签的兴趣度。
[0035]第二方面,本申请提供了一种计算设备,包括:
[0036]一个或多个处理器;
[0037]存储器,用于存储一个或多个程序;
[0038]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的提取读者兴趣标签的方法。
[0039]第三方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时实现上述的提取读者兴趣标签的方法。
[0040]本申请的这些和其它方面在以下(多个)实施例的描述中会更加简明易懂。
附图说明
[0041]图1为本申请实施例的一种提取读者兴趣标签的方法的流程图;
[0042]图2为本申请实施例中的读者对一段文本划线操作的示意图;
[0043]图3为本申请实施例中的读者对另一端文本划线操作的示意图;
[0044]图4为本申请实施例中的读者对图片进行矩形标注的示意图;
[0045]图5为本申请实施例中的读者对文本进行加亮操作的示意图;
[0046]图6为本申请实施例的一种计算设备的结构示意图。
[0047]应理解,上述结构示意图中,各框图的尺寸和形态仅供参考,不应构成对本申请实施例的排他性的解读。结构示意图所呈现的各框图间的相对位置和包含关系,仅为示意性地表示各框图间的结构关联,而非限制本申请实施例的物理连接方式。
具体实施方式
[0048]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提取读者兴趣标签的方法,其特征在于,包括:采集读者在阅读过程中的阅读行为;获取所述阅读行为对应的内容对象,提取所述内容对象对应的标签;根据所述阅读行为对所述标签进行兴趣度计算,并根据计算结果进行排序;根据所述排序确定读者的兴趣标签。2.根据权利要求1所述的方法,其特征在于,还包括:根据所述读者的兴趣标签向读者进行数字资源的个性化推荐。3.根据权利要求1所述的方法,其特征在于,所述获取所述阅读行为对应的内容对象包括:对所述阅读行为对应的文档版面进行分析,对所述版面的页眉页脚、页边距进行处理,确定文档版心位置,同时将文本、图像、表格分割为不同的版面区域;对所述不同的版面区域进行版面元素提取和预处理,获取所述版面区域内的内容对象;所述版面元素提取包括文本、图像、表格的提取,所述预处理包括对修饰字符、排版控制字符、艺术类字符和重叠类字符进行过滤,对标准编码字符进行转码,对非标准编码字符进行轮廓提取和识别。4.根据权利要求3所述的方法,其特征在于,所述提取所述内容对象对应的标签包括下述至少之一:获取所述文本中的文字内容信息,提取所述文字内容信息中的标签;识别所述图像中的文字,提取所述文字的标签;对...

【专利技术属性】
技术研发人员:公艳黄肖俊孟茜
申请(专利权)人:北京方正阿帕比技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1