一种用于电子图书馆的用户数据采集方法技术

技术编号:21777598 阅读:21 留言:0更新日期:2019-08-03 23:19
本发明专利技术涉及一种用于电子图书馆的用户数据采集方法,包括:步骤S1:当用户从电子图书馆获取一本图书时,生成一条对应于该图书的记录;步骤S2:根据用户对该图书的阅读状态信息计算该记录的权重系数;步骤S3:将该记录及其权重系数作为用户模型的输入。与现有技术相比,本发明专利技术为每一条记录都配置权重系数,可以提高用户模型的输入数据的准确性,排除噪声,提高推荐的准确性。

A User Data Acquisition Method for Electronic Library

【技术实现步骤摘要】
一种用于电子图书馆的用户数据采集方法
本专利技术涉及一种数据采集方法,尤其是涉及一种用于电子图书馆的用户数据采集方法。
技术介绍
电子图书馆由于具备环保、发行成本低等优点广受青睐,电子图书馆,是随着电版物的出现,网络通信技术的发展,而逐渐出现的。电子图书馆,具有存储能力大、速度快、保存时间长、成本低、便于交流等特点。光盘这-海量存储器、能够存储比传统图书高几千倍的信息,比微缩胶卷要多得多,而且包括图象、视频、声音,等等。利用电子技术,在这一种图书馆,我们能很快地从浩如烟海的图书中,查找到自己所需要的信息资料。这种图书馆,保存信息量的时间要长得多,不存在霉烂、生虫等问题。利用网络,在远在几千里、万里的单位、家中,都可以使用这种图书,效率极高。由于电子图书馆中的书籍量过于庞大,若果完全展现反而会让用户因为选择过多而不易选择,因此更好的选择是倾向于向用户推荐其感兴趣的书籍,为了获取其兴趣的基础便是拥有足够的数据,现在的数据采集方式大多是根据用户阅读历史来构建模型,然而现有的阅读历史数据仅是简单的点击记录,只能确认用户对标题可能感兴趣,并不能确定用户是否对内容感兴趣。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种用于电子图书馆的用户数据采集方法。本专利技术的目的可以通过以下技术方案来实现:一种用于电子图书馆的用户数据采集方法,包括:步骤S1:当用户从电子图书馆获取一本图书时,生成一条对应于该图书的记录;步骤S2:根据用户对该图书的阅读状态信息计算该记录的权重系数;步骤S3:将该记录及其权重系数作为用户模型的输入。所述阅读状态信息为以下因素的任意组合:阅读时间、阅读进度、阅读速度和图书等级。所述步骤S2具体包括:采集用户对该图书的阅读时间,并计算其归一化的权重分量;采集用户对该图书的阅读进度,并计算其归一化的权重分量;采集用户对该图书的阅读速度,并计算其归一化的权重分量;采集该图书的图书等级,并计算其归一化的权重分量;计算该记录的权重系数。权重系数具体为:其中:W为权重系数,Ta1为阅读时间归一化的权重分量,Ta2为阅读进度归一化的权重分量,Ta3为阅读速度归一化的权重分量,Ta4为图书等级归一化的权重分量。所述图书等级具体为图书阅读难度等级。所述阅读状态信息存储于终端中,并在定时或不定时地向服务器发送。与现有技术相比,本专利技术具有以下有益效果:1)为每一条记录都配置权重系数,可以提高用户模型的输入数据的准确性,排除噪声,提高推荐的准确性。2)利用归一化的权重分量计算权重系数,在确保数据准确性的前提下简化计算过程。3)图书等级采用图书阅读难度确定,可以降低一些难度较高的图书带来的阅读时间偏长导致的对数据的影响。附图说明图1为本专利技术的主要步骤流程示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。一种用于电子图书馆的用户数据采集方法,为每一条记录都配置权重系数,可以提高用户模型的输入数据的准确性,排除噪声,提高推荐的准确性。如图1所示,包括:步骤S1:当用户从电子图书馆获取一本图书时,生成一条对应于该图书的记录;步骤S2:根据用户对该图书的阅读状态信息计算该记录的权重系数;阅读状态信息为以下因素的任意组合:阅读时间、阅读进度、阅读速度和图书等级,本实施例中,采用包含阅读时间、阅读进度、阅读速度和图书等级的方案,步骤S2具体包括:采集用户对该图书的阅读时间,并计算其归一化的权重分量;采集用户对该图书的阅读进度,并计算其归一化的权重分量;采集用户对该图书的阅读速度,并计算其归一化的权重分量;采集该图书的图书等级,并计算其归一化的权重分量;计算该记录的权重系数。权重系数具体为:其中:W为权重系数,Ta1为阅读时间归一化的权重分量,Ta2为阅读进度归一化的权重分量,Ta3为阅读速度归一化的权重分量,Ta4为图书等级归一化的权重分量。利用归一化的权重分量计算权重系数,在确保数据准确性的前提下简化计算过程。图书等级具体为图书阅读难度等级,图书等级采用图书阅读难度确定,可以降低一些难度较高的图书带来的阅读时间偏长导致的对数据的影响。此外Ta1和Ta2可以采用底不同的对数函数往左平移一个单位的方式,可以为指数函数,Ta4为人为设定。步骤S3:将该记录及其权重系数作为用户模型的输入。阅读状态信息存储于终端中,并在定时或不定时地向服务器发送。本文档来自技高网...

【技术保护点】
1.一种用于电子图书馆的用户数据采集方法,其特征在于,包括:步骤S1:当用户从电子图书馆获取一本图书时,生成一条对应于该图书的记录;步骤S2:根据用户对该图书的阅读状态信息计算该记录的权重系数;步骤S3:将该记录及其权重系数作为用户模型的输入。

【技术特征摘要】
1.一种用于电子图书馆的用户数据采集方法,其特征在于,包括:步骤S1:当用户从电子图书馆获取一本图书时,生成一条对应于该图书的记录;步骤S2:根据用户对该图书的阅读状态信息计算该记录的权重系数;步骤S3:将该记录及其权重系数作为用户模型的输入。2.根据权利要求1所述的一种用于电子图书馆的用户数据采集方法,其特征在于,所述阅读状态信息为以下因素的任意组合:阅读时间、阅读进度、阅读速度和图书等级。3.根据权利要求2所述的一种用于电子图书馆的用户数据采集方法,其特征在于,所述步骤S2具体包括:采集用户对该图书的阅读时间,并计算其归一化的权重分量;采集用户对该图书的阅读进度,并计算其归一化的权重分量;采集用户...

【专利技术属性】
技术研发人员:尹小平史亭王磊
申请(专利权)人:凡学上海教育科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1