一种基于逻辑回归的文献推荐系统的排序方法技术方案

技术编号:36693768 阅读:21 留言:0更新日期:2023-02-27 20:03
本发明专利技术公开了一种基于逻辑回归的文献推荐系统的排序方法,包括分析推荐应用场景,确立学习目标;分析用户日志分布,试验并确定采样方案;获取特征数据,构建特征数据集合;分析文献侧、机构侧、作者侧以及交互特征,进行特征筛选;将文献推荐作为分类问题,采用逻辑回归模型训练;划分同等流量,将训练好的模型进行线上评估。本发明专利技术能够利用文献、用户、上下文等多种不同特征,通过预测正样本的概率对文献进行个性化排序;具有可解释性强和数学含义支撑,效果显著并且训练和工程开销小等优点,是一种投入小、见效快的方案。见效快的方案。见效快的方案。

【技术实现步骤摘要】
一种基于逻辑回归的文献推荐系统的排序方法


[0001]本专利技术涉及个性化推荐
,尤其涉及一种基于逻辑回归的文献推荐系统的排序方法。

技术介绍

[0002]从知识服务平台上阅读、下载文献是各大学术研究人员获取知识的重要途径。知识服务平台上有海量的文献,这些数据具有丰富的发掘价值和预测潜力;但面对大量的文献,用户筛选出匹配的信息所花费的成本更高了。应用数据挖掘技术发掘文献特征和用户兴趣特点,使用机器学习技术推荐文献,能快速从纷繁复杂的文献中获取有效的信息,让用户在搜索和分类结果之外发现更感兴趣、更个性化的文献补充。通过系统引导用户发现信息,让用户发现一些新颖和令人惊喜的内容;靠知识内容留人,提升用户粘性;合理利用流量,提升平台收益。
[0003]现有知识服务平台上的文献推荐打分策略,特征简单,过于依靠人工策略,缺少数学依据。而深度学习模型虽然在较多领域效果显著,但需新增过多的工程设计和代码,才能上线部署,还会增加较多线上延时,无法迅速迭代。逻辑回归模型结构简单,采用梯度下降的方式寻求最优解,效果显著并且训练和工程开销小。

技术实现思路

[0004]为解决上述技术问题,本专利技术的目的是提供一种基于逻辑回归的文献推荐系统的排序方法。
[0005]本专利技术的目的通过以下的技术方案来实现:
[0006]一种基于逻辑回归的文献推荐系统的排序方法,包括:
[0007]步骤A分析推荐应用场景,确立学习目标;
[0008]步骤B分析用户日志分布,试验并确定采样方案;r/>[0009]步骤C获取特征数据,构建特征数据集合;
[0010]步骤D分析文献侧、机构侧、作者侧以及交互特征,进行特征筛选;
[0011]步骤E将文献推荐作为分类问题,采用逻辑回归模型训练;
[0012]步骤F 划分同等流量,将训练好的模型进行线上评估。
[0013]与现有技术相比,本专利技术的一个或多个实施例可以具有如下优点:
[0014]1、对文献信息和用户行为进行详细地特征相关性分析,构建能提升文献推荐效果的有效特征。
[0015]2、采用文献侧、学者侧、机构侧以及上下文等多个维度数据,构建丰富的特征体系;采用实时画像,及时捕捉用户偏好。更能代表用户兴趣,使得推荐列表更准确。
[0016]3、将逻辑回归用于文献推荐系统,模型简单并且训练开销小,易于工程化和并行化,能迅速迭代并获得线上效果。
附图说明
[0017]图1是基于逻辑回归的文献推荐系统的排序方法流程图;
[0018]图2是基于逻辑回归的文献推荐系统的排序方法示意图;
[0019]图3是部分特征相关性分析示例图;
[0020]图4是逻辑回归模型的计算逻辑图。
具体实施方式
[0021]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本专利技术作进一步详细的描述。
[0022]如图1所示,为基于逻辑回归的文献推荐系统的排序方法,包括:
[0023]1)分析推荐应用场景,确立学习目标
[0024]用户在使用学术类数字资源平台时,对于曝光的文献列表中感兴趣的内容,可能产生点击、下载、收藏和关注等行为。在平台上下载文献会带来一定的经济收益,而现在的页面设计,下载行为是基于点击行为的,用户产生点击后才会下载,当点击量提升后下载量才有提升的可能;另外下载行为非常稀疏,数据噪声大,容易过拟合。因此将点击行为作为正样本,仅曝光的文献作为负样本,使用模型拟合点击率。
[0025]2)分析用户日志分布,实验并确定采样方案
[0026]获取用户行为日志并清洗,分析样本数据分布。从推荐日志中直接获取的数据,用户的点击文献数量相比于曝光给用户的文献数量是较为稀疏的,导致正负样本比例失衡,正样本数量过少,很容易导致模型过拟合,利用失衡的数据训练即便离线评估表现优异,但上线后实际效果并不理想。所以在采样获取训练样本时,正样本全部保留,负样本只取有点击行为的用户产生的曝光数据,舍弃无点击行为用户的所有行为日志数据。
[0027]3)获取文献、机构、作者以及用户数据,构建特征数据集合
[0028]文献数据包含文献发表时间、下载量、被引量、相关度、影响因子等信息;机构数据包含机构专业领域、发文量、下载量(排名)、被引量(排名)、项目数量、科研人员数量等信息;作者数据包含作者发文总量、核心期刊发文量、被引量、H指数、G指数等信息;用户数据包含兴趣爱好等基本信息以及操作文献、操作时间等行为日志信息;构建特征数据集合包括:对文献、机构、作者、用户基本信息建模得到单边特征,对用户行为日志建模得到双边特征。
[0029]数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近这个上限而已,所以丰富的特征在排序系统中至关重要。获取丰富的特征数据的步骤如下:
[0030]第一步获取文献侧特征
[0031]文献侧特征包含基础特征、统计特征和类别特征。文献基础特征包含发表时间、下载量、被引量、相关度、影响因子等,统计特征包含一段时间内推荐侧(推荐系统中文献)的浏览率、下载率、收藏率等,类别特征包含文献类型、行业类型、学科类型等。
[0032]第二步获取学者侧和机构侧特征
[0033]学者侧特征包含发文总量、核心期刊论文数、被引量、作者指数等属性。通过将文献的第一作者与学者库中的相应字段关联,获取学者侧多个特征。机构侧特征包含各专业领域发文量、下载量(排名)、被引量(排名)、项目数量、科研人员数量等属性。通过将文献所
属的机构和学科类型,与机构库中的相应字段关联,获取机构侧各专业领域的多个属性;一篇文献属于多个机构的多个学科时,取第一个机构,机构下各个学科的属性平均值,作为特征。例如:文献i属于d1、d2两所机构,同时文献i又是s1、s2两个学科相关的文献,第一个机构d1中学科s1和学科s2对应的下载量分别是n1和n2,则取(n1+n2)/2作为机构下载量特征值。
[0034]第三步获取交互类特征
[0035]用户和文献的交互类特征是最能反映用户个性化的特征,包含用户对行业、学科、期刊、文献的偏好。基于多个时间窗口构建用户和文献交互类特征,例如构造用户近三个月浏览是否核心期刊的交互特征的步骤为:首先,获取用户近三个月浏览核心期刊的次数和非核心期刊的次数,如果浏览核心刊的数量大于浏览非核心刊,则认为用户对核心刊更感兴趣,将用户对核心刊的偏好存入用户画像中;其次,对于召回集合中的文献,是核心刊则该特征为1,是非核心刊则为0,非期刊文献则为缺失值。当窗口较小时、用户重复率低时,效果不明显;采用最近三个月的偏好,效果较好。说明在一定时间范围内,用户兴趣累积越丰富推荐依据越强效果越好。当然最近一周、一个月等的偏好也会被考虑在内作为近期或长期偏好特征,由模型学习这些偏好的重要程度生成模型参数。
[0036]处理获取到的特征,包含数值特征的归一化,例如将下载量、被引量等归一化到0

...

【技术保护点】

【技术特征摘要】
1.一种基于逻辑回归的文献推荐系统的排序方法,其特征在于,包括以下步骤:步骤A分析推荐应用场景,确立学习目标;步骤B分析用户日志分布,试验并确定采样方案;步骤C获取特征数据,构建特征数据集合;步骤D分析文献侧、机构侧、作者侧以及交互特征,进行特征筛选;步骤E将文献推荐作为分类问题,采用逻辑回归模型训练;步骤F划分同等流量,将训练好的模型进行线上评估。2.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述步骤B包括:获取用户行为日志并清洗,分析样本数据分布;在采样获取训练样本时,采用有点击行为用户的相关数据,包括所有曝光文献数据和用户行为日志。3.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述步骤C中特征数据包括文献侧、机构侧、作者侧及用户数据;其中,文献侧包含文献发表时间、下载量、被引量、相关度、影响因子;机构侧包含机构专业领域、发文量、下载量、被引量、项目数量、科研人员数量;作者侧包含作者发文总量、核心期刊发文量、被引量、H指数、G指数;用户数据信息包含兴趣爱好以及操作文献、操作时间;构建特征数据集合是指对文献、机构、作者、用户基本信息建模得到单边特征,对用户行为日志建模得到双边特征。4.如权利要求3所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,获取特征数据的步骤包括:C1获取文献侧特征;C2获取学者侧和机构侧特征;C3基于多个时间窗口构建用户和文献交互类特征。5.如权利要求2所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述C1中:文献侧特征包含基础特征、统计特征和类别特征,其中,文献基础特征包含发表时间、下载量、被引量、相关度、影响因子;统计特征包含一段时间内推荐侧的浏览率、下载率、收藏率;类别特征包含文献类型、行业类型、学科类型。6.如权利要求2所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述C2中:通过将文献的第一作者与学者库中的相应字段关联,获取学者侧多个特征,学者侧特征包含发文总量、核心期刊论文数、被引量、作者指数;通过将文献所属的机构和学科类型,与机构侧中的相应字段关联,获取机构侧各专业领域的多个特征;机构侧特征包含各专业领域发文量、下载量被引量、项目数量、科研人员数量。7.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述D包括:对收集到的三类特征数据进行预处理,包括去除异常值、去除远离数据分布的噪声数据;所述三类特征数据包括文献侧特征数据、机构侧特征数据和作者侧特征数据;对于连续性特征,计算特征向量与正负样本标签向量之间的皮尔逊相关参数,分析特
征与拟合目标之间的相关性。8.如权利要求6所述的基于逻辑回归的文...

【专利技术属性】
技术研发人员:张良江程肖银涛
申请(专利权)人:同方知网数字出版技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1