基于画像的医学科普文章推荐方法及系统技术方案

技术编号:23983933 阅读:21 留言:0更新日期:2020-04-29 12:37
本发明专利技术公开了一种基于画像的医学科普文章推荐方法及系统,该方法包括以下步骤:通过日志打点记录客户端或者服务端的行为日志,所述行为日志的记录内容包括医学科普文章相关日志、用户搜索日志、用户提问日志及登录日志;日志队列对所述行为日志进行数据统计,提取特征数据,处理生成用户画像和文章画像;接收对医学科普文章的请求,根据所述的用户画像和所述的文章画像通过机器学习算法生成相应的推荐文件列表。本发明专利技术的实施例至少有如下有益效果:通过对于用户操作行为的分析,对后续的文章推送内容进行持续性优化,提高推送的速度与质量,提升文章的点击率,满足用户对信息的需求。

The method and system of medical popular science article recommendation based on portrait

【技术实现步骤摘要】
基于画像的医学科普文章推荐方法及系统
本专利技术涉及互联网文章推荐
,特别涉及一种基于画像的医学科普文章推荐方法及系统。
技术介绍
互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对于信息的需求,但随着快速发展的网络,信息量也随着大幅增长,使得用户面对海量信息时无法从中获取对自己真正有用的信息。在医学科普文章领域,存在着用户体量巨大,偏好差异大,现有的推荐系统多采用协同过滤算法,很难查找到偏好相似的用户,也就难以进而获取相关医学科普文件的推荐列表。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种基于画像的医学科普文章推荐方法,能够较为准确地找到用户偏好的医学科普文件。根据本专利技术的第一方面实施例的基于画像的医学科普文章推荐方法,包括以下步骤:S100,通过打点日志记录客户端或者服务端的行为日志,所述行为日志的记录内容包括医学科普文章相关日志、用户搜索日志、用户提问日志及登录日志;S200,通过日志队列对所述用户行为日志进行数据统计,提取特征数据,处理生成用户画像和文章画像;S300,接收对医学科普文章的请求,根据所述的用户画像和所述的文章画像通过机器学习算法生成相应的推荐文件列表。根据本专利技术实施例的基于画像的医学科普文章推荐方法,至少具有如下有益效果:通过对于用户操作行为的分析,对后续的文章推送内容进行优化,可以提升文章的点击率,满足用户对信息的需求,提高用户粘着度;两方面画像特征数据的建立,可以建立用户特征与文章特征间的联系,提高信息检出的速度与质量;机器学习算法有利于根据用户行为持续性优化推送内容。根据本专利技术的一些实施例,所述步骤S200包括:S210,提取所述行为日志中编辑人员新增修改的文章,通过自然语言处理,分词、关键词抽取、主体分析及实体词抽取处理,生成或更新所述文章画像;S220,提取所述用户行为日志中用户的行为轨迹,包括文章的阅读、文章的收藏、文章的评论、文章的点赞、搜索记录、咨询购买记录及用户登录记录信息,结合用户的注册信息,统计分析用户偏好的所述文章画像,生成或更新所述用户画像。从医学科普文章的作者与读者两方面入手,多方面提取特征数据并更新特征数据,更好地提高文章推送的精准度。根据本专利技术的一些实施例,所述步骤S300包括:S310,接收用户对医学科普文章的请求,通过若干个召回策略进行召回,获得相应的粗选的文章集合;S320,从所述粗选的文章集合中,按照预设的比例提取排行前列的若干篇文章,合并去重,并根据需要按一定规则进行补充,获得待选文章集;S330,,通过多个特征维度的模型算法,对所述待选文章集的文件来预测点击率,根据所述点击率的预测值进行排序推送。多召回策略,更好地保证能获取粗选结果;合并去重补充,优化推送文章内容,确定一定有推送内容;多维度对预测点击率进行评估,获得更好的推送效果。根据本专利技术的一些实施例,所述召回策略包括:Tag召回、Word2Vec召回、热门召回及FP-group召回;所述特征维度包括:LR模型算法、XGBoost+LR模型算法、FM模型算法及Wide&Deep模型算法。多角度通过召回策略可以获取较多的粗粒度筛选文件;多特征维度对文件的预测点击率进行评估,更为合理,精细地对文件排序进行推送,获得较优的推送效果,进而增加用户的粘着度。根据本专利技术的一些实施例,所述合并去重,包括:从合并后的所述医学科普文章中,去除重复的所述医学科普文章及用户最近看过的所述医学科普文章。优化推送内容,使用户能获取到新鲜的推送内容,防止用户因看到重复文章后丧失粘着度。根据本专利技术的一些实施例,所述文章画像的属性包括:发布时间,编辑人员,语义标签、协同特征、热度、时空属性及质量属性;其中,语义标签包括:文章的类别、主题分布、关键词及实体词。发布时间可以确定文章的时效性,编辑人员相应的文章可能有一定的风格影响到用户的偏好;在医学科普文献领域,文章数量相对于用户群体总量不高,使用协同特征查找相似文件能简化操作更为高效。根据本专利技术的一些实施例,所述用户画像的属性包括:基础人口特征信息,包括性别、年龄及地理信息;行为特征信息,包括关注的科室、文章关键字、文章类别分布、文章主题分布、日均阅读时长、日均阅读文章数目及月均阅读文章数目;文章偏好属性,根据用户访问的文章记录对应的文章画像属性得到。用户的基础人口特征及行为特征信息,都有可能影响用户的偏好,采集这些数据能优化推送内容。根据本专利技术的第二方面实施例的基于画像的医学科普文章推荐系统,包括:日志处理模块,用于接收所述用户行为日志,获取所述用户行为日志中记录的包括医学科普文章相关日志、用户搜索日志、用户提问日志及登录日志的样本数据,统计数据,提取特征数据,生成所述的用户画像及所述的文章画像;文章推荐模块,用于接收对医学科普文章的请求,根据所述的用户画像和所述的文章画像,生成相应的推荐文件列表;数据存储模块,用于存储用户原始日志,样本数据,特征数据,画像数据及报表数据。根据本专利技术实施例的基于画像的医学科普文章推荐系统,至少具有如下有益效果:通过对于用户操作行为的分析,对后续的文章推送内容进行优化,可以提升文章的点击率,满足用户对信息的需求,提高用户粘着度;两方面画像特征数据的建立,可以建立用户特征与文章特征间的联系,提高信息检出的速度与质量;机器学习算法有利于根据用户行为持续性优化推送内容。根据本专利技术的一些实施例,所述文章推荐模块包括:粗排召回模块,用于通过若干个召回策略,获得相应的召回结果,即粗选出的所述医学科普文章;规则模块,用于分别从所述策略对应的所述召回结果中,按照预设的比例提取若干篇排行前列的所述医学科普文章,合并去重,并根据需要按一定规则进行补充,获得待排序的所述医学科普文章;文章精排模块,用于通过多个特征维度的模型算法对所述待选文件集合中文件预测点击率,并按照所述点击率的预测评估值排序推送。通过初选,处理,精准排序来推送,优化了推送的质量同时也能一定程度上提高推送的速度。根据本专利技术的一些实施例,还包括:入口模块,用于提供接口接收文章推荐请求,并根据用户身份标识号码分流用户进行AB测试;特征处理模块,根据输入特征按一定的模型算法获取相应的所述医学科普文章;模型训练模块,用于根据所述样本数据,通过机器学习,更新所述文章精排模块中的所述模型算法及所述特征处理模块中的所述模型算法。分流进行AB测试是为排序算法和策略制作两个或多个版本,在同一时间维度,分别让组成成分相同或相似的访客群组随机访问这些版本,收集各群组用户的体验数据和业务数据,进行评估分析,确定更好的版本,有利于持续进行优化。特征处理模块可专注于根据输入特征进行检索,不会被上层算法干扰;模型训练模块则通过机器学习对模型持续优化达到持续优化推送质量的目的。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例的方法步骤流程示意图;图2为本专利技术实施例的方法详细本文档来自技高网...

【技术保护点】
1.一种基于画像的医学科普文章推荐方法,其特征在于,包括以下步骤:/nS100,通过打点日志记录客户端或者服务端的行为日志,所述行为日志的记录内容包括医学科普文章相关日志、用户搜索日志、用户提问日志及登录日志;/nS200,通过日志队列对所述行为日志进行数据统计,提取特征数据,处理生成用户画像和文章画像;/nS300,接收对医学科普文章的请求,根据所述的用户画像和所述的文章画像通过机器学习算法生成相应的推荐文件列表。/n

【技术特征摘要】
1.一种基于画像的医学科普文章推荐方法,其特征在于,包括以下步骤:
S100,通过打点日志记录客户端或者服务端的行为日志,所述行为日志的记录内容包括医学科普文章相关日志、用户搜索日志、用户提问日志及登录日志;
S200,通过日志队列对所述行为日志进行数据统计,提取特征数据,处理生成用户画像和文章画像;
S300,接收对医学科普文章的请求,根据所述的用户画像和所述的文章画像通过机器学习算法生成相应的推荐文件列表。


2.根据权利要求1所述的基于画像的医学科普文章推荐方法,其特征在于,所述步骤S200包括:
S210,提取所述行为日志中编辑人员新增修改的文章,通过自然语言处理,分词、关键词抽取、主体分析及实体词抽取处理,生成或更新所述文章画像;
S220,提取所述行为日志中用户的行为轨迹,包括文章的阅读、文章的收藏、文章的评论、文章的点赞、搜索记录、咨询购买记录及用户登录记录信息,结合用户的注册信息,统计分析用户偏好的所述文章画像,生成或更新所述用户画像。


3.根据权利要求1所述的基于画像的医学科普文章推荐方法,其特征在于,所述步骤S300包括:
S310,接收用户对医学科普文章的请求,通过若干个召回策略进行召回,获得相应的粗选文章集合;
S320,从所述粗选的文章集合中,按照预设的比例提取排行前列的若干篇文章,合并去重,并根据需要按一定规则进行补充,获得待选文章集;
S330,通过多个特征维度的模型算法,对所述待选文章集的文件预测点击率,根据所述点击率的预测值进行排序推送。


4.根据权利要求3所述的基于画像的医学科普文章推荐方法,其特征在于,所述召回策略包括:Tag召回、Word2Vec召回、热门召回及FP-group召回;所述特征维度的模型算法包括:LR模型算法、XGBoost+LR模型算法、FM模型算法及Wide&Deep模型算法。


5.根据权利要求3所述的基于画像的医学科普文章推荐方法,其特征在于,所述合并去重,包括:从合并后的所述医学科普文章中,去除重复的所述医学科普文章及用户最近看过的所述医学科普文章。


6.根据权...

【专利技术属性】
技术研发人员:李冬周杰
申请(专利权)人:珠海健康云科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1