一种基于用户偏好的医疗学术资讯推荐方法及系统技术方案

技术编号:21454066 阅读:21 留言:0更新日期:2019-06-26 04:49
本发明专利技术涉及数据处理领域,揭露了一种基于用户偏好的医疗学术资讯推荐方法及系统,该方法包括:获取用户动态行为信息后进行预处理和特征提取;基于用户动态信息获取与特征提取结果生成用户画像;基于生成的用户画像建立用户评分矩阵,并通过推荐算法,输出推荐结果数据集所述信息;将推荐结果数据集整合到相应的推荐页面上呈现给用户。本发明专利技术实现了用户对医疗学术资讯的精准匹配需求,为每一个用户定制个性化的推荐方案的目标,实现了医疗学术资讯的准确传递。

【技术实现步骤摘要】
一种基于用户偏好的医疗学术资讯推荐方法及系统
本专利技术涉及数据处理领域,尤其涉及一种基于用户偏好的医疗学术资讯推荐方法及系统。
技术介绍
随着互联网技术的高速发展,在当今高科技不断涌现的浪潮中,医疗行业以及相关各个领域都从中得到了很多益处与发展,目前我们已经进入了大数据时代,如何让人们在大量的数据中快速并且精准地获得所期待的信息变得越来越棘手,传统的基于关键字搜索的信息查询已经不能够很好地解决问题。随着推荐引擎和推荐算法的发展,用户获取自己信息的方式从简单的关键字查询,到目标明确的个性化搜索,目前已经进一步到更合理更符合个人自身偏好和使用习惯的信息推荐,比起常见的娱乐、体育、新闻等类型的资讯信息,医疗学术资讯的专业性更强,用户对医疗学术资讯的诉求和期待要求更精准,如何快速找到更合理更符合个人自身偏好的医疗学术资讯成为一个新兴难题。
技术实现思路
本专利技术提供一种基于用户偏好的医疗学术资讯推荐方法及系统,其主要目的在于实现针对互联网用户进行偏好与医疗学术资讯的精准匹配。为实现上述目的,本专利技术提供一种基于用户偏好的医疗学术资讯推荐方法,应用于基于用户偏好的医疗学术资讯推荐系统中,其特征在于,所述方法包括:获取用户动态行为信息后进行预处理和特征提取;基于用户动态信息获取与特征提取结果生成用户画像;基于生成的用户画像建立用户评分矩阵,并通过推荐算法,输出推荐结果数据集所述信息;将推荐结果数据集整合到相应的推荐页面上呈现给用户。可选地,所述预处理和特征提取包括:采集、获取用户的静态变量和动态行为信息;将采集、获取用户的静态变量和动态行为信息进行数据清洗,过滤无效数据与错误数据,最终处理掉不合理的用户数据;将清洗后的数据结果进行文本分词,通过该技术的处理将数据结构转换成为每个关键字的形式,然后提取用户主题标签,形成用户主题数据集合结果;将用户主题数据集合结果进行存储。可选地,所述的数据清洗、过滤无效数据与错误数据步骤包括:根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据;将数据集转化成便于清洗的格式,包括单个数据值的转换,行到行的转换,多行间的映射;对数据进行清洗,过滤无效数据与错误数据,形成干净的数据;将不同性质、不同量级的数据进行指数化处理,调整到可以类比的范围;形成数据域列表,其中有可信值、错误数据、无效值三种状态,每种数据域都表示了数据字段中某种类型的语义。可选地,所述生成用户画像的步骤包括:设定医学画像的指标体系并建立的医学画像模型四元组,所述医学画像模型四元组包含人口统计学属性、医学领域标签、用户偏好维度和用户商业维度;读取建立的医学画像模型四元组,以特征提取后形成的数据集合结果为输入值,来生成用户画像,并将结果存储;更新用户画像。可选地,所述建立用户评分矩阵,并通过推荐算法,输出推荐结果数据集的步骤包括:首先定义两套矩阵,分别是通过对医疗资讯内容之间的相似度计算形成的资讯-资讯评分矩阵,以及通过对用户之间的相似度计算形成的用户-用户套评分矩阵,其中资讯-资讯评分矩阵提取了系统内全部资讯的标签关键字,进行运算后,根据标签关键字的匹配程度得到内容与内容之间的相似度结果,并以此建立资讯-资讯评分矩阵,采用上述矩阵将用户画像、用户与用户之间,用户与资讯直接的偏好关系具象化为可计算的数据表,合理地展示出了用户在的偏好情况;采用混合算法和基于内容的推荐算法以及基于模型的协同过滤算法作为算法基础,以矩阵值做为输入进行计算,从而最终输出推荐结果数据集,将该信息转发输出并存储。可选地,所述更新用户画像的步骤包括:对用户的年龄、职业、婚育状况、终端等可以改变的属性进行更新;定期检查特征提取值更新情况,根据最新值进行计算后,更新用户画像库中的用户主题的医学领域标签特征;定期检查特征提取值更新情况,根据最新值进行计算后,更新用户画像库中的用户主题的偏好标签特征;定期检查特征提取值更新情况,根据最新值进行计算后,更新用户画像库中的用户主题的商业标签特征。可选地,所述采用混合算法和基于内容的推荐算法以及基于模型的协同过滤算法作为算法基础,以矩阵值做为输入进行计算,从而最终输出推荐结果数据集的步骤包括:基于内容的推荐算法通过资讯-资讯评分矩阵得到和用户当前偏好的资讯相似度相同或相近的资讯列表,按相似度高到低排序之后取出前N条资讯数据,计算每一条资讯数据与用户的画像模型的契合度,按契合度高到低排序之后取出前N条资讯数据,最终形成初步的推荐结果数据集;基于模型的协同过滤算法通过计算用户-用户评分矩阵得到和用户画像模型一致或相近的用户数据,根据实际情况,采用活跃度、在线时长、新老用户等用户商业特征参数进行升权降权调优之后,取出前N条用户数据,汇总这些用户的历史资讯列表,之后,再计算资讯列表中每一条资讯数据与用户的画像模型的契合度,按契合度高到低排序之后取出前N条资讯数据,最终形成初步的推荐结果数据集;将基于内容的推荐算法和基于模型的协同过滤算法分别得到的初步的推荐结果数据集进行合并去重之后,按照契合度从高到低排序,最终取出前N条形成推荐结果数据集。此外,为实现上述目的,本专利技术还提供一种基于用户偏好的医疗学术资讯推荐系统,所述基于用户偏好的医疗学术资讯推荐系统包括信息获取与预处理装置、医学画像建模、信息推荐引擎、信息输出装置便于执行时实现如下步骤:所述信息获取与预处理装置获取用户动态行为信息后进行预处理和特征提取;所述医学画像建模基于信息获取与所述预处理装置的特征结果生成用户画像;所述信息推荐引擎基于所述医学画像建模生成的用户画像建立用户评分矩阵,并通过推荐算法,最终输出推荐结果数据集所述信息;所述信息输出装置将所述信息推荐引擎的推荐结果数据集整合到相应的推荐页面上呈现给用户。可选地,所述信息获取与预处理装置包括源信息获取单元、源信息预处理单元、特征提取单元、存储单元,所述医学画像建模包括医学画像模型、画像模型读取模块、用户画像生成模块、用户画像更新模块、所述存储单元,所述信息推荐引擎包括用户评分矩阵、推荐算法、推荐结果数据集、所述存储单元,所述信息输出装置包括服务器与用户端,其中,所述推荐结果数据集通过所述服务器与互联网连接到所述用户终端。可选地,所述源信息预处理单元包括完整性分析模块、数据转换模块、数据清洗模块、数据整合模、数据域,所述医学画像模型包括人口统计学属性、医学领域标签、用户偏好维度、用户商业维度,所述用户画像生成单元包括人口统计学特征生成模块、医学领域标签特征生成模块、用户偏好特征生成模块、用户商业特征生成模块,所述用户画像更新单元包括人口统计学特征更新模块、医学领域标签特征更新模块、用户偏好特征更新模块、用户商业特征更新模块,所述用户评分矩阵包括资讯-资讯评分矩阵和用户-用户评分矩阵,所述推荐算法包括内容推荐算法模块和协同过滤算法模块,所述用户端包括用户行为采集单元、医疗学术资讯模块。本专利技术提供的基于用户偏好的医疗学术资讯推荐方法及系统实现了用户对医疗学术资讯的精准匹配需求,通过设计了一个可靠可用的医学画像模型,建立了用户医学画像四元组,采用了基于内容的推荐算法加基于模型的协同过滤算法,从而达到为每一个用户定制个性化的推荐方案的目标,实现了医疗学术资讯的本文档来自技高网...

【技术保护点】
1.一种基于用户偏好的医疗学术资讯推荐方法,应用于基于用户偏好的医疗学术资讯推荐系统中,其特征在于,所述方法包括:获取用户动态行为信息后进行预处理和特征提取;基于用户动态信息获取与特征提取结果生成用户画像;基于生成的用户画像建立用户评分矩阵,并通过推荐算法,输出推荐结果数据集所述信息;将推荐结果数据集整合到相应的推荐页面上呈现给用户。

【技术特征摘要】
1.一种基于用户偏好的医疗学术资讯推荐方法,应用于基于用户偏好的医疗学术资讯推荐系统中,其特征在于,所述方法包括:获取用户动态行为信息后进行预处理和特征提取;基于用户动态信息获取与特征提取结果生成用户画像;基于生成的用户画像建立用户评分矩阵,并通过推荐算法,输出推荐结果数据集所述信息;将推荐结果数据集整合到相应的推荐页面上呈现给用户。2.根据权利要求1所述的基于用户偏好的医疗学术资讯推荐方法,其特征在于,所述预处理和特征提取包括:采集、获取用户的静态变量和动态行为信息;将采集、获取用户的静态变量和动态行为信息进行数据清洗,过滤无效数据与错误数据,最终处理掉不合理的用户数据;将清洗后的数据结果进行文本分词,通过该技术的处理将数据结构转换成为每个关键字的形式,然后提取用户主题标签,形成用户主题数据集合结果;将用户主题数据集合结果进行存储。3.根据权利要求2所述的基于用户偏好的医疗学术资讯推荐方法,其特征在于,所述的数据清洗、过滤无效数据与错误数据步骤包括:根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据;将数据集转化成便于清洗的格式,包括单个数据值的转换,行到行的转换,多行间的映射;对数据进行清洗,过滤无效数据与错误数据,形成干净的数据;将不同性质、不同量级的数据进行指数化处理,调整到可以类比的范围;形成数据域列表,其中有可信值、错误数据、无效值三种状态,每种数据域都表示了数据字段中某种类型的语义。4.根据权利要求1所述的基于用户偏好的医疗学术资讯推荐方法,其特征在于,所述生成用户画像的步骤包括:设定医学画像的指标体系并建立的医学画像模型四元组,所述医学画像模型四元组包含人口统计学属性、医学领域标签、用户偏好维度和用户商业维度;读取建立的医学画像模型四元组,以特征提取后形成的数据集合结果为输入值,来生成用户画像,并将结果存储;更新用户画像。5.根据权利要求1所述的基于用户偏好的医疗学术资讯推荐方法,其特征在于,所述建立用户评分矩阵,并通过推荐算法,输出推荐结果数据集的步骤包括:首先定义两套矩阵,分别是通过对医疗资讯内容之间的相似度计算形成的资讯-资讯评分矩阵,以及通过对用户之间的相似度计算形成的用户-用户套评分矩阵,其中资讯-资讯评分矩阵提取了系统内全部资讯的标签关键字,进行运算后,根据标签关键字的匹配程度得到内容与内容之间的相似度结果,并以此建立资讯-资讯评分矩阵,采用上述矩阵将用户画像、用户与用户之间,用户与资讯直接的偏好关系具象化为可计算的数据表,合理地展示出了用户在的偏好情况;采用混合算法和基于内容的推荐算法以及基于模型的协同过滤算法作为算法基础,以矩阵值做为输入进行计算,从而最终输出推荐结果数据集,将该信息转发输出并存储。6.根据权利要求4所述的基于用户偏好的医疗学术资讯推荐方法,其特征在于,所述更新用户画像的步骤包括:对用户的年龄、职业、婚育状况、终端等可以改变的属性进行更新;定期检查特征提取值更新情况,根据最新值进行计算后,更新用户画像库中的用户主题的医学领域标签特征;定期检查特征提取值更新情况,根据最新值进行计算后,更新用户画像库中的用户主题的偏好标...

【专利技术属性】
技术研发人员:饶伟军刘存豪
申请(专利权)人:广州麦迪森在线医疗科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1