一种基于基因标签的推荐系统的推荐方法技术方案

技术编号:27404594 阅读:16 留言:0更新日期:2021-02-21 14:17
本发明专利技术公开了一种基于基因标签的推荐系统的推荐方法,具体方法包含以下步骤:收集用户基因位点数据、表型数据和行为数据将数据进行清洗建模保存到hdfs;根据提供的规则将这些数据进行计算转换为可用的用户基因标签数据;收集产品和内容数据进行提炼,提取观点和成分内容,进行标签化和用户的基因标签进行相关联;将数据处理成适合的后端查询的结构推送到ElasticSearch,用于快速检索;通过特定的条件在基因标签上圈出指定人群,并进行推送相关内容以及产品。拥有数量众多的基因位点数据和用户表型、行为支持;查询速度快,标签数量众多,推荐内容精准;数据的持续增加,表型和行为数据的持续反馈,标签的可持续优化。标签的可持续优化。标签的可持续优化。

【技术实现步骤摘要】
一种基于基因标签的推荐系统的推荐方法


[0001]本专利技术涉及一种基于基因标签的推荐系统的推荐方法,属于基因算法方法领域。

技术介绍

[0002]基于基因的推荐系统需要足够多的基因位点数据、表型数据以及用户的行为数据的支持,并且还需要对产品和内容数据进行解析提炼以达到和基因相关联,目前市面上未见有此相关功能的系统及产品,大多是缺少基因位点数据,和缺少打通基因到用户到产品到内容的链路。

技术实现思路

[0003]针对上述问题,本专利技术要解决的技术问题是提供的一种基于基因标签的推荐系统的推荐方法。
[0004]本专利技术提供如下技术方案:一种基于基因标签的推荐系统的推荐方法包含以下步骤:步骤一、收集用户基因位点数据、表型数据和行为数据将数据进行清洗建模保存到hdfs;
[0005]步骤二、根据提供的规则将基因位点数据、表型数据、行为数据进行计算转换为可用的用户基因标签数据;
[0006]步骤三、收集产品和内容数据进行提炼,提取观点和成分内容,进行标签化和用户的基因标签进行相关联;
[0007]步骤四、将数据处理成适合的后端查询的结构推送到ElasticSearch,用于快速检索;
[0008]步骤五、通过特定的条件在基因标签上圈出指定人群,并进行推送相关内容以及产品。
[0009]进一步优选,所述步骤一中的基因位点数据收集过程为:使用Python和Shell边写到脚本从基因原始数据FTP上将基因原始数据下载简单处理后并上传到HDFS,然后使用Hive建立ods外部表映射HDFS目录;
[0010]进一步优选,所述的步骤一中表型数据收集过程为:使用Sqoop将收集的表型数据同步到HDFS并建立Hive ods表;
[0011]进一步优选,所述步骤一中的行为数据的收集过程为:使用Flume将Kafka接受的行为埋点数据传输到HDFS,然后使用Hive建立ods外部表映射HDFS目录;
[0012]进一步优选,所述步骤二中产品内容数据收集过程为:上传到HDFS,然后使用Hive建立ods外部表映射HDFS目录。
[0013]进一步优选,所述的步骤二的数据处理过程为:在dwd建立外部表设置orc+snappy格式存储,将ods的数据进行处理,并优化存放策略,用于提升下一步分析的效率。
[0014]进一步优选,所述的步骤三的标签化过程:编写UDF对位点数据、表型等数据进行处理,输出为标签,将产品数据进行处理和标签进行绑定,将数据存入st层。
[0015]所述的步骤五的详细过程:使用elasticSeach-hadoop插件,将标签用户数据和产品内容数据推送到ElasticSearch用于提供查询检索。
[0016]与现有技术相比,本专利技术的有益效果如下:1、拥有数量众多的基因位点数据和用户表型、行为支持;
[0017]2、查询速度快,标签数量众多,推荐内容精准;
[0018]3、数据的持续增加,表型和行为数据的持续反馈,标签的可持续优化。
附图说明:
[0019]图1为本专利技术实施例的具体方法流程图。
具体实施方式
[0020]下面将结合本专利技术实施例及附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]实施例:本基因原始数据为拥有60万用户的基因位点数据,单人位点检测项多达60万,以及300万的表型数据,和海量的用户行为数据。
[0022]本基于基因标签的推荐系统:使用HDFS用作数据存储、Hive用作元数据管理、Spark用于数据分析,Airflow用于流程调度、Redash用于提供数据查询、ElasticSearch用于数据检索、Python和Shell用于脚本编写、Java用于后台开发、Vue.js用于前端开发。
[0023]参照图1所示,本实施例的推荐方法如下所示:将内容产品数据进行清洗处理,提取观点,成分等内容,生成标签数据,标签数据和基因数据相关联,生成用户基因标签数据;同时将基因位点数据,基因表型数据和用户行为数据收集数据到DHFS,将数据储存到hdfs,对数据进行计算,生成基因标签数据,基因标签数据与用户基因标签数据相关联推送到ElasticSearch,ElasticSearch搜索引擎进行快速检索,通过标签筛选用户和产品及内容,并且触达用户。
[0024]本实施例的具体代码如下:
[0025][0026][0027]尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于基因标签的推荐系统的推荐方法,其特征在于:具体方法包含以下步骤:步骤一、收集用户基因位点数据、表型数据和行为数据将数据进行清洗建模保存到hdfs;步骤二、根据提供的规则将基因位点数据、表型数据、行为数据进行计算转换为可用的用户基因标签数据;步骤三、收集产品和内容数据进行提炼,提取观点和成分内容,进行标签化和用户的基因标签进行相关联;步骤四、将数据处理成适合的后端查询的结构推送到ElasticSearch,用于快速检索;步骤五、通过特定的条件在基因标签上圈出指定人群,并进行推送相关内容以及产品。2.根据权利要求1所述的一种基于基因标签的推荐系统的推荐方法,其特征在于:所述步骤一中的基因位点数据收集过程为:使用Python和Shell边写到脚本从基因原始数据FTP上将基因原始数据下载简单处理后并上传到HDFS,然后使用Hive建立ods外部表映射HDFS目录;所述的步骤一中表型数据收集过程为:使用Sqoop将收集的表型数据同步到HDFS并建立Hive ods表;所述步骤一中的行...

【专利技术属性】
技术研发人员:吴健王彪王强陈伦柏鹤王古群石安森
申请(专利权)人:上海解兮生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1