大数据环境下用户阅读行为分析与预测系统技术方案

技术编号:33150130 阅读:14 留言:0更新日期:2022-04-22 14:03
本发明专利技术公开了大数据环境下用户阅读行为分析与预测系统,包括:文本数据相关分析单元、用户数据相关分析单元、数据异常分析单元和用户行为预测单元;大数据环境下用户阅读行为分析与预测系统分为用户数据存储层、用户数据处理层、用户数据分析和建模层、服务层以及展示层。用户数据处理层包括源数据采集、源数据清洗、数据存储、数据管理和维护。用户数据分析和建模层包括文本数据相关分析、用户数据相关分析、数据异常分析和用户行为预测的代码。服务层包括数据服务、行为服务、用户服务、画像服务、预测服务。展示层主要负责统计分析的结果的展示在界面上。本系统有利于代码可维护性、可读性、灵活性,有益于系统管理和维护。有益于系统管理和维护。有益于系统管理和维护。

【技术实现步骤摘要】
大数据环境下用户阅读行为分析与预测系统


[0001]本专利技术属于计算机及大数据应用分析
,具体涉及一种用于分析和预测用户阅读行为的系统。

技术介绍

[0002]在大数据背景下,分析用户的行为有着很大的意义,用户画像、用户行为异常检测和用户行为预测是用户行为分析中比较重要的三个部分。通过数据的分析与预测,使数据的价值充分发挥,促进企业快速发展,为企业提供具有较高价值的数据信息。本专利技术的技术主体是在搜索应用中通过收集和分析用户的行为数据,构建一个用户行为分析与预测系统。该系统能够快速高效的发掘用户、行为、数据之间的关系,从而进一步构建用户,关键词以及数据画像。用户画像是对用户行为数据分析而得到的用户基本属性、行为特征、社交网络、心理特征和兴趣爱好等方面的标签模型。根据用户行为的这些特性,来建立较好的用户正常行为轮廓,检测用户实际活动与正常轮廓的背离程度,来判断是否属于异常行为。利用用户行为数据和画像数据预测用户行为,优化用户的使用体验,提供更好的个性化搜索服务。

技术实现思路

[0003]本专利技术的目的在于用户行为的分析与预测,如附图1所示是本专利技术的功能图。
[0004]本专利技术采用的技术方案为大数据环境下用户阅读行为分析与预测系统,含有:文本数据相关分析单元、用户数据相关分析单元、数据异常分析单元和用户行为预测单元;其中:
[0005]大数据环境下用户阅读行为分析与预测系统可分为用户数据存储层、用户数据处理层、用户数据分析和建模层、服务层以及展示层。用户数据存储层是信息存储在MySql中。用户数据处理层包括源数据采集、源数据清洗、数据存储、数据管理和维护。用户数据分析和建模层包括文本数据相关分析、用户数据相关分析、数据异常分析和用户行为预测的代码。服务层包括数据服务、行为服务、用户服务、画像服务、预测服务。展示层主要负责统计分析的结果的展示在界面上。
[0006]文本数据相关分析单元是指对网站内的大量文本数据进行多维度的挖掘,对文本数据进行研究,从而更好的为用户提供服务。文本数据分析包括文本基本信息、文本画像和文本统计信息。
[0007]文本基本信息包括标题、作者、年份、简介、关键词、价格、标签、添加时间、文章分类。
[0008]文本画像包括搜索量、点击量、阅读量、评论量、点赞量、收藏量、曝光量。
[0009]文本统计信息包括文本搜索量排名分布、文本搜索转化率分布、文本点击量分布、文本阅读量排名分布、文本评论量排名分布、文本点赞量排名分布、文本收藏量排名分布、文本曝光量排名分布、文本阅读用户数分布、文本阅读时间分布、文本相关关键词分布、文
本标签分布、文本分类分布、关键词搜索量分布、关键词搜索转化率分布、关键词点击量分布、关键词点击量分布、关键词所属分类分布、关键词命中文章分布、搜索用户排名分布、文章分类分布。
[0010]用户数据相关分析单元是指通过对用户上网的日志信息进行初步的统计分析,然后结合项目的实际需要并且利用数据挖掘对用户的行为进行深入研究,从中发现用户访问网站的使用偏好和行为规律,并且把这些规律与网站营销的策略相结合以此为依据对网站存在的问题进行改进。
[0011]用户数据分析包括用户基本信息、用户画像和用户统计信息。
[0012]用户基本信息包括用户名、姓名、年龄、性别、联系方式、注册IP、登陆地点、运营商、添加时间、最近操作时间。
[0013]用户画像包括成功搜索量、失败搜索量、未点击的搜索量、总搜索量、总点击量、总阅读量、评论量、点赞量、收藏量。
[0014]用户统计信息包括用户搜索量排名分布、用户搜索转化率统计、用户点击量排名分布、用户阅读量排名分布、用户阅读时间段分布、用户评论量排名分布、用户点赞量排名分布、用户收藏量排名分布、用户注册时间分布、用户访问时间分布、用户访问时长分布、用户所属地区分布、用户使用运营商分布、用户使用时间间隔时长分布、用户浏览转化率统计、搜索点击率统计、用户标签分布。
[0015]数据异常分析单元是在用户正常行为轮廓下,总体上呈现一定规律性的同时,又具有局部偶然性。这部分偶然性由于偏离用户一般行为,被认为是异常数据。
[0016]数据异常分析包括数据异常基本信息、数据异常统计信息。
[0017]数据异常基本信息包括序号、名称、内容介绍、关键词、类型、异常时间、用户、地点、搜索IP。
[0018]数据异常统计信息包括违规命中关键字分布、用户ip异常分布、评论内容违规分布、用户搜索词汇异常分布、用户搜索量异常分布、用户点击量异常分布、用户阅读量异常分布、用户阅读时间段异常分布、用户评论量异常分布、用户点赞量异常分布、用户收藏量异常分布、用户访问时间段异常分布。
[0019]用户行为预测单元是对各种影响用户因素进行统计分析,并且根据分析的特征进行建模研究。最终选取用户行为特征构建用户行为预测模型。主要预测的指标是用户搜索词汇预测、用户搜索词汇异常预测、用户搜索行为次数异常预测、用户搜索文章预测、用户搜索文章异常预测、用户点击文章预测、用户点击文章异常预测、用户阅读文章预测、用户阅读文章异常预测。
[0020]现有的系统大部分用到的是Java语言,而本专利技术用到的是PHP语言。Laravel简洁、优雅的特性,使得在书写代码的过程中,系统的代码实现流程得以简化。与此同时,其对RESTful的良好支持对本系统前后端分离的实现有着很大的帮助。同时Laravel的设计思想是当前所有主流的PHP框架中最先进的,非常适合应用各种开发模式。如IoC容器、依赖注入等。其对composer的良好支持使得项目依赖的管理更为简便,在整个系统开发的流程中,起到至关重要的作用。本系统采用的是模型

视图

控制器(Model

View

Controller)架构模式,模型

视图

控制器架构模式分为Model,View和Controller三个组件。其中,Model层负责如何为数据建模。View层负责用户界面生成,如何向终端呈现从Model层得到的数据以及
提供交互。Controller层负责Model层和View层的对接,对接主要是对应连个端:一端是向模型请求处理需要的数据来源,另一端则是把处理结果用某种方式传递给视图,中间的具体过程就是控制器负责的层面。使用这样的设计模式就是为了解耦,使3个组件相互之间不存在依赖,有利于代码可维护性、可读性、灵活性,有益于系统管理和维护。
附图说明
[0021]图1本专利技术的整体功能图。
[0022]图2本专利技术的系统架构图。
[0023]图3本专利技术的工作流程图。
[0024]图4本专利技术的K

Means算法流程图。
[0025]图5本专利技术的协同过滤技术预测机制图。
具体实施方式
[0026]本专利技术的系统架构图如附图2所示,在用户操作系统时,收集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.大数据环境下用户阅读行为分析与预测系统,其特征在于:包括:文本数据相关分析单元、用户数据相关分析单元、数据异常分析单元和用户行为预测单元;其中:大数据环境下用户阅读行为分析与预测系统可分为用户数据存储层、用户数据处理层、用户数据分析和建模层、服务层以及展示层;用户数据存储层是信息存储在MySql中;用户数据处理层包括源数据采集、源数据清洗、数据存储、数据管理和维护;用户数据分析和建模层包括文本数据相关分析、用户数据相关分析、数据异常分析和用户行为预测的代码;服务层包括数据服务、行为服务、用户服务、画像服务、预测服务;展示层主要负责统计分析的结果的展示在界面上;文本数据相关分析单元是指对网站内的大量文本数据进行多维度的挖掘,对文本数据进行研究,从而更好的为用户提供服务;文本数据分析包括文本基本信息、文本画像和文本统计信息;文本基本信息包括标题、作者、年份、简介、关键词、价格、标签、添加时间、文章分类;文本画像包括搜索量、点击量、阅读量、评论量、点赞量、收藏量、曝光量;文本统计信息包括文本搜索量排名分布、文本搜索转化率分布、文本点击量分布、文本阅读量排名分布、文本评论量排名分布、文本点赞量排名分布、文本收藏量排名分布、文本曝光量排名分布、文本阅读用户数分布、文本阅读时间分布、文本相关关键词分布、文本标签分布、文本分类分布、关键词搜索量分布、关键词搜索转化率分布、关键词点击量分布、关键词点击量分布、关键词所属分类分布、关键词命中文章分布、搜索用户排名分布、文章分类分布;用户数据相关分析单元是指通过对用户上网的日志信息进行初步的统计分析,然后结合项目的实际需要并且利用数据挖掘对用户的行为进行深入研究,从中发现用户访问网站的使用偏好和行为规律,并且把这些规律与网站营销的策略相结合以此为依据对网站存在的问题进行改进。2.根据权利要求1所述的大数据环境下用户阅读行为分析与预测系统,其特征在于:用户数据分析包括用户基本信息、用户画像和用户统计信息。3.根据权利要求1所述的大数据环境下用户阅读行为分析与预测系统,其特征在于:用户基本信息包括用户名、姓名、年龄、性别、联系方式、注册IP、登陆地点、运营商、添加时间、最近操作时间。4.根据权利要求1...

【专利技术属性】
技术研发人员:李丹丹段娟肖创柏
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1