The present invention provides a method of presentation of large data analysis based on the content, the method includes: collecting historical data sessions and pretreatment, users get the topic distribution by the session topic distribution, according to each user's attention and concern the number of features for the number of user behavior to determine user session initiation, the session initiation user according to the user to participate in the user interest feature session. The present invention provides a method for presenting data analysis based on content analysis, user interest from many angles, explores the potential user interest increase premise describe the user's interests under the push to improve the diversity and accuracy of the results.
【技术实现步骤摘要】
本专利技术涉及大数据,特别涉及一种基于大数据分析的内容呈现方法。
技术介绍
随着信息技术和网络技术的高速发展,互联网己经表现为了去中心化,开放,共享的特点,这些特点影响并改变着人们的生活方式。互联网已经不再只是用户发布消息和获取消息的媒介,更多的是人与人之间的交流互动平台。随着社交网络的出现与发展,社交网络开始拥有庞大的用户群体,并且用户在社交网络上可以表达自己的观点,频繁地更新微博,将自己感兴趣的信息分享给好友,不断添加自己感兴趣的用户扩展自己的爱好群等。如此海量的数据让用户很容易迷失在信息的海洋中,要想更快、更准确地寻找到用户自己需要的数据变得更加的困难。基于传统的搜索获取信息的推送方式己经不适合。价值高、可靠性强的信息无法展示在它感兴趣的用户面前。目前没有有效方法对这些数据进行深度分析并挖掘深层次的有用信息,为用户提供个性化的推送服务。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种基于大数据分析的内容呈现方法,包括:采集历史会话数据并进行预处理,由会话主题分布得到用户主题分布,根据每个用户的关注数和被关注数获取用户的特征行为以确定会话发起用户,将会话发起用户根据用户兴趣特征推送给会话参与用户。优选地,所述采集历史会话数据并进行预处理,进一步包括:通过数据清洗将无用数据清除,通过数据预处理和分词,将会话的内容信息转化为结构向量;收集缩写词和全称的映射表,对会话 ...
【技术保护点】
一种基于大数据分析的内容呈现方法,其特征在于,包括:采集历史会话数据并进行预处理,由会话主题分布得到用户主题分布,根据每个用户的关注数和被关注数获取用户的特征行为以确定会话发起用户,将会话发起用户根据用户兴趣特征推送给会话参与用户。
【技术特征摘要】
1.一种基于大数据分析的内容呈现方法,其特征在于,包括:
采集历史会话数据并进行预处理,由会话主题分布得到用户主题分布,根
据每个用户的关注数和被关注数获取用户的特征行为以确定会话发起用户,将
会话发起用户根据用户兴趣特征推送给会话参与用户。
2.根据权利要求1所述的方法,其特征在于,所述采集历史会话数据并进
行预处理,进一步包括:
通过数据清洗将无用数据清除,通过数据预处理和分词,将会话的内容信
息转化为结构向量;收集缩写词和全称的映射表,对会话的内容进行替换处理;
将无意义字符进行过滤处理;从用户会话中提取代表会话的主题以及目标用户
信息;采用条件随机场算法进行中文分词;在分词系统中输入会话的内容,经
过分词处理后,将输出的会话数据转换为词条序列。
3.根据权利要求2所述的方法,其特征在于,所述根据每个用户的关注数
和被关注数获取用户的特征行为,进一步包括:
通过会话用户的被关注数、关注人数和发布的...
【专利技术属性】
技术研发人员:董政,吴文杰,陈露,李学生,
申请(专利权)人:成都陌云科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。