基于用户访问数据的用户画像形成方法技术

技术编号：15241235 阅读：564 留言：0更新日期：2017-05-01 01:25

本发明专利技术为基于用户访问数据的用户画像形成方法，利用爬虫工具、提取算法、中文分词方法对网页中的内容进行获取和自动处理，其智能化、自动化程度较高，很好地解决了现有技术的缺陷。且本发明专利技术提供的方法利用机器学习方法，学习出用户的特征，以表现出用户的生活、购物等行为偏好。

User profile formation method based on user access data

The invention relates to a method of forming the user portrait user access based on data, using crawler tools, extraction algorithm, Chinese segmentation method of web content acquisition and automatic processing, intelligent, high degree of automation, solves the defects of the prior art. The invention provides a method for learning the characteristics of a user by using a machine learning method, so as to show the behavior preference of the user's life and shopping.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，更具体地，涉及一种基于用户访问数据的用户画像形成方法。
技术介绍
大数据一般是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。用户画像是大数据时代下产生的重要的技术应用，其目标是在建立多维的针对用户的描述性标签属性，从而利用这些标签属性对用户多方面的真实个人特征进行勾勒，进而，可以利用用户画像发掘用户需求，分析用户偏好，并通过匹配用户画像提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验。目前用户画像的形成一般应用于电子商务网站、新闻推荐系统等，旨在更准确地向用户推荐其感兴趣的商品或新闻，提高用户体验。建立用户画像的数据一般有用户现实生活中的数据和网络行为数据。现实生活中的数据包括用户的基本信息如姓名、性别、年龄、运动爱好等数据，而网络行为数据包括用户在互联网世界里进行网页访问、游戏、听音乐、看电影、社交等行为记录。协同过滤(英语：CollaborativeFiltering)，作为用户画像与推荐系统的一种经典方法，简单来说是利用兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息，回应不一定局限于特别感兴趣的，特别不感兴趣信息的纪录也相当重要。基于内容的推荐则是根据内容本身的属性(特征向量)所作的推荐。需要先对产品进行特征提取(向量化)，根据用户的历史信息建立用户的偏好文档，这个偏好文档...

【技术保护点】
一种基于用户访问数据的用户画像形成方法，其特征在于：包括以下步骤：S1.对用户的访问数据进行过滤，将访问数据中无关的请求链接过滤掉，得到相关的访问链接；S2.使用爬虫工具抓取相关的访问链接对应的网页，然后使用提取算法将所抓取网页中的文本信息提取出来；S3.使用中文分词方法对提取出来的文本信息进行分词处理，其中每个网页的文本信息经过分词处理后得到的词汇列表存储在一个文档中；S4.对网络上公开的语料库进行分词处理，然后基于分词处理后的语料库使用词向量技术训练出词向量Word2Vec，得到中文词语的分布式表达；S5.创建Doc2Vec模型，利用词向量Word2Vec对Doc2Vec模型进行初始化，然后将每个文档中的词汇列表分别输入至Doc2Vec模型中，文档中的词汇列表对Doc2Vec模型进行训练，Doc2Vec模型的输出为该文档对应的网页的分布式表达；S6.对于每个标签，训练一个用于判断分布式表达中是否带有此标签的判断分类器；S7.将步骤S5中的每个网页的分布式表达分别输入至各个标签的判断分类器中，若标签的判断分类器的输出为肯定，则说明用户的网页访问带有该标签的属性；若标签的判断分类器的输...

【技术特征摘要】
1.一种基于用户访问数据的用户画像形成方法，其特征在于：包括以下步骤：S1.对用户的访问数据进行过滤，将访问数据中无关的请求链接过滤掉，得到相关的访问链接；S2.使用爬虫工具抓取相关的访问链接对应的网页，然后使用提取算法将所抓取网页中的文本信息提取出来；S3.使用中文分词方法对提取出来的文本信息进行分词处理，其中每个网页的文本信息经过分词处理后得到的词汇列表存储在一个文档中；S4.对网络上公开的语料库进行分词处理，然后基于分词处理后的语料库使用词向量技术训练出词向量Word2Vec，得到中文词语的分布式表达；S5.创建Doc2Vec模型，利用词向量Word2Vec对Doc2Vec模型进行初始化，然后将每个文档中的词汇列表分别输入至Doc2Vec模型中，文档中的词汇列表对Doc2Vec模型进行训练，Doc2Vec模型的输出为该文档对应的网页的分布式表达；S6.对于每个标签，训练一个用于判断分布式表达中是否带有此标签的判断分类器；S7.将步骤S5中的每个网页的分布式表达分别输入至各个标签的判断分类器中，若标签的判断分类器的输出为肯定，则说明用户的网页访...

【专利技术属性】
技术研发人员：罗思伟，林倞，王青，聂琳，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人