当前位置: 首页 > 专利查询>中山大学专利>正文

基于用户访问数据的用户画像形成方法技术

技术编号:15241235 阅读:564 留言:0更新日期:2017-05-01 01:25
本发明专利技术为基于用户访问数据的用户画像形成方法,利用爬虫工具、提取算法、中文分词方法对网页中的内容进行获取和自动处理,其智能化、自动化程度较高,很好地解决了现有技术的缺陷。且本发明专利技术提供的方法利用机器学习方法,学习出用户的特征,以表现出用户的生活、购物等行为偏好。

User profile formation method based on user access data

The invention relates to a method of forming the user portrait user access based on data, using crawler tools, extraction algorithm, Chinese segmentation method of web content acquisition and automatic processing, intelligent, high degree of automation, solves the defects of the prior art. The invention provides a method for learning the characteristics of a user by using a machine learning method, so as to show the behavior preference of the user's life and shopping.

【技术实现步骤摘要】

本专利技术涉及计算机
,更具体地,涉及一种基于用户访问数据的用户画像形成方法
技术介绍
大数据一般是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。用户画像是大数据时代下产生的重要的技术应用,其目标是在建立多维的针对用户的描述性标签属性,从而利用这些标签属性对用户多方面的真实个人特征进行勾勒,进而,可以利用用户画像发掘用户需求,分析用户偏好,并通过匹配用户画像提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验。目前用户画像的形成一般应用于电子商务网站、新闻推荐系统等,旨在更准确地向用户推荐其感兴趣的商品或新闻,提高用户体验。建立用户画像的数据一般有用户现实生活中的数据和网络行为数据。现实生活中的数据包括用户的基本信息如姓名、性别、年龄、运动爱好等数据,而网络行为数据包括用户在互联网世界里进行网页访问、游戏、听音乐、看电影、社交等行为记录。协同过滤(英语:CollaborativeFiltering),作为用户画像与推荐系统的一种经典方法,简单来说是利用兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。基于内容的推荐则是根据内容本身的属性(特征向量)所作的推荐。需要先对产品进行特征提取(向量化),根据用户的历史信息建立用户的偏好文档,这个偏好文档,可是看作用户画像。根据这个画像,可以找到适合用户的商品和服务进行推荐。但是上述方法在具体实施的时候均需人工标注网页数据,其处理的效率较低。
技术实现思路
本专利技术为解决以上现有技术的难题,提供了一种基于用户访问数据的用户画像形成方法,该方法在具体实施的过程中无需对网页数据进行标注,其处理效率高,且能够利用机器学习方法,学习出用户的特征,以表现出用户的生活、购物等行为偏好。为实现以上专利技术目的,采用的技术方案是:一种基于用户访问数据的用户画像形成方法,包括以下步骤:S1.对用户的访问数据进行过滤,将访问数据中无关的请求链接过滤掉,得到相关的访问链接;S2.使用爬虫工具抓取相关的访问链接对应的网页,然后使用提取算法将所抓取网页中的文本信息提取出来;S3.使用中文分词方法对提取出来的文本信息进行分词处理,其中每个网页的文本信息经过分词处理后得到的词汇列表存储在一个文档中;S4.对网络上公开的语料库进行分词处理,然后基于分词处理后的语料库使用词向量技术训练出词向量Word2Vec,得到中文词语的分布式表达;S5.创建Doc2Vec模型,利用词向量Word2Vec对Doc2Vec模型进行初始化,然后将每个文档中的词汇列表分别输入至Doc2Vec模型中,文档中的词汇列表对Doc2Vec模型进行训练,Doc2Vec模型的输出为该文档对应的网页的分布式表达;S6.对于每个标签,训练一个用于判断分布式表达中是否带有此标签的判断分类器;S7.将步骤S5中的每个网页的分布式表达分别输入至各个标签的判断分类器中,若标签的判断分类器的输出为肯定,则说明用户的网页访问带有该标签的属性;若标签的判断分类器的输出为否定,则说明用户的网页访问不带有该标签的属性。优选地,所述步骤S1中,过滤掉访问数据中的CSS请求链接、图片资源请求链接、js脚本资源请求链接。优选地,所述步骤S1中通过正则表达式对无关的访问进行过滤。优选地,所述步骤S2中,使用基于文本密度的提取算法将所抓取网页中的文本信息提取出来。优选地,所述步骤S2中,建立一个哈希表来保存抓取的网页。优选地,所述步骤S6中,所述判断分类器包括训练好的卷积神经网络和logistic回归二元分类器,卷积神经网络的输出端与logistic回归二元分类器的输入端连接,卷积神经网络用于对标签进行分类,logistic回归二元分类器用于输出卷积神经网络的分类结果。与现有技术相比,本专利技术的有益效果是:本专利技术提供的方法利用爬虫工具、提取算法、中文分词方法对网页中的内容进行获取和自动处理,其智能化、自动化程度较高,很好地解决了现有技术的缺陷。且本专利技术提供的方法利用机器学习方法,学习出用户的特征,以表现出用户的生活、购物等行为偏好。附图说明图1为测试结果一的示意图。图2为测试结果二的示意图。图3(a)、(b)为测试结果三的示意图和测试结果四的示意图。图4为测试结果五的示意图。图5为测试结果六的示意图。图6为训练判断分类器的示意图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;以下结合附图和实施例对本专利技术做进一步的阐述。实施例1本专利技术所提供的方法主要有以下步骤:第一步、过滤不必要链接并以用户为单位进行汇总整理。这一步将一些不必要的如开源的js库资源访问请求、外部图片资源访问请求的链接过滤掉,得到用户实质上想访问的链接。然后把每个用户的链接和访问时间按照时间排序保存。第二步、编写网络爬虫工具,抓取用户的所有链接的网页标题和内容。由于用户访问的页面很多,为了避免重复抓取某个页面,因此需要建立一个哈希表来保存已经抓取了的页面链接,这样就可以避免重复抓取。抓取过程中,为了避免一些网站的反爬虫机制,需要利用几个策略,分别是:伪装UserAgent,使用代理和避免对同一网站的连续访问等。第三步、利用开源的网页正文提取算法如cx-extractor,从网页内容中提取出每个网页的文本内容。现如今的网页内容,一般都会包含一定数量的广告、网站的目录导航等与页面主题无关的内容,本实施例使用基于密度的正文提取算法,提取出页面的正文而不受那些不相关因素的影响,这样可以保证网页内容与网页的主题的相关性,减少噪声的污染。第四步、对每个网页的正文和标题,使用中文分词技术,把每个文档(标题和正文)转换成一系列词汇组成的列表。第五步、收集网络上的语料库,比如中文维基百科提供的语料库,先用第4步的方法进行分词,然后使用词向量技术,训练出词汇的词向量Word2Vec。在这里,训练出来的词汇的分布式表达,是采用无监督学习,利用skip-gram技术,得到的一个能在一定程度上表达了词语的词性、意义以及与其他词语的相关性的词向量Word2Vec。如图1、图2所示,分别测试“可以”和“美女”两个词语词性和意义最相近的词。给出的“可以”最相似的词是“能够”、“可”、“能”,给出的“美女”的相近的词是“帅哥”、“正妹”。再如图3(a)、图3(b)、图4所示,测试一个主题词汇与一系列相关或不相关词语的相似度,可以明显地看出,与主题词汇相关的词语得分明显比不相关词语得分高。最后,如图5所示,词汇向量间的关系:淘宝–中国=?-美国得出的得分最高的答案是ebay。从上面这些例子可以看出word2vec的强大,不仅学习出了词汇相似性,还学习到了词汇之间的关系。所以可以使用训练好的word2vec。第六步、由于(1)保存了每个链接的访问时间,所以可以根据这个信息,根据一定规则得到链接的访问顺序,对每个用户的网页访问文档,按照这个时间顺序进行排序。第七步、用第五步得到的词向量Word2Vec初始化Do本文档来自技高网
...

【技术保护点】
一种基于用户访问数据的用户画像形成方法,其特征在于:包括以下步骤:S1.对用户的访问数据进行过滤,将访问数据中无关的请求链接过滤掉,得到相关的访问链接;S2.使用爬虫工具抓取相关的访问链接对应的网页,然后使用提取算法将所抓取网页中的文本信息提取出来;S3.使用中文分词方法对提取出来的文本信息进行分词处理,其中每个网页的文本信息经过分词处理后得到的词汇列表存储在一个文档中;S4.对网络上公开的语料库进行分词处理,然后基于分词处理后的语料库使用词向量技术训练出词向量Word2Vec,得到中文词语的分布式表达;S5.创建Doc2Vec模型,利用词向量Word2Vec对Doc2Vec模型进行初始化,然后将每个文档中的词汇列表分别输入至Doc2Vec模型中,文档中的词汇列表对Doc2Vec模型进行训练,Doc2Vec模型的输出为该文档对应的网页的分布式表达;S6.对于每个标签,训练一个用于判断分布式表达中是否带有此标签的判断分类器;S7.将步骤S5中的每个网页的分布式表达分别输入至各个标签的判断分类器中,若标签的判断分类器的输出为肯定,则说明用户的网页访问带有该标签的属性;若标签的判断分类器的输出为否定,则说明用户的网页访问不带有该标签的属性。...

【技术特征摘要】
1.一种基于用户访问数据的用户画像形成方法,其特征在于:包括以下步骤:S1.对用户的访问数据进行过滤,将访问数据中无关的请求链接过滤掉,得到相关的访问链接;S2.使用爬虫工具抓取相关的访问链接对应的网页,然后使用提取算法将所抓取网页中的文本信息提取出来;S3.使用中文分词方法对提取出来的文本信息进行分词处理,其中每个网页的文本信息经过分词处理后得到的词汇列表存储在一个文档中;S4.对网络上公开的语料库进行分词处理,然后基于分词处理后的语料库使用词向量技术训练出词向量Word2Vec,得到中文词语的分布式表达;S5.创建Doc2Vec模型,利用词向量Word2Vec对Doc2Vec模型进行初始化,然后将每个文档中的词汇列表分别输入至Doc2Vec模型中,文档中的词汇列表对Doc2Vec模型进行训练,Doc2Vec模型的输出为该文档对应的网页的分布式表达;S6.对于每个标签,训练一个用于判断分布式表达中是否带有此标签的判断分类器;S7.将步骤S5中的每个网页的分布式表达分别输入至各个标签的判断分类器中,若标签的判断分类器的输出为肯定,则说明用户的网页访...

【专利技术属性】
技术研发人员:罗思伟林倞王青聂琳
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1