基于文本挖掘的互联网媒体用户属性分析方法技术

技术编号:12218249 阅读:77 留言:0更新日期:2015-10-21 20:05
本发明专利技术公开了一种基于文本挖掘的互联网媒体用户属性分析方法,包括如下步骤:(1)文本挖掘:1.1:创建标签主语料库;1.2:创建特征语料库;1.3:语料库更新维护;(2)获取互联媒体网用户属性集合:2.1:抽取互联网媒体用户全量历史文章样本并清洗;2.2:对样本进行处理,得出噪音值;2.3:将噪音值与阈值a作比较,噪音值小于阈值a,则进行模型分类形成互联网媒体用户属性集合。通过本发明专利技术不仅能分析挖掘用户基本属性,识别用户属性的应用范围大大扩大,而且还可以分析互联网媒体用户的基本属性,能对互联网媒体用户的全方位属性提供支持,不仅具有广泛的商业应用价值,也为互联网媒体用户标签的挖掘算法和知识图谱的应用指明了研究方向。

【技术实现步骤摘要】

本专利技术涉及一种互联网媒体用户属性分析方法,尤其涉及一种基于文本挖掘的互 联网媒体用户属性分析方法。
技术介绍
目前,全世界互联网已经形成规模,互联网应用走向多元化,互联网越来越深刻地 改变着人们的学习、工作以及生活方式。在网络数据分析中,能准确知道互联网用户的习 惯、需求等属性是精确内容推广或者广告投放的重要前提。目前,在互联网中识别媒体用户 属性的现有技术方案都是基于用户文章样本的,需要首先收集用户全量历史样本,整理样 本用户的数据,整理样本库,对样本库进行标签语料库分类,比如,某个语料库代表"购物"、 "时尚"、"服饰"等内容;然后再根据样本库和互联网用户的样本库进行匹配,来识别用户属 性。比如:如果一个男性用户喜欢访问"军事"、"理财"内容的样本文章,那么所有访问"军 事","理财"类样本的用户都是男性的概率较大。即,在互联网中识别用户属性的传统方法 基于样本数据,通过机器学习,再配以数据模型进行训练,进行互联网用户属性的判断。 上述传统方法存在以下缺陷:都需要有一个已知的用户样本,然后通过用户样本 的行为偏好进行机器学习,再分析未知用户的用户属性,所以只能分析样本用户属性中的 已知属性,对未知的属性无法识别和挖掘,而且对已知属性进行分析也不够精确。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种能对互联网用户的属性进行 全方位分析的。 本专利技术通过以下技术方案来实现上述目的: 一种,包括以下步骤: (1)文本挖掘: 1. 1 :创建标签主语料库: 1. 1. 1 :抽取文章样本,对样本进行清洗,清洗掉音频、视频、图片和残缺文章、乱 码、非法字符; 1. 1. 2 :根据标签类库人工分类; 1. 1. 3 :对样本同时进行动态聚类和模糊聚类,设置簇参数; 1. 1. 4 :依次进行语义分析、簇特征分析、修正簇参数和密度降噪处理,得出噪音值 M ; 1. 1. 5 :将噪音值M与阈值a作比较,如果噪音值M小于阈值a,则跳转至步骤 1. 1. 6,如果噪音值M大于或等于阈值a,则跳转至步骤1. 1. 3 ; 1. 1. 6 :再依次进行模型聚类、语义分析、类特征分析、修正类参数和密度降噪处 理,得出噪音值N; 1. 1. 7 :将噪音值N与阈值a作比较,如果噪音值N小于阈值a,则跳转至步骤 1. 1. 8,如果噪音值N大于或等于阈值a,则进行修正标签类库后跳转至步骤1. 1. 6; 1. 1. 8 :进行模型分类形成标签主语料库; 1. 2 :创建特征语料库: 1. 2. 1 :对标签主语料库依次进行样本词频分析、语义分析; 1. 2. 2 :进行高词频分类; 1. 2. 3:创建特征词与标签类库的映射模型,形成特征语料库; 1.3:语料库更新维护: 1. 3. 1 :抽取全量已分类文章样本; 1. 3. 2:依次进行词频分析、语义分析、密度降噪处理和清洗噪音数据,样本分类, 更新标签主语料库或者特征语料库; 1. 3. 3 :搜集新增标签,抽取带新增标签文章样本,进入步骤1. 1,清洗噪音数据, 样本分类,更新标签主语料库; (2)获取互联网媒体用户属性集合:2. 1 :抽取互联网媒体用户全量历史文章样本,对样本进行清洗,清洗掉视频、音频 和图片; 2. 2:对样本进行动态聚类和模糊聚类同步处理,再依次进行词频分析、语义分析、 类特征分析、修正类参数和密度降噪处理,得出噪音值A; 2. 3 :将噪音值A与阈值a作比较,如果噪音值A小于阈值a,则跳转至步骤2. 4,如 果噪音值A大于或等于阈值a,则跳转至步骤2. 2; 2. 4:再依次进行模型聚类、语义分析、类特征分析和密度降噪处理,得出噪音值 B ; 2. 5 :将噪音值B与阈值a作比较,如果噪音值B小于阈值a,则跳转至步骤2. 6,如 果噪音值B大于或等于阈值a,则进行修正类参数处理后跳转至步骤2. 4; 2. 6 :进行模型分类形成互联网媒体用户属性集合; 上述步骤中,阈值a根据业务需要进行调整,一般选择0. 01 ;上述步骤中涉及下述 词语的定义如下: 标签类库:由一类自定义标签形成的类库,每一个标签均指向同一类属性的事物, 不同类标签之间有明显特征区别,遵循高聚类、低耦合的原则; 簇参数:用聚类算法进行聚类时,根据标签类库的标签种类数量及文章的相似度 人为设定的一个组类数量,同组类的样本相似度较高,异组类的样本相似度较低,聚类时以 此参数作为分组的依据,并通过人工监督的方式不断调整该参数,以达到与标签类库最佳 匹配的目的; 语义分析:第一,人工分析:对样本进行聚类后,通过人工抽样的方式,对样本进 行人工理解,判断样本之间的相似度的过程,同时作为簇参数的修改依据;第二,机器分析: 对样本进行分类时,通过与语料库的匹配算法,对样本进行分类的过程,同时作为语料库修 正的依据; 簇特征分析:通过语义分析,利用提取主特征的算法,对已聚类的簇进行特征提取 和标识的过程; 修正簇参数:在构建语料库时,对样本进行第一次聚类后,通过人工监督学习的方 式,利用簇特征分析,调整聚类的组类数量以达到与标签类库的最佳匹配,这个调整组类数 量的过程即为修正簇参数; 密度降噪处理:在簇特征分析过程中,需要对数据进行噪音处理,将主特征散点分 布图中距离较远的点去掉,以形成可反应主特征的类别集合,这个去除噪音点的过程,即为 密度降噪处理; 类特征分析:经过第一次簇降噪,对降噪后的类别集合进行特征提取和标识的过 程; 修正类参数:在构建语料库时,对样本进行第二次聚类后,通过人工监督学习的方 式,利用类特征分析,调整聚类的组类数量以达到与标签类库的最佳匹配,这个调整组类数 量的过程即为修正簇参数; 修正标签类库:在第二次聚类的过程中,由于已经进行过一次降噪处理,样本分类 模型已初步满足高聚类、低耦合的原则,再基于此模型进行第二次降噪处理后,基本可以达 到业务要求,此时的分类模型已经确定,需要通过调整标签类库来达到与分类的最佳匹配, 此调整过程即为修正标签类库; 基于模型分类:经过两次降噪处理后,形成一个基于样本的分类模型,作为冷启动 的修正算法,再对需要分类的样本基于该模型进行分类的过程; 动态聚类:按照限定类别去发现符合类别的样本词汇; 模糊聚类:按照样本词汇语义模糊归属类别; 模型聚类:先假设一个类别,再去发现符合类别的样本词汇,将给定类别和样本词 汇达到最佳拟合。 作为优选,所述步骤1. 1. 4中,M值算法如下: 考虑给定对象集D,对象〇的k_距离记为disk k(o),是〇与另一个对象p G D之 间的距离dist(o,p),使得: 至少有 K 个对象 o' G D,使得 disk(o, o')< dist(o, p), 至少有 K-1 个对象 o' G D,使得 disk(o, o')< dist(o, p), 记: Nk (o) = {〇' | o' G D,dist (〇, o')< distk (o)}, 对于两个对象〇,〇',如果dist(o, o')>d当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种基于文本挖掘的互联网媒体用户属性分析方法,其特征在于:包括以下步骤:(1)文本挖掘:1.1:创建标签主语料库:1.1.1:抽取文章样本,对样本进行清洗,清洗掉音频、视频、图片和残缺文章、乱码、非法字符;1.1.2:根据标签类库人工分类;1.1.3:对样本同时进行动态聚类和模糊聚类,设置簇参数;1.1.4:依次进行语义分析、簇特征分析、修正簇参数和密度降噪处理,得出噪音值M;1.1.5:将噪音值M与阈值a作比较,如果噪音值M小于阈值a,则跳转至步骤1.1.6,如果噪音值M大于或等于阈值a,则跳转至步骤1.1.3;1.1.6:再依次进行模型聚类、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值N;1.1.7:将噪音值N与阈值a作比较,如果噪音值N小于阈值a,则跳转至步骤1.1.8,如果噪音值N大于或等于阈值a,则进行修正标签类库后跳转至步骤1.1.6;1.1.8:进行模型分类形成标签主语料库;1.2:创建特征语料库:1.2.1:对标签主语料库依次进行样本词频分析、语义分析;1.2.2:进行高词频分类;1.2.3:创建特征词与标签类库的映射模型,形成特征语料库;1.3:语料库更新维护:1.3.1:抽取全量已分类文章样本;1.3.2:依次进行词频分析、语义分析、密度降噪处理和清洗噪音数据,样本分类,更新标签主语料库或者特征语料库;1.3.3:搜集新增标签,抽取带新增标签文章样本,进入步骤1.1,清洗噪音数据,样本分类,更新标签主语料库;(2)获取互联网媒体用户属性集合:2.1:抽取互联网媒体用户全量历史文章样本,对样本进行清洗,清洗掉视频、音频和图片;2.2:对样本进行动态聚类和模糊聚类同步处理,再依次进行词频分析、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值A;2.3:将噪音值A与阈值a作比较,如果噪音值A小于阈值a,则跳转至步骤2.4,如果噪音值A大于或等于阈值a,则跳转至步骤2.2;2.4:再依次进行模型聚类、语义分析、类特征分析和密度降噪处理,得出噪音值B;2.5:将噪音值B与阈值a作比较,如果噪音值B小于阈值a,则跳转至步骤2.6,如果噪音值B大于或等于阈值a,则进行修正类参数处理后跳转至步骤2.4;2.6:进行模型分类形成互联网媒体用户属性集合;上述步骤中,阈值a根据业务需要进行调整,一般选择0.01;上述步骤中涉及下述词语的定义如下:标签类库:由一类自定义标签形成的类库,每一个标签均指向同一类属性的事物,不同类标签之间有明显特征区别,遵循高聚类、低耦合的原则;簇参数:用聚类算法进行聚类时,根据标签类库的标签种类数量及文章的相似度人为设定的一个组类数量,同组类的样本相似度较高,异组类的样本相似度较低,聚类时以此参数作为分组的依据,并通过人工监督的方式不断调整该参数,以达到与标签类库最佳匹配的目的;语义分析:第一,人工分析:对样本进行聚类后,通过人工抽样的方式,对样本进行人工理解,判断样本之间的相似度的过程,同时作为簇参数的修改依据;第二,机器分析:对样本进行分类时,通过与语料库的匹配算法,对样本进行分类的过程,同时作为语料库修正的依据;簇特征分析:通过语义分析,利用提取主特征的算法,对已聚类的簇进行特征提取和标识的过程;修正簇参数:在构建语料库时,对样本进行第一次聚类后,通过人工监督学习的方式,利用簇特征分析,调整聚类的组类数量以达到与标签类库的最佳匹配,这个调整组类数量的过程即为修正簇参数;密度降噪处理:在簇特征分析过程中,需要对数据进行噪音处理,将主特征散点分布图中距离较远的点去掉,以形成可反应主特征的类别集合,这个去除噪音点的过程,即为密度降噪处理;类特征分析:经过第一次簇降噪,对降噪后的类别集合进行特征提取和标识的过程;修正类参数:在构建语料库时,对样本进行第二次聚类后,通过人工监督学习的方式,利用类特征分析,调整聚类的组类数量以达到与标签类库的最佳匹配,这个调整组类数量的过程即为修正簇参数;修正标签类库:在第二次聚类的过程中,由于已经进行过一次降噪处理,样本分类模型已初步满足高聚类、低耦合的原则,再基于此模型进行第二次降噪处理后,基本可以达到业务要求,此时的分类模型已经确定,需要通过调整标签类库来达到与分类的最佳匹配,此调整过程即为修正标签类库;基于模型分类:经过两次降噪处理后,形成一个基于样本的分类模型,作为冷启动的修正算法,再对需要分类的样本基于该模型进行分类的过程;动态聚类:按照限定类别去发现符合类别的样本词汇;模糊聚类:按照样本词汇语义模糊归属类别;模型聚类:先假设一个类别,再去发现符合类别的样本词汇,将给定类别和样本词汇达到最佳拟合。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王飞张国鸿张何君
申请(专利权)人:成都云堆移动信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1