基于文本挖掘的互联网媒体用户属性分析方法技术

技术编号：12218249 阅读：77 留言：0更新日期：2015-10-21 20:05

本发明专利技术公开了一种基于文本挖掘的互联网媒体用户属性分析方法，包括如下步骤：(1)文本挖掘：1.1：创建标签主语料库；1.2：创建特征语料库；1.3：语料库更新维护；(2)获取互联媒体网用户属性集合：2.1：抽取互联网媒体用户全量历史文章样本并清洗；2.2：对样本进行处理，得出噪音值；2.3：将噪音值与阈值a作比较，噪音值小于阈值a，则进行模型分类形成互联网媒体用户属性集合。通过本发明专利技术不仅能分析挖掘用户基本属性，识别用户属性的应用范围大大扩大，而且还可以分析互联网媒体用户的基本属性，能对互联网媒体用户的全方位属性提供支持，不仅具有广泛的商业应用价值，也为互联网媒体用户标签的挖掘算法和知识图谱的应用指明了研究方向。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种互联网媒体用户属性分析方法，尤其涉及一种基于文本挖掘的互联网媒体用户属性分析方法。
技术介绍
目前，全世界互联网已经形成规模，互联网应用走向多元化，互联网越来越深刻地改变着人们的学习、工作以及生活方式。在网络数据分析中，能准确知道互联网用户的习惯、需求等属性是精确内容推广或者广告投放的重要前提。目前，在互联网中识别媒体用户属性的现有技术方案都是基于用户文章样本的，需要首先收集用户全量历史样本，整理样本用户的数据，整理样本库，对样本库进行标签语料库分类，比如，某个语料库代表"购物"、 "时尚"、"服饰"等内容；然后再根据样本库和互联网用户的样本库进行匹配，来识别用户属性。比如：如果一个男性用户喜欢访问"军事"、"理财"内容的样本文章，那么所有访问"军事"，"理财"类样本的用户都是男性的概率较大。即，在互联网中识别用户属性的传统方法基于样本数据，通过机器学习，再配以数据模型进行训练，进行互联网用户属性的判断。上述传统方法存在以下缺陷：都需要有一个已知的用户样本，然后通过用户样本的行为偏好进行机器学习，再分析未知用户的用户属性，所以只能分析样本用户属性中的已知属性，对未知的属性无法识别和挖掘，而且对已知属性进行分析也不够精确。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种能对互联网用户的属性进行全方位分析的。本专利技术通过以下技术方案来实现上述目的：一种，包括以下步骤： (1)文本挖掘： 1. 1 :创建标签主语料库： 1. 1. 1 :抽取文章样本，对样本进行清洗，清洗掉音频、视频...

【技术保护点】
一种基于文本挖掘的互联网媒体用户属性分析方法，其特征在于：包括以下步骤：（1）文本挖掘：1.1：创建标签主语料库：1.1.1：抽取文章样本，对样本进行清洗，清洗掉音频、视频、图片和残缺文章、乱码、非法字符；1.1.2：根据标签类库人工分类；1.1.3：对样本同时进行动态聚类和模糊聚类，设置簇参数；1.1.4：依次进行语义分析、簇特征分析、修正簇参数和密度降噪处理，得出噪音值M；1.1.5：将噪音值M与阈值a作比较，如果噪音值M小于阈值a，则跳转至步骤1.1.6，如果噪音值M大于或等于阈值a，则跳转至步骤1.1.3；1.1.6：再依次进行模型聚类、语义分析、类特征分析、修正类参数和密度降噪处理，得出噪音值N；1.1.7：将噪音值N与阈值a作比较，如果噪音值N小于阈值a，则跳转至步骤1.1.8，如果噪音值N大于或等于阈值a，则进行修正标签类库后跳转至步骤1.1.6；1.1.8：进行模型分类形成标签主语料库；1.2：创建特征语料库：1.2.1：对标签主语料库依次进行样本词频分析、语义分析；1.2.2：进行高词频分类；1.2.3：创建特征词与标签类库的映射模型，形成特征语料库；1.3：语料库更...

【技术特征摘要】

【专利技术属性】
技术研发人员：王飞，张国鸿，张何君，
申请(专利权)人：成都云堆移动信息技术有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人