本发明专利技术公开了一种多维度网页浏览行为评估方法,首先对搜狗语料库中的文本分词,以TF‑IDF作为文本特征,采用朴素贝叶斯方法对语料库进行训练得到文本训练集,将搜狗语料库中的文本折半切分,得到验证测试集,通过遍历得到最优拉普拉斯平滑参数Alpha,再爬取已浏览网页的指定文本内容,得到已浏览网页标题集,接着采用Alpha的朴素贝叶斯方法对已浏览网页标题集进行分类,得到已浏览网页分类集,并将大于阈值的网页信息加入文本训练集中,利用浏览网页时的停留时间、浏览终端等多维度数据,采用终端‑时间‑分类判别方法对网页浏览数据进行评估,得到评估结果。本发明专利技术方法有效分析了网页浏览信息,提高了网页浏览行为评估的准确度。
【技术实现步骤摘要】
一种多维度网页浏览行为评估方法
本专利技术属于网页浏览行为分析
,特别涉及一种基于TF-IDF和朴素贝叶斯多维度的网页浏览行为评估方法。
技术介绍
浏览网页行为评估方法对实现人员的行为习惯分析有着重要的作用和意义。传统的网页浏览分析由问卷调查的方法已经不能满足社会信息化发展的需求。近年来针对不同种类人群的网络行为分析,研究者提出了相应的分析方法,如神经网络、支持向量机、决策树、KNN方法、遗传方法等。朱全银、贾笑颖等人已有的研究基础包括:朱全银,严云洋,周培,谷天峰.一种基于线性插补与自适应滑动窗口的商品价格预测模型.山东大学学报.2012,Vol.42(5):53-58;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取方法[J].淮阴工学院学报,2015,24(5):18-24;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;QuanyinZhu,SunqunCao.ANovelClassifier-independentFeatureSelectionAlgorithmforImbalancedDatasets.2009,p:77-82;QuanyinZhu,YunyangYan,JinDing,JinQian.TheCaseStudyforPriceExtractingofMobilePhoneSellOnline.2011,p:282-285;QuanyinZhu,SuqunCao,PeiZhou,YunyangYan,HongZhou.IntegratedPriceForecastbasedonDichotomyBackfillingandDisturbanceFactorAlgorithm.InternationalReviewonComputersandSoftware,2011,Vol.6(6):1089-1093;ZhuQuan-yin,YinYonghua,YanYun-yang,GuTian-feng.ANovelEfficientAdaptiveSlidingWindowModelforWeek-aheadPriceForecasting.TELKOMNIKAIndonesianJournalofElectricalEngineering.2014.Vol.12(3):2219-2226;ZhuQuanyin,PanLu,YinYonghuaLiXiang.InfluenceonNormalizationandMagnitudeNormalizationforPriceForecastingofAgriculturalProducts.InformationTechnologyJournal(ITJ).2013.Vol.12(15):3046-3057;QuanyinZhu,JinDing,YonghuaYin,PeiZhou.AHybridApproachforNewProductsDiscoveryofCellPhoneBasedonWebMining.JournalofInformationandComputationalScience(JICS).2012,Vol.9(16):5039-5046。朱全银、贾笑颖等人申请、公开与授权的相关专利:朱全银,尹永华,严云杨,曹苏群等,一种基于神经网络的多品种商品价格预测的数据预处理方法.中国专利:ZL201210325368.6,2016.06.08;朱全银,胡蓉静,何苏群,周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL201110423015.5,2015.07.01;朱全银,曹苏群,严云洋,胡蓉静等,一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL201110422274.6,2015.07.01;朱全银,辛诚,李翔,潘舒新等,一种基于K-means和LDA双向验证的网络行为习惯聚类方法.中国专利公开号:CN106202480A,2016.12.07;朱全银,辛诚,刘斌,潘舒新等,一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法.中国专利公开号CN106202498A,2016.12.07;李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。TF-IDF:TF-IDF(TermFrequency–InverseDocumentFrequency)是一种用于资讯检索与文本挖掘的常用加权技术。在一份给定的文件里,词频(TermFrequency,TF)指的是某一个给定的词语在该文件中出现的次数;逆向文件频率(InverseDocumentFrequency,IDF)是一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。朴素贝叶斯方法:朴素贝叶斯方法是文本分类的一种热门方法,文本分类是以词频为特征判断文件所属类别或其他的问题。朴素贝叶斯分类器是一系列以假设特征之间强独立下运用贝叶斯定理为基础的简单概率分类器。朴素贝叶斯分类器是高度可扩展的,因此需要数量与学习问题中的变量(特征/预测器)成线性关系的参数。最大似然训练可以通过评估一个封闭形式的表达式来完成,只需花费线性时间,而不需要其他很多类型的分类器所使用的费时的迭代逼近。拉普拉斯平滑参数:拉普拉斯平滑(LamplaceSmoothing)是一种比较常用的平滑方法,用于解决零概率问题。所谓的零概率问题,就是在计算新实例的概率时,如果某个分量在训练集中从没出现过,会导致整个实例的概率计算结果为0。针对这种情况,使用拉普拉斯平滑值后,在计算数据的最大似然估计时,会在计算公式中加上取值范围的大小,从而修正朴素贝叶斯算法,避免了零概率的出现。
技术实现思路
专利技术目的:针对现有技术中存在的问题,本专利技术提供一种减少网页浏览数据量,节约时间;能够准确反映人员的网页浏览行为的多维度网页浏览行为评估方法。技术方案:为解决上述技术问题,本专利技术提供的一种多维度网页浏览行为评估方法,包括如下步骤:步骤一:对搜狗语料库中的文本分词,计算词语的词频TF和逆向文件概率IDF作为文本特征,采用朴素贝叶斯方法对语料库进行文本分类训练,得到文本训练集,对搜狗语料库中的文本折半切分,得到验证测试集,通过遍历,得到最优拉普拉斯平滑参数Alpha;步骤二:通过一种改进型的自适应网页爬取方法,对待处理的网页浏览数据进行标题数据的爬取,得到处理后的已浏览网页标题集;步骤三:对步骤二中处理后的已浏览网页标题集进行分词,得到网页分词集,使用步骤一中的拉普拉斯平滑参数Alpha的朴素贝叶斯方法对网页分词集进行分类,得到已浏览网页分类集,设置网页类型判断阈值,将大于阈值的网页分词集加入文本文档来自技高网...

【技术保护点】
一种多维度网页浏览行为评估方法,其特征在于,包括如下步骤:步骤一:对搜狗语料库中的文本分词,计算词语的词频TF和逆向文件概率IDF作为文本特征,采用朴素贝叶斯方法对语料库进行文本分类训练,得到文本训练集,对搜狗语料库中的文本折半切分,得到验证测试集,通过遍历,得到最优拉普拉斯平滑参数Alpha;步骤二:通过一种改进型的自适应网页爬取方法,对待处理的网页浏览数据进行标题数据的爬取,得到处理后的已浏览网页标题集;步骤三:对步骤二中处理后的已浏览网页标题集进行分词,得到网页分词集,使用步骤一中的拉普拉斯平滑参数Alpha的朴素贝叶斯方法对网页分词集进行分类,得到已浏览网页分类集,设置网页类型判断阈值,将大于阈值的网页分词集加入文本训练集中;步骤四:对处理后的网页分类、浏览时间、浏览终端等网页浏览数据进行预处理,采用终端‑时间‑分类判别方法对处理后的网页浏览数据进行评估,得到网页浏览行为评估结果。
【技术特征摘要】
1.一种多维度网页浏览行为评估方法,其特征在于,包括如下步骤:步骤一:对搜狗语料库中的文本分词,计算词语的词频TF和逆向文件概率IDF作为文本特征,采用朴素贝叶斯方法对语料库进行文本分类训练,得到文本训练集,对搜狗语料库中的文本折半切分,得到验证测试集,通过遍历,得到最优拉普拉斯平滑参数Alpha;步骤二:通过一种改进型的自适应网页爬取方法,对待处理的网页浏览数据进行标题数据的爬取,得到处理后的已浏览网页标题集;步骤三:对步骤二中处理后的已浏览网页标题集进行分词,得到网页分词集,使用步骤一中的拉普拉斯平滑参数Alpha的朴素贝叶斯方法对网页分词集进行分类,得到已浏览网页分类集,设置网页类型判断阈值,将大于阈值的网页分词集加入文本训练集中;步骤四:对处理后的网页分类、浏览时间、浏览终端等网页浏览数据进行预处理,采用终端-时间-分类判别方法对处理后的网页浏览数据进行评估,得到网页浏览行为评估结果。2.根据权利要求1所述的一种多维度网页浏览行为评估方法,其特征在于,所述步骤一中得到最优拉普拉斯平滑参数Alpha的具体方法为:步骤1.1:定义网页分类类型、搜狗语料库文本类型和停用词;步骤1.2:对搜狗语料库中的文本进行分词并且剔除停用词;步骤1.3:计算分词后文本词语的词频TF和逆向文件概率IDF;步骤1.4:以TF-IDF作为文本特征,使用朴素贝叶斯方法训练搜狗语料库中的文本,得到文本训练集;步骤1.5:将搜狗语料库中的文本折半拆分,作为验证测试集,通过遍历,得到使用朴素贝叶斯方法时的最优拉普拉斯平滑参数Alpha。3.根据权利要求1所述的一种多维度网页浏览行为评估方法,其特征在于,所述步骤二中得到处理后的已浏览网页标题集的具体方法为:步骤2.1:定义已浏览网页地址集、网页停用词集和已浏览网页标题集;步骤2.2:将已浏览网页地...
【专利技术属性】
技术研发人员:朱全银,潘舒新,冯万利,李翔,贾笑颖,胡荣林,周泓,于柿民,赵阳,瞿学新,杨茂灿,唐海波,邵武杰,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。