【技术实现步骤摘要】
一种多维度网页浏览行为评估方法
本专利技术属于网页浏览行为分析
,特别涉及一种基于TF-IDF和朴素贝叶斯多维度的网页浏览行为评估方法。
技术介绍
浏览网页行为评估方法对实现人员的行为习惯分析有着重要的作用和意义。传统的网页浏览分析由问卷调查的方法已经不能满足社会信息化发展的需求。近年来针对不同种类人群的网络行为分析,研究者提出了相应的分析方法,如神经网络、支持向量机、决策树、KNN方法、遗传方法等。朱全银、贾笑颖等人已有的研究基础包括:朱全银,严云洋,周培,谷天峰.一种基于线性插补与自适应滑动窗口的商品价格预测模型.山东大学学报.2012,Vol.42(5):53-58;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取方法[J].淮阴工学院学报,2015,24(5):18-24;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;QuanyinZhu,SunqunCao.ANovelClassifier-independentFeatureSelectionAlgorithmforImbalanc ...
【技术保护点】
一种多维度网页浏览行为评估方法,其特征在于,包括如下步骤:步骤一:对搜狗语料库中的文本分词,计算词语的词频TF和逆向文件概率IDF作为文本特征,采用朴素贝叶斯方法对语料库进行文本分类训练,得到文本训练集,对搜狗语料库中的文本折半切分,得到验证测试集,通过遍历,得到最优拉普拉斯平滑参数Alpha;步骤二:通过一种改进型的自适应网页爬取方法,对待处理的网页浏览数据进行标题数据的爬取,得到处理后的已浏览网页标题集;步骤三:对步骤二中处理后的已浏览网页标题集进行分词,得到网页分词集,使用步骤一中的拉普拉斯平滑参数Alpha的朴素贝叶斯方法对网页分词集进行分类,得到已浏览网页分类集, ...
【技术特征摘要】
1.一种多维度网页浏览行为评估方法,其特征在于,包括如下步骤:步骤一:对搜狗语料库中的文本分词,计算词语的词频TF和逆向文件概率IDF作为文本特征,采用朴素贝叶斯方法对语料库进行文本分类训练,得到文本训练集,对搜狗语料库中的文本折半切分,得到验证测试集,通过遍历,得到最优拉普拉斯平滑参数Alpha;步骤二:通过一种改进型的自适应网页爬取方法,对待处理的网页浏览数据进行标题数据的爬取,得到处理后的已浏览网页标题集;步骤三:对步骤二中处理后的已浏览网页标题集进行分词,得到网页分词集,使用步骤一中的拉普拉斯平滑参数Alpha的朴素贝叶斯方法对网页分词集进行分类,得到已浏览网页分类集,设置网页类型判断阈值,将大于阈值的网页分词集加入文本训练集中;步骤四:对处理后的网页分类、浏览时间、浏览终端等网页浏览数据进行预处理,采用终端-时间-分类判别方法对处理后的网页浏览数据进行评估,得到网页浏览行为评估结果。2.根据权利要求1所述的一种多维度网页浏览行为评估方法,其特征在于,所述步骤一中得到最优拉普拉斯平滑参数Alpha的具体方法为:步骤1.1:定义网页分类类型、搜狗语料库文本类型和停用词;步骤1.2:对搜狗语料库中的文本进行分词并且剔除停用词;步骤1.3:计算分词后文本词语的词频TF和逆向文件概率IDF;步骤1.4:以TF-IDF作为文本特征,使用朴素贝叶斯方法训练搜狗语料库中的文本,得到文本训练集;步骤1.5:将搜狗语料库中的文本折半拆分,作为验证测试集,通过遍历,得到使用朴素贝叶斯方法时的最优拉普拉斯平滑参数Alpha。3.根据权利要求1所述的一种多维度网页浏览行为评估方法,其特征在于,所述步骤二中得到处理后的已浏览网页标题集的具体方法为:步骤2.1:定义已浏览网页地址集、网页停用词集和已浏览网页标题集;步骤2.2:将已浏览网页地...
【专利技术属性】
技术研发人员:朱全银,潘舒新,冯万利,李翔,贾笑颖,胡荣林,周泓,于柿民,赵阳,瞿学新,杨茂灿,唐海波,邵武杰,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。