【技术实现步骤摘要】
一种基于用户历史行为特征的知识文档推荐方法
本专利技术涉及企业知识库与智能推荐
,具体说是一种基于用户历史行为特征的知识文档推荐方法。
技术介绍
在一些大型的IT公司中已经成立了企业知识库,以存储企业基本信息:公共关系信息、年度报告、出版物和企业总体介绍等;企业组织结构信息:地址、代理商、分公司、服务中心等的信息产品和服务的信息:技术专长、服务特点等;基本流程信息;关于专利、商标、版权,使用其他企业技术、方法学可证的信息;顾客信息等。而很多员工发现他们很难在公司中找到他们需要的知识,通常员工们不知道这些信息保存在哪里,也不知道哪些信息或者文章可以为他们所用。在上述众多信息中,知识、文件多、难以管理、知识利用率低已经成为企业知识库的首要问题之一。此时,根据企业知识库的用户需要系统能根据他们的使用习惯、在登录后主动推荐用户可能需要的知识的需求日益强烈。现阶段一些公司如Amazon,eBay,淘宝,豆瓣,当当网等一些商务网站已经能够根据用户的购买记录、浏览、检索、收藏行为等分析用户的购买兴趣并向其主动推荐商品。也有一些文献利用用户的阅读记录为用户的阅读行为建模,仿 ...
【技术保护点】
一种基于用户历史行为特征的知识文档推荐方法,首先,由管理员将文章集建立知识库,确定知识库中文章的分类;之后,登陆用户上传新的文章到知识库后,为上传的文章标注类别;第三步,系统收集用户上传的以及阅读过的文章并进行归类分析;最终,根据分析结果向该用户推荐同类别的其他文章阅读,并排列推荐文章的显示顺序,其特征是:向用户推荐文章的方法为基于词频的关联知识挖掘方法,具体为:分析用户历史行为特征,建立用户历史行为特征库,通过计算用户上传的以及阅读过的文章中每个词语的词频,以词语和词频作为项和支持度,用FP‑Tree算法挖掘出与用户上传之文章最具相关性的文章,包括下述三种,下述的N为1~ ...
【技术特征摘要】
1.一种基于用户历史行为特征的知识文档推荐方法,首先,由管理员将文章集建立知识库,确定知识库中文章的分类;之后,登陆用户上传新的文章到知识库后,为上传的文章标注类别;第三步,系统收集用户上传的以及阅读过的文章并进行归类分析;最终,根据分析结果向该用户推荐同类别的其他文章阅读,并排列推荐文章的显示顺序,其特征是:向用户推荐文章的方法为基于词频的关联知识挖掘方法,具体为:分析用户历史行为特征,建立用户历史行为特征库,通过计算用户上传的以及阅读过的文章中每个词语的词频,以词语和词频作为项和支持度,用FP-Tree算法挖掘出与用户上传之文章最具相关性的文章,包括下述三种,下述的N为1~15:第一种方式,该用户上传或阅读的文章种类的知识文档中点击数最高的N篇文章;第二种方式,该用户上传或阅读的文章种类的知识文档中好评数最多的N篇文章;第三种方式,通过数据挖掘得到与用户上传、阅读过的文章中知识关联性最大的N篇文章;第三种方式具体为,对知识库中的文章做分词处理形成知识库词库,提取用户上传过、阅读过的文章做分词处理形成用户词库,约减用户词库形成优化用户词库,通过FP-Tree算法对用户词库进行数据挖掘得到频繁项集,根据频繁项集中的词在优化词库的各对应类别中的词频确定知识最相关的N篇文章;所述用户词库以下述方式得到:首先提取用户上传和阅读过的文章组成文章集,然后用下述方法对文章集中的每篇文章提取TF词频:首先对文章集中的每一篇文章做分词处理,分词后,首先统计词频TF,对于在第j篇文章中的第i个词语ti,它的重要性表示为:上式中ni,j是词ti在文章dj中出现的次数,分母是在文章dj中所有字词的出现次数之和,下标i、j、k均表示序号;然后统计词语的逆向文档频率IDF,由下式得到:其中:idfi表示第i个词语的IDF值,|D|是知识库中文章的总数,|{d:ti∈d}|是知识库中包含词语ti的文章数目,再以下式计算TF词频TF-IDF:tfidfi,j=tfi,j*idfi,tfidfi,j表示第j篇文章中第i个词的TF-IDF词频,统计出的每个知识类别词语的TF词频值,得到(词,TF词频)对,以包含有(文章,(词,TF词频))对的形式存储为用户词库。2.根据权利要求1所述的基于用户历史行为特征的知识文档推荐方法,其特征是:所述用户历史行为特征库,是知识库用户在上传和阅读过程中,包括用户上传过的文章、上传文章的类别、阅读过的文章、阅读过文章的类别。3.根据权利要求1所述的基于用户历史行为特征的知识文档推荐方法,其特征是:所述知识库词库以下述方式得到:首先对知识库中的每一篇文章做分词处理,分词后,首先统计词频TF,对于在第j篇文章中的第i个词语ti,它的重要性表示为:上式中ni,j是词ti在文章dj中出现的次数,分母是在文章dj中所有字词的出现次数之和,下标i、j、k均表示序号;然后统计词语的逆向文档频率IDF,由下式得到:其中:idfi表示第i个词语的IDF值,|D|是知识库中文章的总数,|{d:ti∈d}|是知识库中包含词语ti的文章数目,再以下式计算TF-IDF词频:tfidfi,j=tfi,j*idfi,tfidfi,j表示第j篇文章中第i个词的...
【专利技术属性】
技术研发人员:冯天佑,李成华,阮羚,邓万婷,陈婷,余晓阳,欧阳由,熊宇,
申请(专利权)人:国家电网公司, 国网湖北省电力公司电力科学研究院, 华中科技大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。