当前位置: 首页 > 专利查询>杨鹏专利>正文

一种基于UCL的用户兴趣主题挖掘方法及装置制造方法及图纸

技术编号:25599201 阅读:52 留言:0更新日期:2020-09-11 23:56
本发明专利技术公开了一种基于UCL的用户兴趣主题挖掘方法及装置。本发明专利技术首先获取用户历史、浏览器浏览历史和浏览器书签对应的网页数据,并对网页数据进行预处理和UCL标引;然后将UCL文档中的相关文本内容转换为向量,利用DLDA_SE模型构建用户潜在兴趣主题模型,并利用爬虫爬取用户实时访问互联网中内容产生的数据对用户潜在兴趣主题模型进行即时更新;最后利用DLDA_SE模型对用户搜索进行主题挖掘,计算拓展后的搜索意图主题与各个用户潜在兴趣主题的相似度,确定用户兴趣主题。与现有技术相比,本发明专利技术可以避免低区分度高频词的权重过高降低主题模型的性能,并且能够适应于搜索环境,通过对用户搜索短句进行主题拓展,能准确地确定用户兴趣主题。

【技术实现步骤摘要】
一种基于UCL的用户兴趣主题挖掘方法及装置
本专利技术涉及一种基于UCL的用户兴趣主题挖掘方法及装置,属于互联网

技术介绍
随着互联网的迅速普及和数字信息的爆炸式增长,人们越来越依赖于从互联网获取信息资源。互联网信息资源极为丰富,一方面带来了宝贵的信息财富。另一方面在这些庞大的数据中又有大量冗余相似的信息,且数以亿计的网民所关注的可能是其中不同的小部分信息。因此,如何从这些杂乱失序的数据中检索出符合用户需求的有效信息具有重要意义。传统搜索引擎主要以链接为中心,它主要通过索引网页中的内容,匹配用户搜索请求中的关键词反馈给用户相关的网页链接,并利用网页排序算法对结果进行排序。这种模式给互联网信息检索带来了极大便利,但它对于用户意图的挖掘不够深入,不能体现不同用户对于同一搜索请求所期待结果的差异性。且不同用户的兴趣、行为和习惯有较大差异,相同搜索语句所期待获取的结果也是不同的。以用户为中心的个性化搜索技术通过对用户兴趣建模,能够有效识别用户意图,为用户提供个性化搜索服务,是解决上述问题的有效途径。用户兴趣主题模型的构建需要挖掘用户搜本文档来自技高网...

【技术保护点】
1.一种基于UCL的用户兴趣主题挖掘方法,其特征在于,包括如下步骤:/n(1)对待挖掘主题的网页文档进行数据清洗、实体识别和UCL标引,计算UCL中每个内容实体在UCL所表示文档中的语义重要程度,利用语义重要程度计算实体对于表现文档主题的贡献程度,从而将文档转换为向量表示;/n(2)将用户搜索历史、浏览器浏览历史和浏览器书签转换为对应的文档向量,将其作为输入进行初始主题挖掘,对主题挖掘超参数进行初始化;然后将用户实时访问互联网中的内容产生的流式网络文档按时间分片,计算主题挖掘超参数转移矩阵,从而依次得到每个时间片的用户潜在兴趣主题模型;/n(3)将当前搜索对应的历史查询信息融入搜索句中进行主题...

【技术特征摘要】
1.一种基于UCL的用户兴趣主题挖掘方法,其特征在于,包括如下步骤:
(1)对待挖掘主题的网页文档进行数据清洗、实体识别和UCL标引,计算UCL中每个内容实体在UCL所表示文档中的语义重要程度,利用语义重要程度计算实体对于表现文档主题的贡献程度,从而将文档转换为向量表示;
(2)将用户搜索历史、浏览器浏览历史和浏览器书签转换为对应的文档向量,将其作为输入进行初始主题挖掘,对主题挖掘超参数进行初始化;然后将用户实时访问互联网中的内容产生的流式网络文档按时间分片,计算主题挖掘超参数转移矩阵,从而依次得到每个时间片的用户潜在兴趣主题模型;
(3)将当前搜索对应的历史查询信息融入搜索句中进行主题挖掘,得到用户搜索意图主题,计算用户搜索意图主题与各个用户潜在兴趣主题的相似度,将相似度最大的若干个主题作为用户兴趣主题。


2.根据权利要求1所述的一种基于UCL的用户兴趣主题挖掘方法,其特征在于,所述步骤(1)中根据如下公式计算实体对于表现文档主题的贡献程度:



其中WCWe,doc表示实体e对于表现文档doc主题的贡献程度,pwe,doc表示实体e对于UCL文档doc的语义重要程度,NDOC表示文档总数,I(pwe,i≥pwe,doc)为指示函数,表示统计pwe,i≥pwe,doc的文档个数。


3.根据权利要求2所述的一种基于UCL的用户兴趣主题挖掘方法,其特征在于,根据如下公式计算实体对于UCL文档的语义重要程度:



其中freq(ce)为实体e的词频,n为UCL文档中实体总数,sj代表中心句,中心句总数为Z,I(ce∈sj)为指示函数,表示ce是否属于sj,α表示调节参数,取值范围为0~1。


4.根据权利要求1所述的一种基于UCL的用户兴趣主题挖掘方法,其特征在于,所述步骤(2)中根据如下两个公式分别对主题挖掘超参数α和β进行初始化:
αt+μ=ωα·αt
βt+μ=ωβ·βt
其中超参数α和β分别为LDA主题模型中求解文档在主题上概率分布的参数和主题在词语上概率分布的参数,上标t表示t时刻,μ表示时间片的大小,转换矩阵ωα和ωβ如下:






其中ωα为K乘K的稀疏矩阵,simm,k表示时间片(t,t+μ)内出现的第m篇文档与上...

【专利技术属性】
技术研发人员:杨鹏李超季冬
申请(专利权)人:杨鹏
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1