基于条件熵下随机游走的FW-LDA主题识别方法技术

技术编号:29995205 阅读:41 留言:0更新日期:2021-09-11 04:36
本发明专利技术公开了一种基于条件熵下随机游走的FW

【技术实现步骤摘要】
基于条件熵下随机游走的FW

LDA主题识别方法


[0001]本专利技术属于互联网标签与评论文本挖掘领域,具体是一种基于条件熵下随机游走的FW

LDA主题识别方法。

技术介绍

[0002]随着在线电子商务平台和社交平台的爆炸式发展,各大电商平台和网站都提供了各种的标注服务。这些数据来源于用户对图像,视频,商品,音乐等进行了自我选择和自主化标注,这些标注称之为社交标签。社会化标注系统是Web2.0时代的重要应用方式之一,也是网络信息管理方式的新潮流,为网络信息资源进行有效利用提供了一个良好的平台。可以更好的了解web资源对象和用户意图与喜好。社会化标注系统允许广大互联网用户在一个自由开放的环境中根据自身的亲身体验,喜好或者其他理解对感兴趣的网络资源进行评价或者标注。这样的网络资源的种类是丰富多样的,如:文字类型的文档资源,社交平台的文字评论内容,电商平台的商品文字评价内容,多媒体类型的电影、音乐、视频和图片等;而标签种类可以是平台进行提供给用户进行选择,也可以是用户根据自己喜好进行标注。标签词汇可以是现有词汇本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于条件熵下随机游走的FW

LDA主题识别方法,其特征在于该方法包括以下步骤:步骤1、基于原始互联网文本资源,包括社会化标签和评论,构建语料库;对语料库进行停止词预处理,得到预处理后的语料库,其中以文档集合的形式表示,假设有M个资源,记为R={r1,r2,

,r
i
,

,r
M
},并构建所有资源的资源分布图re_G=(R);步骤2、计算所有预处理后的语料库中的任意两个文本之间的条件熵记为h(r
i
|r
j
),且当i=j时,h(r
i
|r
j
)=0;根据所有资源中任意两个文本之间的条件熵h(r
i
|r
j
)建立资源之间条件熵矩阵,由资源之间条件熵矩阵获取二者中的最大值max(h(r
i
|r
j
),h(r
j
|r
i
)),假设max(h(r
i
|r
j
),h(r
j
|r
i
))为h(r
i
|r
j
),则在图re_G中为资源r
i
和r
j
之间添加一条由r
i
指向r
j
的有向边,并形成资源关联关系有向图G=(R,E,W);步骤3、使用随机游走方法计算各个资源的权值,将各个资源权值作用到每个特征词上,通过特征词加权方法形成特征词加权向量:步骤3.1、使用随机游走方法计算资源关联关系有向图G中各个资源的权值μ
m
,m∈{1,

,M};假设M个资源包含了V个特征词,其频次向量为F
V
(m)=[v1,f(v1,m);v2,f(v2,m);
···
;v
i
,f(v
i
,m);
···
;v
V
,f(v
V
,m)],其中f(v
i
,m)表示资源m中特征词v
i
出现的频次;步骤3.2、资源m的权威度分数为μ,资源及其特征词的加权表示形式为g_F
V
(m)=[v1,gf(v1,m);v2,gf(v2,m);
···
;v
i
,gf(v
i
,m);
···
;v
V
,gf(v
V
,m)],其中表示资源m中特征词v
i
的加权出现的频次;步骤3.3、M个资源中V个特征词的赋权向量为γ
v
=[v1,γgf(v1);v2,γgf(v2);
···
;v
i
,γgf(v
i
);
···
;v
V
,γgf(v...

【专利技术属性】
技术研发人员:邰悦葛斌蔡威林李涵
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1