当前位置: 首页 > 专利查询>河海大学专利>正文

一种面向水利文本的主题演化关系挖掘方法技术

技术编号:33890780 阅读:24 留言:0更新日期:2022-06-22 17:25
本发明专利技术公开了一种面向水利文本的主题演化关系挖掘方法,首先,对预先获取的语料进行预处理,形成“文本

【技术实现步骤摘要】
一种面向水利文本的主题演化关系挖掘方法


[0001]本专利技术属于主题挖掘领域,具体涉及一种面向水利文本的主题演化关系挖掘方法。

技术介绍

[0002]主题演化关系挖掘与主题挖掘同属于数据挖掘领域,前者通过挖掘文本数据的主题演化关系,可以清晰地展示出主题随时间推移的演进变化以及不同主题之间的产生的交集,发现主题可能涉及的不同阶段(如爆发和低谷)和演化模式。探索主题演化的路径,特别是论文数据集中学科主题的形成和衰退,对研究人员理解行业发展、挖掘新兴业务甚至进一步预测未来的演化的趋势都具有重要的作用。
[0003]在水利领域中,由于近年来水利信息化与智慧水利的不断推进,越来越多的水利文献数据涌现在互联网上。不同的用户对于这些行业数据有着不用的关注点,简单依赖行业专家进行分析无法满足人们对信息进行获取的需求,因此行业内迫切需要主题演化关系挖掘技术来帮助人们提取信息。特别是在一些学科交叉领域,例如智慧水利领域,其融合了水利、环境、计算机、通信等多个学科。这个特点也导致了水利领域通常涉及的主题数目较多,而不同主题之间的关系也更为繁杂,同时具有较强本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向水利文本的主题演化关系挖掘方法,其特征在于,包括以下步骤:(1)对预先获取的语料进行预处理,形成“文本

单词矩阵”数据集;(2)使用LDA模型对数据集进行聚类处理,生成文档

主题矩阵与主题

词矩阵,为后续主题演化挖掘提供支持;(3)将主题演化关系挖掘分为主题间相互作用关系挖掘和主题演化路径挖掘;主题间相互作用关系挖掘利用先建模主题演化模型,聚焦于不同主题个体间的相互影响情况;(4)主题演化路径挖掘利用离散时间主题演化模型,从整体层面鸟瞰学科的发展脉络。2.根据权利要求1所述的一种面向水利文本的主题演化关系挖掘方法,其特征在于,所述步骤(1)包括以下步骤:(11)通过网络爬虫获取国内中文水利类期刊上发表的论文摘要文本,每篇文本均以TXT格式独立存储,文件名以“时间”加“论文标题”的形式命名;(12)对获取的语料进行文本分词、水利领域词典构建、去停用词、去高频词和去低频词处理,形成“文本

单词矩阵”的数据集;所述水利领域词典构建通过水利公文主题词表,搜狗细胞词库和算法扩充实现;其中算法扩充是在导入自定义词库前,经过jieba分词后的一个个词项构成了一个项集,每篇文档中的每一个句子对应一个事务,所有句子的集合构成了一个数据库,对其采用关联规则挖掘算法,将能够挖掘出词项构成的频繁k项集和关联规则;如果挖掘出规则X

Y,则说明在规则的前提X出现的情况下,规则的结论Y也经常出现;由此认为XY属于一个整体,从而找出文档集包含的水利领域名词。3.根据权利要求1所述的一种面向水利文本的主题演化关系挖掘方法,其特征在于,所述步骤(2)包括以下步骤:(21)设置文档集的主题数目K,以及Dirichlet先验分布的参数和(22)为文档集中每篇文档的每个词项随机分配一个主题;(23)为每个词项都重新采样一个新的主题,并不断重复,直至采样收敛;(24)统计文档集中每篇文档的主题分配,得到每篇文档下的主题分布矩阵θ
m
;统计每个主题的词语分布,得到每个主题下的词项分布矩阵d
k
。4.根据权利要求1所述的一种面向水利文本的主题演化关系挖掘方法,其特征在于,所述步骤(3)实现过程如下:(31)对数据集进行主题建模,得到整个数据集的文档

主题矩阵与主题

词矩阵;(32)将文档按照其时间信息以年为单位进行划分,得到不同时间片下的论文集D
i
={D1,D2,

,D
n
};(33)对于每个时间片中的论文集,计算不同主题在每个时间片中的主题流行相关性与主题共现度;所述主题共现度通过计算文档中同时出现的主题的PMI分数来获得成对主题的共现分数:其中,P(w
i
,w
j
)是主题i中词语w
i
和主题j中词语w
j
在自定义窗口内的共现频率,p(w
i
)是主题i中词语w
i
的出现频率,PMI越大,主题之间共现度越高;所述主题流行相关性计算过程如下:
...

【专利技术属性】
技术研发人员:陆佳民马族隆冯钧
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1