当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于马尔科夫动力学社区检测技术的共词分析方法技术

技术编号:24574585 阅读:37 留言:0更新日期:2020-06-21 00:11
本发明专利技术属于文本挖掘技术领域,具体涉及一种基于马尔科夫动力学社区检测技术的共词分析方法。本发明专利技术通过文本数据的预处理,构建关键词空间并对所提取的关键词进行词频统计,构建文献表示的向量空间模型,计算关键词之间的共词矩阵、等价系数、初始转移矩阵、网络的度,计算基于退火网络的共词强度矩阵、转移矩阵和对关键词初始转移矩阵进行约束,平衡步数的影响得到转移向量;计算度最大的关键词的转移概率向量生成节点表;计算切割位置的导电率;提取最小导电率对应的社区,作为共词分析的一类,重复此过程,直到关键词网络中所有关键词都被归类。

A coinage analysis method based on Markov dynamics community detection technology

【技术实现步骤摘要】
一种基于马尔科夫动力学社区检测技术的共词分析方法
本专利技术属于文本挖掘
,具体涉及一种基于马尔科夫动力学社区检测技术的共词分析方法。
技术介绍
“文本挖掘”亦称“文本数据挖掘”或“文本知识发现”,是一种跨领域的应用,文本挖掘特别着重于利用这些技术发掘出先前未知的、隐含而有用的信息。随着科学技术的飞速发展,科研人员研究领域的发展态势呈现出演变更替加速和交叉融合加剧两大特征。分析文本主题演化趋势,可以有效地揭示知识发展变化及其相互作用的特征和规律,帮助科研人员追溯发展轨迹,准确辨识缺失环节、薄弱环节或可能的新知识增长点,对决策层规划布局、调整方向和促进发展具有重要的参考价值。文本主题演化是指以词语为表征的主题在时间维度上的发展变化过程,与空间变化相比,文本主题的时间演化体现的是主题的新陈代谢过程,体现了某一领域的发展态势和未来走向,是研究其发展规律的重要内容。目前对文本主题演化分析的科学计量方法主要有词频分析法、共引分析法和共词分析法。相比于以单纯的关键词统计排序为主的词频分析法,共词分析法不仅能分析高频词,而且更关注这些词之间的联本文档来自技高网...

【技术保护点】
1.一种基于马尔科夫动力学社区检测技术的共词分析方法,其特征在于:包括以下步骤:/n步骤1,文本数据的预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;/n步骤2,构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;/n步骤3,以关键词在文献中是否出现为权重,构建文献表示的向量空间模型;/n步骤4,计算关键词之间的共词矩阵;/n步骤5,计算关键词之间的等价系数;/n步骤6,计算关键词初始转移矩阵;/n步骤7,计算关键词网络的度:d=diag(d

【技术特征摘要】
1.一种基于马尔科夫动力学社区检测技术的共词分析方法,其特征在于:包括以下步骤:
步骤1,文本数据的预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;
步骤2,构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;
步骤3,以关键词在文献中是否出现为权重,构建文献表示的向量空间模型;
步骤4,计算关键词之间的共词矩阵;
步骤5,计算关键词之间的等价系数;
步骤6,计算关键词初始转移矩阵;
步骤7,计算关键词网络的度:d=diag(d1,d2,...,dm);
步骤8,计算基于退火网络的共词强度矩阵;
步骤9,计算基于退火网络的转移矩阵Q;
步骤10,基于退火网络对关键词初始转移矩阵进行约束;
步骤11,平衡步数的影响得转移向量;






步骤12,计算度最大的关键词s的l步转移概率向量,按关联概率降序排列,生成节点表L;
步骤13,计算切割位置的导电率;
步骤14,提取最小导电率对应的社区,作为共词分析的一类,重复此过程,直到关键词网络中所有关键词都被归类。


2.根据权利要求1所述的一种基于马尔科夫动力学社区检测技术的共词分析方法,其特征在于:所述步骤3,以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:
Di=(ai1,ai2,...,aim),i=1,2,...,n
其中:Di是n篇文献中第i篇文献在欧式空间Rm中的表示向量,aij(j=1,2,…,m)为第j个关键词在第i篇文献中的权重,当第j个关键词是文献Di的关键词时aij等于1,否则为0;i为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇-词”矩阵A=(aij)n×m。


3.根据权利要求1所述的一种基于马尔科夫动力学社区检测技术的共词分析方法,其特征在于:所述步骤4计算关键词之间的共词矩阵,具体操作为:
关键词之间的共词矩阵C=ATA,其中,当i≠j时,cij为第i个关键词与第j...

【专利技术属性】
技术研发人员:牛奉高邰志琴
申请(专利权)人:山西大学
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1