当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于马尔科夫动力学社区检测技术的共词分析方法技术

技术编号:24574585 阅读:35 留言:0更新日期:2020-06-21 00:11
本发明专利技术属于文本挖掘技术领域,具体涉及一种基于马尔科夫动力学社区检测技术的共词分析方法。本发明专利技术通过文本数据的预处理,构建关键词空间并对所提取的关键词进行词频统计,构建文献表示的向量空间模型,计算关键词之间的共词矩阵、等价系数、初始转移矩阵、网络的度,计算基于退火网络的共词强度矩阵、转移矩阵和对关键词初始转移矩阵进行约束,平衡步数的影响得到转移向量;计算度最大的关键词的转移概率向量生成节点表;计算切割位置的导电率;提取最小导电率对应的社区,作为共词分析的一类,重复此过程,直到关键词网络中所有关键词都被归类。

A coinage analysis method based on Markov dynamics community detection technology

【技术实现步骤摘要】
一种基于马尔科夫动力学社区检测技术的共词分析方法
本专利技术属于文本挖掘
,具体涉及一种基于马尔科夫动力学社区检测技术的共词分析方法。
技术介绍
“文本挖掘”亦称“文本数据挖掘”或“文本知识发现”,是一种跨领域的应用,文本挖掘特别着重于利用这些技术发掘出先前未知的、隐含而有用的信息。随着科学技术的飞速发展,科研人员研究领域的发展态势呈现出演变更替加速和交叉融合加剧两大特征。分析文本主题演化趋势,可以有效地揭示知识发展变化及其相互作用的特征和规律,帮助科研人员追溯发展轨迹,准确辨识缺失环节、薄弱环节或可能的新知识增长点,对决策层规划布局、调整方向和促进发展具有重要的参考价值。文本主题演化是指以词语为表征的主题在时间维度上的发展变化过程,与空间变化相比,文本主题的时间演化体现的是主题的新陈代谢过程,体现了某一领域的发展态势和未来走向,是研究其发展规律的重要内容。目前对文本主题演化分析的科学计量方法主要有词频分析法、共引分析法和共词分析法。相比于以单纯的关键词统计排序为主的词频分析法,共词分析法不仅能分析高频词,而且更关注这些词之间的联系,从而反映出概念之间的关系。相比于以文献作为分析对象、需要庞大的引文索引作为基础的共引分析法,共词分析法的优势在于能深入文献内部,以文献内部的关键词作为分析对象,从更微观的角度去揭示文本主题演化规律。在研究文本主题聚类的过程中很多学者运用到了社区检测的相关方法,进行社区检测,实现文本主题聚类。基于马尔科夫动力学的重叠社区挖掘技术——unfoldandextractoverlappingcommunities技术(即UEOC技术)是2011年JinDi等人发现的社区检测技术,此技术可以快速的提取社区,并有效的发掘出重叠节点。
技术实现思路
针对上述问题本专利技术提供了一种基于马尔科夫动力学社区检测技术的共词分析方法。马尔科夫动力学的共词分析表示与社区检测的方法应用于文献文本挖掘领域,将深度挖掘文献中关键词之间的语义信息,实现共词分析方法的表示。为了达到上述目的,本专利技术采用了下列技术方案:一种基于马尔科夫动力学社区检测技术的共词分析方法,包括以下步骤:步骤1,文本数据的预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;步骤2,构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;步骤3,以关键词在文献中是否出现为权重,构建文献表示的向量空间模型;步骤4,计算关键词之间的共词矩阵;步骤5,计算关键词之间的等价系数;步骤6,计算关键词初始转移矩阵;步骤7,计算关键词网络的度:d=diag(d1,d2,...,dm);步骤8,计算基于退火网络的共词强度矩阵;步骤9,计算基于退火网络的转移矩阵Q;步骤10,基于退火网络对关键词初始转移矩阵进行约束;步骤11,平衡步数的影响得转移向量;步骤12,计算度最大的关键词s的l步转移概率向量,按关联概率降序排列,生成节点表L;步骤13,计算切割位置的导电率;步骤14,提取最小导电率对应的社区,作为共词分析的一类,重复此过程,直到关键词网络中所有关键词都被归类。进一步,所述步骤3,以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:Di=(ai1,ai2,...,aim),i=1,2,...,n其中:Di是n篇文献中第i篇文献在欧式空间Rm中的表示向量,aij(j=1,2,…,m)为第j个关键词在第i篇文献中的权重,当第j个关键词是文献Di的关键词时aij等于1,否则为0;i为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇-词”矩阵A=(aij)n×m。此步骤利用文献和关键词之间的信息,将关键词是否出现的信息加入共词分析方法中,在共现潜在语义信息基础上,剔除了文本冗余的词频信息而构建新的文本向量,对词频特征项进行筛选和充分运用,进一步分析文献和关键词信息的相关性,为寻找关键词之间的关联强度奠定共现基础。进一步,所述步骤4计算关键词之间的共词矩阵,具体操作为:关键词之间的共词矩阵C=ATA,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次;其中i=1,2,...,m。此步骤计算出关键词的共词矩阵,构建出关键词与关键词之间的共现频次矩阵,充分利用了关键词之间的共现信息。进一步,所述步骤5计算关键词之间的等价系数,具体操作为:关键词之间的等价系数其中,Eij是处于0到1之间的数值,令E=(Eij)m*m,则E为关键词等价系数矩阵。计算出关键词之间的等价系数,实质上是利用了关键词之间的共现关系分析关键词之间的关联强度,进而为构建共词分析方法打下基础。进一步,所述步骤6计算关键词初始转移矩阵,具体操作为:使得pij≥0,满足转移矩阵的必要条件。我们知道随机游走矩阵应该满足行和为1这样的条件,为了将我们计算得到的关键词等价系数适用于马尔科夫随机游走的方法,我们每行的数值除以行和,使之行和为1,为适用马尔科夫随机游走奠定了基础。进一步,所述步骤8计算基于退火网络的共词强度矩阵,具体操作为:其中di为步骤7计算所得关键词网络的度;其中r=1,2,...,m。随机游走矩阵应该满足行和为1的条件,为了使得到的关键词等价系数适用于马尔科夫随机游走的方法,我们将每行的数值除以行和,使之行和为1,为适用马尔科夫随机游走奠定了基础。进一步,所述步骤9计算基于退火网络的转移矩阵Q,具体操作为:Q为基于退火网络的关键词强度矩阵,进而为退火网络对随机游走网络进行约束奠定了基础。进一步,所述步骤10基于退火网络对关键词初始转移矩阵进行约束,具体操作为:其中,表示基于退火网络约束下,l步从s到i的概率;其中pri为关键词原始矩阵中从r到i的转移概率;qri为退火网络中从r到i的转移概率。在此步中我们基于退火网络对随机游走网络进行了约束,同时为满足转移矩阵的特性,我们对其进行了与0对比取最大值和使其行和为1的标准化处理。进一步,所述步骤11,平衡关键词度的影响得转移向量;转移向量为在上面几步中,我们基于退火网络进行了约束,但我们没有考虑到关键词度对转移矩阵造成的影响,此步骤有利于平衡关键词度对转移概率的影响。进一步,所述步骤13计算切割位置的导电率,具体操作为:φ(S)=cs/min(Vol(S),Vol(V\S))其中,S表示切割位置前面所有关键词组成的社区。通过导电率合理的切割了社区内外的关键词,提高了可解释性,提供了一种更合理有效的社区划分方法。与现有技术相比本专利技术具有以下优点:我们结合关键词之间的共现信息(等本文档来自技高网
...

【技术保护点】
1.一种基于马尔科夫动力学社区检测技术的共词分析方法,其特征在于:包括以下步骤:/n步骤1,文本数据的预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;/n步骤2,构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;/n步骤3,以关键词在文献中是否出现为权重,构建文献表示的向量空间模型;/n步骤4,计算关键词之间的共词矩阵;/n步骤5,计算关键词之间的等价系数;/n步骤6,计算关键词初始转移矩阵;/n步骤7,计算关键词网络的度:d=diag(d

【技术特征摘要】
1.一种基于马尔科夫动力学社区检测技术的共词分析方法,其特征在于:包括以下步骤:
步骤1,文本数据的预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;
步骤2,构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;
步骤3,以关键词在文献中是否出现为权重,构建文献表示的向量空间模型;
步骤4,计算关键词之间的共词矩阵;
步骤5,计算关键词之间的等价系数;
步骤6,计算关键词初始转移矩阵;
步骤7,计算关键词网络的度:d=diag(d1,d2,...,dm);
步骤8,计算基于退火网络的共词强度矩阵;
步骤9,计算基于退火网络的转移矩阵Q;
步骤10,基于退火网络对关键词初始转移矩阵进行约束;
步骤11,平衡步数的影响得转移向量;






步骤12,计算度最大的关键词s的l步转移概率向量,按关联概率降序排列,生成节点表L;
步骤13,计算切割位置的导电率;
步骤14,提取最小导电率对应的社区,作为共词分析的一类,重复此过程,直到关键词网络中所有关键词都被归类。


2.根据权利要求1所述的一种基于马尔科夫动力学社区检测技术的共词分析方法,其特征在于:所述步骤3,以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:
Di=(ai1,ai2,...,aim),i=1,2,...,n
其中:Di是n篇文献中第i篇文献在欧式空间Rm中的表示向量,aij(j=1,2,…,m)为第j个关键词在第i篇文献中的权重,当第j个关键词是文献Di的关键词时aij等于1,否则为0;i为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇-词”矩阵A=(aij)n×m。


3.根据权利要求1所述的一种基于马尔科夫动力学社区检测技术的共词分析方法,其特征在于:所述步骤4计算关键词之间的共词矩阵,具体操作为:
关键词之间的共词矩阵C=ATA,其中,当i≠j时,cij为第i个关键词与第j...

【专利技术属性】
技术研发人员:牛奉高邰志琴
申请(专利权)人:山西大学
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1