一种基于并行关联规则的话题关系发现方法和发现装置制造方法及图纸

技术编号:16399219 阅读:22 留言:0更新日期:2017-10-17 19:37
本发明专利技术实施例提供一种基于并行关联规则的话题关系发现方法。本发明专利技术的基于并行关联规则的话题关系发现方法,在获取大规模频繁关键词集的基础上,采用并行关联规则算法获取关联关键词集,进而进行筛选和组合形成话题相关信息,从而发现多个话题之间的关联关系。本发明专利技术实施例还提供一种基于并行关联规则的话题关系发现装置。本发明专利技术实施例提供的技术方案能够准确有效地发现相关话题之间潜在的关联关系,寻找具体事件发生的深层次或根本原因。

A topic relation discovery method and discovery device based on parallel association rules

The embodiment of the invention provides a topic relation discovery method based on Parallel Association rules. The invention of the discovery method of parallel association rules based on the relationship between the topic, in the foundation to obtain frequent large-scale keywords set, obtained by the associated keywords set of parallel association rules algorithm, and then combined to form the topic selection and related information, to find the relationship between the number of topics. The embodiment of the invention also provides a topic relation discovery device based on the parallel association rule. The technical scheme provided by the embodiment of the invention can accurately and effectively discover the latent association relation between the related topics, and find the deep or fundamental reasons for the specific events.

【技术实现步骤摘要】
一种基于并行关联规则的话题关系发现方法和发现装置
本专利技术涉及一种话题关系发现方法,特别涉及一种基于并行关联规则的话题关系发现方法和发现装置。
技术介绍
针对庞大且杂乱无序的数据信息,运用各种信息分析技术对处于“未知态”的数据信息进行快速挖掘,从中发现多个话题之间的关联关系,能够为话题分析和关系挖掘提供支持。因此,如何从大量低价值密度的网络数据信息中更准确、更快速地发现相关话题之间潜在的关联关系是值得研究的热点问题。传统的研究主要将报道用向量空间模型(VectorSpaceModel,VSM)表示,然后利用余弦相似度计算话题与报道的相似性并结合聚类算法,将相关话题信息汇总后反馈给用户。然而,传统文本表示模型VSM是在假定报道的关键词之间相互独立的前提下,它完全忽略了关键词之间的隐含交互关系,这就使得关键词的顺序信息缺失,导致话题与话题之间的相互关系难以被识别和理清。因此,为了发现话题之间的潜在关联关系,研究者们针对VSM模型的弊端,提出了各种改进的文本表示模型。一些学者基于统计分析,利用关键词之间的共现信息来同时捕捉关键词之间的内部关系和相互关系,从而合并形成耦合关系,完善向量空间模型所表示的文本信息,从而发现话题之间的潜在关系。还有一些学者根据词与词之间的关系具有很强规则性的特点,通过构建词共现网络来表示文本之间的关联信息,并结合社区检测方法实现话题关系发现。此外,还有一些学者将时间参数、位序信息等加入到上述共现分析方法中进行改进,实现对共现关键词的频数或者关系系数的加权,从而更准确地度量话题之间关键词的相似性。虽然利用关键词共现信息已经改进了向量空间模型无法识别关键词之间关联关系的缺陷,但是仅仅依靠关键词间的共现关系往往不能很好地表示报道中所蕴含的语义信息。因此,一些学者将主题的概念应用到文本分类模型中,通过将文档主题生成模型LDA(LatentDirichletAllocation)与VSM模型以及其他聚类模型结合实现新的聚类和分类算法实现话题关系发现。还有一些学者将时间信息引入到LDA中,分析出每个时间段内的隐主题信息并利用层次聚类的方法实现话题的关系发现。总而言之,当前大部分研究工作都集中于文本表示模型的改进或者聚类算法的改进,虽然这些算法在多个话题的关系发现中取得了一定的效果,但是现有的大部分方法仍然利用相似度计算话题之间的关系,并且大部分工作仍然停留在相关数据的统计层面,缺少对具体事件发生的深层次或根本原因的分析。所以,考虑到多个话题之间一定存在某种关联关系,但并非直观可见,而关联规则能够发现数据间隐藏的规律。本专利技术基于支持度-置信度模型,直接利用关键词信息挖掘话题之间的关联关系。其中,支持度反映了关键词集在所有数据文本中的出现热度,置信度反映了关键词集内各关键词的关系相关程度。因此,关键词集支持度和置信度值的大小可以直接表明该关键词集与话题的相关关系。所以,将所有话题相关的关键词集计算支持度和置信度,可以筛选出同时满足支持度阈值和置信度阈值的关联关键词集,将得到的关联关键词集筛选和组合形成话题相关信息,能够直接发现多个相关话题之间的关联关系。
技术实现思路
为了解决现有技术问题,本专利技术提供了一种基于并行关联规则的话题关系发现方法,本专利技术的基于并行关联规则的话题关系发现方法,在获取大规模频繁关键词集的基础上,采用并行关联规则算法获取关联关键词集,进而进行筛选和组合形成话题相关信息,从而准确有效地发现相关话题之间潜在的关联关系,寻找具体事件发生的深层次或根本原因。本专利技术所采用的技术方案如下:一种并行关联规则的话题关系发现方法,包括以下步骤:A、根据多个话题的相关关键词信息分别筛选出对应话题的相关数据信息,通过统计数据中所有关键词的出现次数,获取1_项频繁关键词集;B、在已经获得的k-1_项关联关键词集(1_项关联关键词集即1_项频繁关键词集)基础上获取k_项候选关键词集的过程如下:k_项候选关键词集的获取包括连接步和剪枝步。连接步分为两个步骤:首先根据k-1_项关联关键词集的数量进行数据分割和任务分配;然后,每个子任务将得到的所有1_项频繁关键词集和分配得到的k-1_项关联关键词集随机组合,独立生成k_项候选关键词集。剪枝步是根据关联规则的先验知识,即频繁关键词集的所有非空子集也一定是频繁的,将连接步得到的不满足先验知识的k_项候选关键词集剪枝,进一步压缩得到用于产生频繁关键词集的k_项候选关键词集;C、设置支持度阈值,根据剪枝后的k_项候选关键词集获取k_项频繁关键词集包括以下两个步骤:首先统计数据中所有k_项候选关键词集的出现次数,获取k_项频繁关键词集;然后将每个子任务的结果合并形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集;D、设置置信度阈值,根据已经得到的全局k_项频繁关键词集产生所有关联规则,从而筛选出所有关联规则都大于置信度阈值的k_项关联关键词集;E、迭代进行B至D步骤直到所有k_项关联关键词集为空,将存在关联关键词集的最大项记为n。然后将所有k_项关联关键词集(2≤k≤n)合并后约简,获得一个话题的所有关联关键词集。最后筛选和匹配多个话题的关联关键词集,发现多个相关话题之间的关联关系。步骤A中,所述的1_项频繁关键词集是指:一个话题相关的数据信息中所有达到支持度阈值的关键词所组成的关键词集。步骤B中,所述的k_项候选关键词集是指:k-1_项关联关键词集与每个1_项频繁关键词集合并后满足先验知识的关键词集。步骤C中,所述的k_项频繁关键词集是指:一个话题相关的数据信息中所有达到支持度阈值的k_项候选关键词集。步骤D中,所述的k_项关联关键词集是指:所有关联规则都达到置信度阈值的k_项频繁关键词集。另一方面,本专利技术提供了一种基于并行关联规则的话题关系发现装置,包括以下模块:1_项频繁关键词获取模块:根据多个话题的相关关键词信息分别筛选出对应话题的相关数据信息,通过统计数据中所有关键词的出现次数,获取1_项频繁关键词集;k_项候选关键词获取模块:在已经获得的k-1_项关联关键词集(1_项关联关键词集即1_项频繁关键词集)基础上获取k_项候选关键词集的过程如下:k_项候选关键词集的获取包括连接步和剪枝步。连接步分为两个步骤:首先根据k-1_项关联关键词集的数量进行数据分割和任务分配;然后,每个子任务将得到的所有1_项频繁关键词集和分配得到的k-1_项关联关键词集随机组合,独立生成k_项候选关键词集。剪枝步是根据关联规则的先验知识,即频繁关键词集的所有非空子集也一定是频繁的,将连接步得到的不满足先验知识的k_项候选关键词集剪枝,进一步压缩得到用于产生频繁关键词集的k_项候选关键词集;k_项频繁关键词获取模块:设置支持度阈值,根据剪枝后的k_项候选关键词集获取k_项频繁关键词集包括以下两个步骤:首先统计数据中所有k_项候选关键词集的出现次数,获取k_项频繁关键词集;然后将每个子任务的结果合并形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集;k_项关联关键词获取模块:设置置信度阈值,根据已经得到的全局k_项频繁关键词集产生所有关联规则,从而筛选出所有关联规则都大于置信度阈值的k_项关联关键词集;话题关系发现模块:迭代执行k_项候选关键词至k_项本文档来自技高网
...
一种基于并行关联规则的话题关系发现方法和发现装置

【技术保护点】
一种基于并行关联规则的话题关系发现方法,包括以下步骤:A.根据多个话题的相关关键词信息分别筛选出对应话题的相关数据信息,通过统计数据中所有关键词的出现次数,获取1_项频繁关键词集;B.在已经获得的k‑1_项关联关键词集(1_项关联关键词集即1_项频繁关键词集)基础上获取k_项候选关键词集的过程如下:k_项候选关键词集的获取包括连接步和剪枝步。连接步分为两个步骤:首先根据k‑1_项关联关键词集的数量进行数据分割和任务分配;然后,每个子任务将得到的所有1_项频繁关键词集和分配得到的k‑1_项关联关键词集随机组合,独立生成k_项候选关键词集。剪枝步是根据关联规则的先验知识,即频繁关键词集的所有非空子集也一定是频繁的,将连接步得到的不满足先验知识的k_项候选关键词集剪枝,进一步压缩得到用于产生频繁关键词集的k_项候选关键词集;C.设置支持度阈值,根据剪枝后的k_项候选关键词集获取k_项频繁关键词集包括以下两个步骤:首先统计数据中所有k_项候选关键词集的出现次数,获取k_项频繁关键词集;然后将每个子任务的结果合并形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集;D.设置置信度阈值,根据已经得到的全局k_项频繁关键词集产生所有关联规则,从而筛选出所有关联规则都大于置信度阈值的k_项关联关键词集;E.迭代进行B至D步骤直到所有k_项关联关键词集为空,将存在关联关键词集的最大项记为n;然后将所有k_项关联关键词集(2≤k≤n)合并后约简,获得一个话题的所有关联关键词集;最后筛选和匹配多个话题的关联关键词集,发现多个相关话题之间的关联关系。...

【技术特征摘要】
1.一种基于并行关联规则的话题关系发现方法,包括以下步骤:A.根据多个话题的相关关键词信息分别筛选出对应话题的相关数据信息,通过统计数据中所有关键词的出现次数,获取1_项频繁关键词集;B.在已经获得的k-1_项关联关键词集(1_项关联关键词集即1_项频繁关键词集)基础上获取k_项候选关键词集的过程如下:k_项候选关键词集的获取包括连接步和剪枝步。连接步分为两个步骤:首先根据k-1_项关联关键词集的数量进行数据分割和任务分配;然后,每个子任务将得到的所有1_项频繁关键词集和分配得到的k-1_项关联关键词集随机组合,独立生成k_项候选关键词集。剪枝步是根据关联规则的先验知识,即频繁关键词集的所有非空子集也一定是频繁的,将连接步得到的不满足先验知识的k_项候选关键词集剪枝,进一步压缩得到用于产生频繁关键词集的k_项候选关键词集;C.设置支持度阈值,根据剪枝后的k_项候选关键词集获取k_项频繁关键词集包括以下两个步骤:首先统计数据中所有k_项候选关键词集的出现次数,获取k_项频繁关键词集;然后将每个子任务的结果合并形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集;D.设置置信度阈值,根据已经得到的全局k_项频繁关键词集产生所有关联规则,从而筛选出所有关联规则都大于置信度阈值的k_项关联关键词集;E.迭代进行B至D步骤直到所有k_项关联关键词集为空,将存在关联关键词集的最大项记为n;然后将所有k_项关联关键词集(2≤k≤n)合并后约简,获得一个话题的所有关联关键词集;最后筛选和匹配多个话题的关联关键词集,发现多个相关话题之间的关联关系。2.根据权利要求1所述的一种基于并行关联规则的话题关系发现方法,其特征在于,所述的步骤A中,所述的1_项频繁关键词集是指:一个话题相关的数据信息中所有达到支持度阈值的关键词所组成的关键词集。3.根据权利要求1所述的一种基于并行关联规则的话题关系发现方法,其特征在于,所述的步骤B中,所述的k_项候选关键词集是指:k-1_项关联关键词集与每个1_项频繁关键词集合并后满足先验知识的关键词集。4.根据权利要求1所述的一种基于并行关联规则的话题关...

【专利技术属性】
技术研发人员:刘昕王奕文李忠伟王丰曹帅邹苹钧
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1