一种基于并行关联规则的话题关系发现方法和发现装置制造方法及图纸

技术编号：16399219 阅读：22 留言：0更新日期：2017-10-17 19:37

本发明专利技术实施例提供一种基于并行关联规则的话题关系发现方法。本发明专利技术的基于并行关联规则的话题关系发现方法，在获取大规模频繁关键词集的基础上，采用并行关联规则算法获取关联关键词集，进而进行筛选和组合形成话题相关信息，从而发现多个话题之间的关联关系。本发明专利技术实施例还提供一种基于并行关联规则的话题关系发现装置。本发明专利技术实施例提供的技术方案能够准确有效地发现相关话题之间潜在的关联关系，寻找具体事件发生的深层次或根本原因。

A topic relation discovery method and discovery device based on parallel association rules

The embodiment of the invention provides a topic relation discovery method based on Parallel Association rules. The invention of the discovery method of parallel association rules based on the relationship between the topic, in the foundation to obtain frequent large-scale keywords set, obtained by the associated keywords set of parallel association rules algorithm, and then combined to form the topic selection and related information, to find the relationship between the number of topics. The embodiment of the invention also provides a topic relation discovery device based on the parallel association rule. The technical scheme provided by the embodiment of the invention can accurately and effectively discover the latent association relation between the related topics, and find the deep or fundamental reasons for the specific events.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于并行关联规则的话题关系发现方法和发现装置
本专利技术涉及一种话题关系发现方法，特别涉及一种基于并行关联规则的话题关系发现方法和发现装置。
技术介绍
针对庞大且杂乱无序的数据信息，运用各种信息分析技术对处于“未知态”的数据信息进行快速挖掘，从中发现多个话题之间的关联关系，能够为话题分析和关系挖掘提供支持。因此，如何从大量低价值密度的网络数据信息中更准确、更快速地发现相关话题之间潜在的关联关系是值得研究的热点问题。传统的研究主要将报道用向量空间模型(VectorSpaceModel，VSM)表示，然后利用余弦相似度计算话题与报道的相似性并结合聚类算法，将相关话题信息汇总后反馈给用户。然而，传统文本表示模型VSM是在假定报道的关键词之间相互独立的前提下，它完全忽略了关键词之间的隐含交互关系，这就使得关键词的顺序信息缺失，导致话题与话题之间的相互关系难以被识别和理清。因此，为了发现话题之间的潜在关联关系，研究者们针对VSM模型的弊端，提出了各种改进的文本表示模型。一些学者基于统计分析，利用关键词之间的共现信息来同时捕捉关键词之间的内部关系和相互关系，从而合并形成耦合关系，完善向量空间模型所表示的文本信息，从而发现话题之间的潜在关系。还有一些学者根据词与词之间的关系具有很强规则性的特点，通过构建词共现网络来表示文本之间的关联信息，并结合社区检测方法实现话题关系发现。此外，还有一些学者将时间参数、位序信息等加入到上述共现分析方法中进行改进，实现对共现关键词的频数或者关系系数的加权，从而更准确地度量话题之间关键词的相似性。虽然利用关键词共现信息已经改进了向量空间...
一种基于并行关联规则的话题关系发现方法和发现装置

【技术保护点】
一种基于并行关联规则的话题关系发现方法，包括以下步骤：A.根据多个话题的相关关键词信息分别筛选出对应话题的相关数据信息，通过统计数据中所有关键词的出现次数，获取1_项频繁关键词集；B.在已经获得的k‑1_项关联关键词集(1_项关联关键词集即1_项频繁关键词集)基础上获取k_项候选关键词集的过程如下：k_项候选关键词集的获取包括连接步和剪枝步。连接步分为两个步骤：首先根据k‑1_项关联关键词集的数量进行数据分割和任务分配；然后，每个子任务将得到的所有1_项频繁关键词集和分配得到的k‑1_项关联关键词集随机组合，独立生成k_项候选关键词集。剪枝步是根据关联规则的先验知识，即频繁关键词集的所有非空子集也一定是频繁的，将连接步得到的不满足先验知识的k_项候选关键词集剪枝，进一步压缩得到用于产生频繁关键词集的k_项候选关键词集；C.设置支持度阈值，根据剪枝后的k_项候选关键词集获取k_项频繁关键词集包括以下两个步骤：首先统计数据中所有k_项候选关键词集的出现次数，获取k_项频繁关键词集；然后将每个子任务的结果合并形成一个集合，将集合中的重复项删除，得到全局的k_项频繁关键词集；D.设置置信度阈值...

【技术特征摘要】
1.一种基于并行关联规则的话题关系发现方法，包括以下步骤：A.根据多个话题的相关关键词信息分别筛选出对应话题的相关数据信息，通过统计数据中所有关键词的出现次数，获取1_项频繁关键词集；B.在已经获得的k-1_项关联关键词集(1_项关联关键词集即1_项频繁关键词集)基础上获取k_项候选关键词集的过程如下：k_项候选关键词集的获取包括连接步和剪枝步。连接步分为两个步骤：首先根据k-1_项关联关键词集的数量进行数据分割和任务分配；然后，每个子任务将得到的所有1_项频繁关键词集和分配得到的k-1_项关联关键词集随机组合，独立生成k_项候选关键词集。剪枝步是根据关联规则的先验知识，即频繁关键词集的所有非空子集也一定是频繁的，将连接步得到的不满足先验知识的k_项候选关键词集剪枝，进一步压缩得到用于产生频繁关键词集的k_项候选关键词集；C.设置支持度阈值，根据剪枝后的k_项候选关键词集获取k_项频繁关键词集包括以下两个步骤：首先统计数据中所有k_项候选关键词集的出现次数，获取k_项频繁关键词集；然后将每个子任务的结果合并形成一个集合，将集合中的重复项删除，得到全局的k_项频繁关键词集；D.设置置信度阈值，根据已经得到的全局k_项频繁关键词集产生所有关联规则，从而筛选出所有关联规则都大于置信度阈值的k_项关联关键词集；E.迭代进行B至D步骤直到所有k_项关联关键词集为空，将存在关联关键词集的最大项记为n；然后将所有k_项关联关键词集(2≤k≤n)合并后约简，获得一个话题的所有关联关键词集；最后筛选和匹配多个话题的关联关键词集，发现多个相关话题之间的关联关系。2.根据权利要求1所述的一种基于并行关联规则的话题关系发现方法，其特征在于，所述的步骤A中，所述的1_项频繁关键词集是指：一个话题相关的数据信息中所有达到支持度阈值的关键词所组成的关键词集。3.根据权利要求1所述的一种基于并行关联规则的话题关系发现方法，其特征在于，所述的步骤B中，所述的k_项候选关键词集是指：k-1_项关联关键词集与每个1_项频繁关键词集合并后满足先验知识的关键词集。4.根据权利要求1所述的一种基于并行关联规则的话题关...

【专利技术属性】
技术研发人员：刘昕，王奕文，李忠伟，王丰，曹帅，邹苹钧，
申请(专利权)人：中国石油大学华东，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人