当前位置: 首页 > 专利查询>王浩专利>正文

一种基于人机交互的机会信息动态挖掘方法技术

技术编号:7210202 阅读:214 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于人机交互的机会信息动态挖掘方法,所述方法包括如下步骤:聚类生成步骤,聚类生成结果分析理解步骤,文本数据修正步骤,新文本数据机会信息挖掘计算步骤,反馈计算步骤,直至获得有价值、意义明确的文本数据和场景图计算结果以及有重要价值的机会信息为止。所述方法能够实现人机交互地对机会文本数据进行动态挖掘计算的功能,可以有效、准确地挖掘文本数据中有重要价值的机会信息。

【技术实现步骤摘要】

本专利技术涉及一种数据处理技术,特别涉及一种基于人机交互的机会信息文动态挖掘方法。
技术介绍
2000年日本学者Yukio Ohsawa首次提出“机会发现”(Chance Discovery)理论, 其目的是提供一种方法去发现对人的未来决策有重要影响的罕见(低频)而且重要的事件。为了支持机会发现的过程,一个事件拓扑可视化工具KeyGraph被开发,此工具属于文本挖掘的知识范畴。2005年Ohsawa提出了数据结晶法(Data Crystallizaton),其目标是揭示事件间潜在结构,包括不可见事件,向原始文本数据相应的行中插入虚拟事件(Dummy Event)用来代表不可见事件,然后用KeyGraph处理这个新的文本数据,这样部分虚拟事件最终会作为机会节点显示在可视化图中,依靠人对图中节点之间的可视化结构来认知这些虚拟事件, 即不可见事件。2006 年 Yoshiharu Maeno 和 Yukio Ohasawa 提出了人机交互退火方法 (Human-Computer Interactive Annealing Method)作为数据结晶法和机会发现过程的扩展。尽管在机会发现这个新领域中提出了一些方法在动态变化环境中对重要不可见事件(Invisible Events)进行有效挖掘。如数据结晶法,和人机交互退火法。但是是假设这个不可见事件已经存在,因此将虚拟事件当做不可见事件插入到原始文本数据中,事实上插入的虚拟数据本身没有任何意义,而是依靠具有相关经验的人(专家,学者等)对含有这些虚拟数据的可视化图进行猜测这些虚拟节点具体意义。因此,目前存在的方法有如下技术缺陷(1)由于虚拟事件源插入到原始数据的位置具有不确定性,因此无法判断这个虚拟数据在原始数据的缺失位置。目前方法是向处理后的文本数据,即向购物篮数据中对不相同的数据行结尾添加不同单个虚拟事件。事实上是基于这些行中有数据缺失的理想假设。(2)尽管目前的方法涉及到动态人机交互,但主要支持工具仍然只是静态 KeyGraph工具。并没有一个强大的系统软件支持这种交互方法。事实上目前方法仍然属于静态挖掘方法。C3)机会发现这个崭新的领域发展近10年,一直围绕具有单一算法的KeyGraph工具进行罕见且重要事件(即机会)的挖掘与可视化,主要应用于商业。迫切需要建立全新的,真正的动态系统方法,以及设计和开发集成多种机会发现算法以及多模式可视化图生成于一身的机会挖掘系统软件。如前所述,KeyGraph算法最初是用来对文本数据关键词抽取的方法。算法本身仍然存在不足,需要进一步深化研究。以上技术缺陷是现有方法技术、软件系统在应用中的缺陷,具体从数据挖掘算法来讲,目前广泛使用的KeyGraph算法还有如下不足1、所提供的数据挖掘算法不支持动态挖掘功能。尽管KeyGraph算法支持用户插入虚拟数据,但数据插入是盲目的、没有根据的, 所以尽管可以进行重新计算和理解,但此过程的实质为静态方法。2、KeyGraph算法有机会信息提取遗漏、甚至算法失效的危险KeyGraph算法中提取重要事件之前,首先计算由多个事件组成的聚类,然后根据这些聚类计算事件的Key值,计算某事件Key值时,要求此事件与聚类内所有事件同时出现,而在生成聚类计算时并没有要求此聚类内所有事件同时出现,因此事件Key值计算时事件与聚类内所有事件同时出现的要求太苛刻了。如果某个事件与聚类联系很紧密,但没有与聚类内所有事件同时出现的情况出现,则此重要事件很可能被遗漏,随着此重要事件的遗漏,对应的重要关联关系也会被遗漏。如果多个重要事件和关联关系都被遗漏,最终会导致KeyGraph算法失效。KeyGraph只侧重关键事件的挖掘而忽略事件之间重要关系的挖掘。3、在KeyGraph算法中,机会信息仅仅是指有重要价值的事件,而不包括事件之间的关联关系,适合文本挖掘。但对商业信息挖掘和预测而言,除了重要事件之外,还需要清楚地了解各事件之间的关联关系,因此KeyGraph算法挖掘计算结果不够全面。而且对重要事件挖掘的遗漏同时会导致重要关系的遗漏,因此KeyGraph算法更侧重重要事件的挖掘而忽略重要关系的挖掘。尽管目前机会信息挖掘算法涉及到动态人机交互,但使用的主要支持工具是静态KeyGraph工具,存在盲目性。目前的动态人机交互方法仍然不规范、不系统、不成熟,究其根本仍然是静态挖掘的方法,而且没有强大的软件系统支持此动态方法。因为上述的缺陷造成对通信网络设备终端升级的效率低下、升级出错的种种问题。
技术实现思路
有鉴于此,本专利技术实施例提供一种全新的、真正的、系统的人机交互动态挖掘方法,避免虚拟事件插入盲目性的问题;提供可支持人机交互动态挖掘方法的强大的系统平台,此系统平台包括(1)支持强大人机交互动态挖掘处理的场景图显示功能,(2)支持动态挖掘处理的机会信息挖掘算法,实现对有重要价值机会信息的挖掘,避免对某些文本数据挖掘失效的情况。为解决上述问题,本专利技术是这样实现的一种基于人机交互的机会信息动态挖掘技术方案,步骤如下步骤11,即聚类生成步骤,该步骤使用聚类生成算法对原始机会信息文本数据进行计算,得到聚类生成结果,并用场景图显示;步骤12,即聚类生成结果分析理解步骤,用户在聚类生成场景图的帮助下对计算结果进行分析理解,对数据中各事件的关系有初步的了解;步骤13,即文本数据修正步骤,用户在场景图分析理解的基础上,根据自己的想法对机会信息文本数据进行修正,如增加新文本数据等;步骤14,即新文本数据机会信息挖掘计算步骤,程序针对修正后的文本数据进行机会信息挖掘计算,包括聚类生成计算以及事件与聚类之间关系计算,从而将各个事件、聚类和关系挖掘出来,尤其是重要事件和重要关系,并将前后两次计算结果用场景图动态对比显示;步骤15,即反馈计算步骤,用户通过对步骤14计算结果进行理解分析,对比分析前后两次计算结果的关联和差异,关联是指两次计算结果相同的地方,包括相同的事件、相同的聚类结果、相同的机会信息挖掘结果;差异是指两次计算结果不同的地方,包括增加的事件、减少的事件,由低频变为高频的事件、由高频变为低频的事件,增加的关联关系、减少的关联关系,增加的机会信息、减少的机会信息。通过对比分析判断挖掘结果是否可正确、 可靠、充分地展示数据之间的关系并准确地发现有重要价值的机会信息,若符合,则结束, 否则重复步骤13、步骤14和步骤15,直至获得有价值、意义明确的文本数据和场景图计算结果以及有重要价值的机会信息为止。所述方法能够实现人机交互地对机会文本数据进行动态挖掘计算的功能,可以有效、准确地挖掘有重要价值的机会信息元素。步骤11和14所述的信息文本数据的机会信息挖掘算法,包括一种基于信息熵的无向图机会信息挖掘算法(无向图法)和一种基于概率的有向图机会信息挖掘算法(有向图法)。此两种算法能支持人机交互的动态挖掘方法中对文本数据的反复动态挖掘计算, 可以发现有重要价值的机会信息元素,并能有效的避免对某些文本数据挖掘计算失效的情况。由无向图算法计算步骤可以看出,该算法使用信息量作为事件之间关系的衡量标准,信息量的计算与概率关系密切,而概率与文本整体数据量有直接关系,这样计算可以适应数据的动态变化,实现对动态挖掘的支持;在提取重要事件时每个事件本文档来自技高网
...

【技术保护点】
1.一种基于人机交互的机会信息动态挖掘方法,所述方法包括如下步骤:步骤11,聚类生成步骤,该步骤使用聚类生成算法对原始机会信息文本数据进行计算,得到聚类生成结果,并用场景图显示;步骤12,聚类生成结果分析理解步骤,用户在所述场景图的帮助下对计算结果进行分析理解;步骤13,文本数据修正步骤,用户在所述步骤12分析理解的基础上对机会信息文本数据进行修正,得到修正后的文本数据;步骤14,新文本数据机会信息挖掘计算步骤,针对所述修正后的文本数据进行关联关系计算,挖掘各个事件、聚类和关系挖掘,并将前后两次计算结果用场景图对比动态显示;步骤15,反馈计算步骤,用户通过对步骤14计算结果进行理解分析,对比分析前后两次计算结果的关联和差异,通过对比分析判断挖掘结果是否可正确、可靠、充分地展示数据之间的关系并准确地发现有重要价值的机会信息,若符合,则结束;否则重复步骤13、步骤14和步骤15。

【技术特征摘要】

【专利技术属性】
技术研发人员:王浩
申请(专利权)人:王浩
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1