数据分析系统和方法技术方案

技术编号:2878742 阅读:150 留言:0更新日期:2012-04-11 18:40
本发明专利技术数据分析系统和方法,使数据分析中利用的数据要素成为很容易变更。进行判断分析对象数据中是否包含规定数据要素处理,包括:把上述数据要素和表示该数据要素所属的至少一个分类的分类信息相关联的词典信息,记录到词典数据库内的记录单元;接收分类指定的分类指定单元;以及参照上述词典数据库,提取与表示指定分类的分类信息相关联的数据要素,设定提取的数据要素作为用于上述处理中判断的上述规定数据要素的提取单元。

【技术实现步骤摘要】

本专利技术是关于一种利用于数据挖掘等这样的数据分析的系统和方法。
技术介绍
作为文本挖掘技术的具体例子,有按照正文数据,理解前后关系,进行正文数据的要点提取、正文数据的分类、正文数据的检索等的技术,从正文数据提取知识的技术,或从文本中记述的信息(定性信息)取得数量化的信息(定量信息)的技术等。文本挖掘技术,有时也包括通过对正文数据的数据挖掘分析所得结果的技术。文本挖掘系统(挖掘引擎)利用概念定义词典进行分析处理。图8是表示现有文本挖掘系统构成一例的框图。该文本挖掘系统1主要具备输入单元2、信息提取单元3、输出单元4、和概念定义词典5。概念定义词典5内,记录各种数据。概念定义词典5里,记录正文以文本方式构成记述信息要素的各种文本要素和与该文本要素对应的属性信息(例如属性ID)。记录到概念定义词典上的文本要素和属性ID,正文分析处理的判断基准而加以利用。例如,对单词、句、节、文等都作为文本要素进行记录。图8的例子中,属性ID「G0O1」对应记入叫做「一步超前」的文本要素。并且,属性ID「G009」对应记入叫做「POS结果良好」的文本要素。各属性ID表示各文本要素的性质,并用于分析处理。输入单元2输入作为分析对象数据的每天报表数据61~6n。信息提取单元3从输入的每天报表数据61~6n中,提取包含记录在概念定义词典5里的文本要素的每天报表数据。而且,信息提取单元3,根据所提取的每天报表数据和该提取的每天报表数据中包含的文本要素属性ID,进行文本挖掘。例如,包含表示属性ID是意思的每天报表数据,由信息提取单元3判断为「良好每天报表数据」,并将其抽出来。输出单元4显示由信息提取单元3产生的文本挖掘结果。因此,能够从每天报表数据61~6n中,显示判定为「良好每天报表数据」的每天报表数据。在上述的这种文本挖掘系统1中,想要改变文本挖掘系统的内容时,需要变更(例如修正、补充、删除、编辑)概念定义词典5的记录内容。例如,有时用户希望只利用概念定义词典5内记录的文本要素中几个文本要素进行文本挖掘。这时,需要变更词典的指定,用户只从希望利用的文本要素和有关该文本要素的属性ID等的信息编成新的词典信息,以便信息提取单元3对新编成的词典进行存取。用户变更概念定义词典5时,需要例如利用文本编辑程序编辑概念定义词典程序。或者需要输入指示词典变更的命令。不熟悉文本挖掘系统1构造的用户变更概念定义词典的内容、或变更信息提取单元进行存取的词典的设定就很困难。所以,用文本程序变更概念定义词典程序的工作、用输入命令变更概念定义词典5的工作、和利用词典的指定工作都需要熟悉文本卡系统构造的技术人员进行。并且,熟悉文本挖掘系统1构造的用户即使用文本程序等进行编辑工作时,往往因编码错误等而发生返工。
技术实现思路
本专利技术的目的是提供一种使作为数据分析判定基准,分析对象数据内是否包含判断数据要素能够很容易变更的。第1专利技术是在实行判断分析对象数据中是否包含规定数据要素的处理的数据分析系统中,具备把上述数据要素和表示该数据要素所属的至少一个分类的分类信息相关联的词典信息记录到词典数据库的记录单元;接收分类指定的分类指定单元;以及参照上述词典数据库,提取与表示指定分类的分类信息相关联的数据要素,设定提取的数据要素作为用于上述处理中判断的上述规定数据要素的提取单元。第2专利技术是在用计算机系统实行判断分析对象数据中是否包含规定数据要素的处理的数据分析方法中,具备把上述数据要素和表示该数据要素所属的至少一个分类的分类信息相关联的词典信息记录到词典数据库内;接收分类的指定;以及参照上述词典数据库,提取与表示指定分类的分类信息相关联的数据要素,设定提取的数据要素作为用于上述处理中判断的上述规定数据要素。本专利技术的其他目的和优点通过下面的描述将显示出来,而部分地从描述或通过本专利技术的实施将会清楚。通过下面特别指出的手段和组合能够实现并达到本专利技术的目的和优点。附图说明结合并构成说明书一部分的附图表示本专利技术的实施例,与上述作出的普遍性描述和下述实施例的详细描述一起,用于说明本专利技术的原理,其中图1表示本专利技术第1实施例数据要素指定系统的构成一例框图;图2表示使用分类指定单元表示的画面一例图;图3是有关本专利技术第1实施例数据要素指定系统和使用文本挖掘系统实行的数据分析方法的流程图;图4表示本专利技术第2实施例数据要素指定系统的构成一例框图; 图5是有关本专利技术第2实施例数据要素指定系统和使用文本挖掘系统和分析结果统计系统实行的数据分析方法的流程图;图6表示使用本专利技术第4实施例的分类指定单元表示的画面一例图;图7表示本专利技术第5实施例数据要素指定系统的利用方式一例框图。图8表示现有文本挖掘系统的构成一例框图。具体实施例方式以下,边参照附图边说明本专利技术的实施例。(第1实施例)本实施例中,即使没有详细了解文本挖掘系统构造的用户,使用GUI(Graphical User Interface图形用户接口),说明有关很容易指定利用于文本挖掘的文本要素的数据要素指定系统。以下的各个实施例中,说明有关分析对象数据为正文数据的情况。但是,分析对象数据也可以是例如,图象数据、声音数据等那种正文数据以外的数据、各种各样类别的数据组合。以下的各个实施例中,为了说明有关分析对象数据为正文数据的情况,在词典内记录文本要素及其属性ID。然而,例如,分析对象的数据为图象数据、声音数据等的情况下,则在词典内记录作为图象数据、声音数据的数据要素及其属性ID。这样,只要词典内记录的数据要素的类别与分析对象数据类别统一就行。图1是表示本实施例数据要素指定系统的构成一例框图。计算机系统10读出记录媒体9内记录的数据要素指定程序9a并执行。由计算机系统10读出的数据要素指定程序9a,使计算机系统10起数据要素指定系统8作用。数据要素指定系统8具备记录单元11、分类指定单元12、和提取单元13。记录单元11对于文本要素,将其文本要素的属性ID及表示该文本要素所属分类的分类信息相关联的信息,记录到概念定义词典14内。记录单元11,例如从用户15或其它单元,接收并记录与文本要素、属性ID和分类信息相关联的信息。用户15利用记录单元11GUI功能进行输入。例如,记录单元11显示用于输入与文本要素、属性ID和分类信息相关联的信息表。用户将各种信息记述于该表上。记录单元11读出表上记述的内容,记录到概念定义词典14内。在概念定义词典14中,以表格形式管理例如与文本要素、属性ID、分类信息相关联的信息。本实施例中,假设概念定义词典14内包含多个词典信息G1、G2。表1表示概念定义词典14内包含词典信息G1的例子。★表1中所示的词典信息G1是重要性分类词典。词典信息G1中,各种文本要素按重要性「高」、「中」、「低」分组。分类信息表示重要性的类别。例如,对于文本要素「一步超前」(一步リ-ド),与表示「良好信息」的属性ID「G001」和分类信息「低」相关联。至于其它的文本要素、属性ID、分类信息也有同样的关系。表2是表示概念定义词典14内包含的词典信息G2例子。★表2中所示的词典信息G2是品名分类词典。词典信息G2中,各种文本要素按品名「杂志」、「饮料」进行分组。分类信息表示品种类别。分类指定单元12显示用于由用户指定文本挖掘中利用的文本要素分本文档来自技高网
...

【技术保护点】
一种数据分析系统,进行处理,判断分析对象数据中是否包含有规定数据要素,包括: 把上述数据要素和表示该数据要素所属的至少一个分类的分类信息相关联的词典信息,记录到词典数据库内的记录单元; 接收分类指定的分类指定单元;以及 参照上述词典数据库,提取与表示所指定分类的分类信息相关联的数据要素,设定所提取的数据要素作为用于上述处理中判断的上述规定数据要素的提取单元。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:矶尾佳代子牧野恭子岩田诚司
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利