In the text analysis step (S109-S110), the words extracted from the input text data are analyzed by hierarchical cluster. In the picture generation step (S111), according to the group number (m) and the most data number (n) in the group, we get (m) clusters from the analysis results of the text analysis step, and generate the picture data for displaying the group of words belonging to the cluster with less than (n) in the picture. In the analysis result display step (S112), the picture is displayed according to the generated picture data. In this way, the results of hierarchical cluster analysis can be displayed on the screen in a way that users can intuitively understand.
【技术实现步骤摘要】
【国外来华专利技术】文本挖掘方法、文本挖掘程序及文本挖掘装置
本专利技术涉及文本挖掘,尤其涉及将文本数据的分析结果显示于画面的文本挖掘方法、文本挖掘程序、及文本挖掘装置。
技术介绍
近年来,解析以自由形态所记载的大量文本数据,并从解析结果求得有用信息的文本挖掘受到瞩目。在文本挖掘中,例如从分析对象的文本数据提取字词,并通过解析字词的出现频率与出现趋势等来求得信息。以下,针对对从文本数据中提取出的字词进行阶层式集群分析而将分析结果显示于画面的文本挖掘装置进行探讨。在阶层式集群分析中,根据字词间的相似度,而阶层式地创建包含相似度高的字词的集群。一般而言,使用图15所示的树形图(树状结构图:Dendrogram)将阶层式集群分析的结果提供给使用者(分析者)。与本案专利技术相关连地,在专利文献1中记载有一种分群装置,其具有阶层式分群单元,该阶层式分群单元构建树形图,搜索树形图而生成可自下层至上层进行确定的索引并存储于存储单元的。在专利文献2中记载有一种提供查询装置,其具有:距离矩阵计算单元,其计算出关键词间的距离,生成可搜索关键词与关键词间的距离的距离矩阵数据并存储于存储单元;及分群单元,其 ...
【技术保护点】
1.一种文本挖掘方法,将文本数据的分析结果显示于画面,其特征在于,包括:文本分析步骤,对从被输入的文本数据中提取出的字词进行阶层式集群分析,画面生成步骤,根据上述文本分析步骤中的分析结果来生成画面数据,以及分析结果显示步骤,根据上述画面数据来显示画面;在上述画面生成步骤中,根据群组数与群组内的最多数据数,从上述分析结果求得上述群组数的集群,生成用于在画面中显示包含上述最多数据数以下的属于上述集群的字词的群组的画面数据。
【技术特征摘要】
【国外来华专利技术】2016.07.25 JP 2016-1450651.一种文本挖掘方法,将文本数据的分析结果显示于画面,其特征在于,包括:文本分析步骤,对从被输入的文本数据中提取出的字词进行阶层式集群分析,画面生成步骤,根据上述文本分析步骤中的分析结果来生成画面数据,以及分析结果显示步骤,根据上述画面数据来显示画面;在上述画面生成步骤中,根据群组数与群组内的最多数据数,从上述分析结果求得上述群组数的集群,生成用于在画面中显示包含上述最多数据数以下的属于上述集群的字词的群组的画面数据。2.如权利要求1所述的文本挖掘方法,其特征在于,上述群组包含的字词是按照出现频率从高到低的顺序从属于与上述群组对应的集群的字词中选择出的。3.如权利要求2所述的文本挖掘方法,其特征在于,在上述画面内,上述群组具有与属于与上述群组对应的集群的字词的出现频率的合计值相对应的尺寸。4.如权利要求3所述的文本挖掘方法,其特征在于,在上述画面内,上述群组包含的字词具有与上述字词的出现频率相对应的尺寸。5.如权利要求1所述的文本挖掘方法,其特征在于,还包括用于输入来自使用者的指示的指示输入步骤,上述文本分析步骤及上述画面生成步骤中的任一步骤根据在上述指示输入步骤中输入的指示而被执行。6.如权利要求5所述的文本挖掘方法,其特征在于,在上述指示输入步骤中,接收上述群组数的设定指示,在上述画面生成步骤中,根据在上述指示输入步骤中设定的群组数来生成上述画面数据。7.如权利要求5所述的文本挖掘方法,其特征在于,在上述指示输入步骤中,接收上述最多数据数的设定指示,在上述画面生成步骤中,根据在上述指示输入步骤中设定的最多数据数来生成上述画面数据。8.如权利要求5所述的文本挖掘方法,其特征在于,在上述指示输入步骤中,接收分析对象期间的设定指示,在上述文本分析步骤中,对上述文本数据中的在上述指示输入步骤中设定的分析对象期间内的文本数据所包含的字词,进行上述阶层式集群分析。9.如权利要求5所述的文本挖掘方法,其特征在于,在上述指示输入步骤中,接收分析目标的设定指示,在上述文本分析步骤中,从上述文本数据中提取与在上述指示输入步骤中设定的分析目标相对应的种类的字词,进行上述阶层式集群分析。10.如权利要求5所述的文本挖掘方法,其特征在于,在上述指示输入步骤中,接收字词排除指示,在上述文本分析步骤中,将在上述指示输入步骤中指示的字词排除,进行上述阶层式集群分析。11.如权利要求5所述的文本挖掘方法,其特征在于,上述指示输入步骤接收近义词登记指示,上述文本分析步骤将在上述指示输入步骤所指示的多个字词视为相同的字词,而进行上述阶层式集群分析。12.如权利要求5所述的文本挖掘方法,其特征在于,上述指示输入步骤接收复合词登记指示,上述文本分析步骤将在上述指示输入步骤所指示的多个字词合并为1个字词,而进行上述阶层式集群分析。13.如权利要求1所述的文本挖掘方法,其特征在于,在上述画面生成步骤中生成用于显示包含上述群组...
【专利技术属性】
技术研发人员:秋田正史,中村康则,周景龙,
申请(专利权)人:株式会社斯库林集团,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。