文本挖掘方法、存储介质以及文本挖掘装置制造方法及图纸

技术编号:38423649 阅读:12 留言:0更新日期:2023-08-07 11:22
本发明专利技术能够以较少的计算量基于文档中的情感词的适当评价来在多个文档之间比较情感倾向。在本发明专利技术的文本挖掘方法中,接受将应比较情感极性的倾向的多个文档指定为对象文档的指示、指定应从对象文档中提取出的特征词的范围的指示、以及指定表示情感极性的强度的情感指数的范围的指示,基于这些指示,在指定范围内从该多个文档中提取特征词,对提取出的特征词中的作为赋予指定范围内的情感指数的情感词而被登记在规定的情感词词典中的特征词,赋予该情感指数。然后,在该多个文档之间可比较地显示所提取出的特征词和所赋予的情感指数。在该显示中,例如对赋予了情感指数的特征词附加与其情感指数对应的背景色。词附加与其情感指数对应的背景色。词附加与其情感指数对应的背景色。

【技术实现步骤摘要】
文本挖掘方法、存储介质以及文本挖掘装置


[0001]本专利技术涉及文本挖掘,尤其涉及用于比较多个文档的情感极性的倾向的文本挖掘方法、存储介质以及文本挖掘装置。

技术介绍

[0002]近年来,对自由记述的文本数据进行分析,并根据分析结果求出有用的信息的文本挖掘受到关注。在该文本挖掘的领域中,已知根据文档的文本数据来判定与对该文本相关的物、人、内容等是肯定的还是否定的情感极性的倾向(以下称为“情感倾向”)的技术。
[0003]例如,已知使用预先登记了单词和该单词所表示的情感(表示是肯定的还是否定的情感极性等)之间的对应关系的情感词词典,对文档所包含的单词中的、情感极性为肯定的单词的数量与否定的单词的数量进行比较,根据该比较结果判定该文档的情感极性(该文档是肯定的还是否定的还是中立的)的方法(参照日本特开2011

204226号公报的段落[0009])。
[0004]在上述现有的方法中,调查文档所包含的单词是否被登记在情感词词典中,在被登记的情况下,根据情感词词典将该单词分为肯定还是否定这两种。因此,对于情感强度(情感极性)弱的单词即接近中性的单词,没有建立其适当的处理方法。另外,关于这样的单词的情感极性,需要根据作为对象的文档的内容进行调整,但不知道为此的简便的方法。
[0005]另外,在上述现有的方法中,在多个文档之间比较情感倾向的情况下,将各个文档所包含的单词中的、被登记在情感词词典中的单词即情感词全部统计并比较其统计结果。因此,用于该比较的计算量变多,另外,在某个文档中出现的比其他文档多的情感词也会被低估。

技术实现思路

[0006]因此,要求提供能够以较少的计算量基于文档中的情感词的适当评价来在多个文档之间比较情感倾向的数据挖掘方法、文本挖掘装置等。
[0007]本专利技术的第一方面的文本挖掘方法,用于在多个文档之间比较情感极性的倾向,其中,
[0008]所述文本挖掘方法包括:
[0009]指示输入步骤,接受将应比较情感极性的倾向的多个文档指定为对象文档的指示,
[0010]特征词提取步骤,基于被指定为所述对象文档的所述多个文档的文本数据,从所述多个文档中的每一个文档中提取特征词,
[0011]情感指数获取步骤,对通过所述特征词提取步骤提取出的特征词中的、被登记在规定的情感词词典中的特征词,赋予情感指数,该情感指数作为在该情感词词典中表示情感极性的强度的数值给予该特征词,
[0012]显示步骤,针对被指定为所述对象文档的所述多个文档,将通过所述特征词提取
步骤提取出的特征词与通过所述情感指数获取步骤赋予的情感指数一起显示。
[0013]本专利技术的第二方面,在本专利技术的第一方面中,
[0014]所述指示输入步骤还包括接受指定应从所述对象文档中提取出的特征词的范围的指示的步骤,
[0015]在所述特征词提取步骤中,提取在所述指示输入步骤中指定的范围内的特征词。
[0016]本专利技术的第三方面,在本专利技术的第一方面或第二方面中,
[0017]所述指示输入步骤还包括接受指定表示情感极性的强度的指数即情感指数的范围的指示的步骤,
[0018]在所述情感指数获取步骤中,对通过所述特征词提取步骤提取出的特征词中的、作为给予了在所述指示输入步骤中指定的范围内的情感指数的单词而被登记在所述情感词词典中的特征词,赋予该情感指数。
[0019]本专利技术的第四方面,在本专利技术的第三方面中,
[0020]所述指示输入步骤还包括在提取出的所述特征词与赋予的所述情感指数一起通过所述显示步骤显示时,接受指定所述情感指数的范围的变更的指示的步骤。
[0021]本专利技术的第五方面,在本专利技术的第一方面至第四方面中的任一方面中,
[0022]所述文本挖掘方法还包括文档情感指数计算步骤,在所述文档情感指数计算步骤中,针对被指定为所述对象文档的所述多个文档中的每一个文档,基于通过所述特征词提取步骤从该文档中提取出的特征词中的、通过所述情感指数获取步骤赋予了情感指数的特征词,计算该文档的情感指数来作为文档情感指数,
[0023]在所述显示步骤中,进行表示通过所述文档情感指数计算步骤计算出的所述文档情感指数的显示。
[0024]本专利技术的第六方面的存储介质,其存储有文本挖掘程序,所述文本挖掘程序用于在多个文档之间比较情感极性的倾向,其中,
[0025]所述文本挖掘程序使计算机的CPU使用存储器执行如下步骤:
[0026]指示输入步骤,接受将应比较情感极性的倾向的多个文档指定为对象文档的指示,
[0027]特征词提取步骤,基于被指定为所述对象文档的所述多个文档的文本数据,从所述多个文档中的每一个文档中提取特征词,
[0028]情感指数获取步骤,对通过所述特征词提取步骤提取出的特征词中的、被登记在规定的情感词词典中的特征词,赋予情感指数,该情感指数作为在该情感词词典中表示情感极性的强度的数值给予该特征词,
[0029]显示步骤,针对被指定为所述对象文档的所述多个文档,将通过所述特征词提取步骤提取出的特征词与通过所述情感指数获取步骤赋予的情感指数一起显示。
[0030]本专利技术的第七方面的文本挖掘装置,用于在多个文档之间比较情感极性的倾向,其中,
[0031]所述文本挖掘装置具有:
[0032]指示输入部,接受将应比较情感极性的倾向的多个文档指定为对象文档的指示;
[0033]特征词提取部,基于被指定为所述对象文档的所述多个文档的文本数据,从所述多个文档中的每一个文档中提取特征词;
[0034]情感指数获取部,对通过所述特征词提取部提取出的特征词中的、被登记在规定的情感词词典中的特征词,赋予情感指数,该情感指数作为在该情感词词典中表示情感极性的强度的数值给予该特征词,
[0035]显示部,针对被指定为所述对象文档的所述多个文档,将通过所述特征词提取部提取出的特征词与通过所述情感指数获取部赋予的情感指数一起显示。
[0036]本专利技术的其他方面根据本专利技术的上述方面以及后述的实施方式及其变形例的说明是显而易见的,因此省略其说明。
[0037]专利技术效果
[0038]根据上述第一方面、第六方面或第七方面,针对被指定为对象文档的多个文档中的每一个文档提取特征词,对提取出的特征词即对象特征词中的、作为情感词被登记在情感词词典中的特征词,赋予在该情感词词典中给予该特征词的情感指数。这样,针对该多个文档,对象特征词和对象特征词所包含的情感词所被赋予的情感指数作为对该多个文档的情感倾向分析的结果而被显示。通过这样的显示,即使在应比较情感倾向的多个文档中包含有情感极性弱的特征词的情况下,通过查看提取出的特征词和特征词所被赋予的情感指数,也能够在该多个文档之间准确地掌握多个文档的情感倾向。
[0039]根据上述第二方面,由于能够指定应从作为对象文档的多个文档中的每一个文档提取出的特征词的范围,因此,通过仅将更具有特征性的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本挖掘方法,用于在多个文档之间比较情感极性的倾向,其中,所述文本挖掘方法包括:指示输入步骤,接受将应比较情感极性的倾向的多个文档指定为对象文档的指示,特征词提取步骤,基于被指定为所述对象文档的所述多个文档的文本数据,从所述多个文档中的每一个文档中提取特征词,情感指数获取步骤,对通过所述特征词提取步骤提取出的特征词中的、被登记在规定的情感词词典中的特征词,赋予情感指数,该情感指数作为在该情感词词典中表示情感极性的强度的数值给予该特征词,显示步骤,针对被指定为所述对象文档的所述多个文档,将通过所述特征词提取步骤提取出的特征词与通过所述情感指数获取步骤赋予的情感指数一起显示。2.根据权利要求1所述的文本挖掘方法,其中,所述指示输入步骤还包括接受指定应从所述对象文档中提取出的特征词的范围的指示的步骤,在所述特征词提取步骤中,提取在所述指示输入步骤中指定的范围内的特征词。3.根据权利要求1或2所述的文本挖掘方法,其中,所述指示输入步骤还包括接受指定表示情感极性的强度的指数即情感指数的范围的指示的步骤,在所述情感指数获取步骤中,对通过所述特征词提取步骤提取出的特征词中的、作为给予了在所述指示输入步骤中指定的范围内的情感指数的单词而被登记在所述情感词词典中的特征词,赋予该情感指数。4.根据权利要求3所述的文本挖掘方法,其中,所述指示输入步骤还包括在提取出的所述特征词与赋予的所述情感指数一起通过所述显示步骤显示时,接受指定所述情感指数的范围的变更的指示的步骤。5.根据权利要求1~4中任一项所述的文本挖掘方法,其中,所述文本挖掘方法还包括文档情感指数计算步骤,在所述文档情感指数计算步骤中,针对被指定为所述对象文档的所述多个文档中的每一个文档,基于通过所述特征词提取步骤从该文档中提取出的特征词中的、通过所述情感指数获取步骤赋予了情感指数的特征词,计算该文档的情感指数来作为文档情感指数,在所述显示步骤中,进行表示通过所述文档情感指数计算步骤计算出的所述文档情感指数的显示。6.根据权利要求5所述的文本挖掘方法,其中,在所述文档情感指数计算步骤中,针对被指定为所述对象文档的所述多个文档中的每一个文档,通过下式计算所述文档情感指数Ctx,Ctx=(Naf

Nng)/(Naf+Nng)其中,Naf是该文档中的肯定的特征词的出现数,Nng是该文档中的否定的特征词的出现数。7.根据权利要求5或6所述的文本挖掘方法,其中,在所述显示步骤中,被指定为所述对象文档的所述多个文档中的每一个文档的名称被附加背景色来显示,所述背景色的颜色根据该文档的所述情感指数是肯定的还是否定的而
不同,并且所述背景色具有与该文档的所述情感指数对应的浓度。8.根据权利要求1~7中任一项所述的文本挖掘方法,其中,在所述显示步骤中,通过所述情感指数获取步骤赋予了情感指数的特征词被附加背景色来显示,所述背景色的颜色根据该特征词的情感指数是肯定的还是否定的而不同,并且所述背景色具有与该特征词的情感指数对应的浓度。9.一种存储介质,其存储有文本挖掘程序,所述文本挖掘程序用于在多个文档之间比较情感极性的倾向,其中,所述文本挖掘程序使计算机的CPU使用存储器执行如下步骤:指示输入步骤,接受将应比较情感极性的倾向的多个文档指定为对象文档的指示,特征词提取步骤,基于被指定为所述对象文档的所述多个文档的文本数据,从所述多个文档中的每一个文档中提取特征词,情感指数获取步骤,对通过所述特征词提取步骤提取出的特征词中的、被登记在规定的情感词...

【专利技术属性】
技术研发人员:周景龙中村康则
申请(专利权)人:株式会社斯库林集团
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1