信息处理装置、用于实现该信息处理装置的程序制造方法及图纸

技术编号:2871591 阅读:187 留言:0更新日期:2012-04-11 18:40
一种信息处理装置,包括:    存储多个数据的存储部件;    在所述被存储的数据中对共有单词或字词的数据附加共有属性的部件;以及    对所述数据进行分析的解析部件;    其特征在于,所述解析部件对没有附加属性的数据使用消极字词字典进行分析,对所述附加了所述属性的数据进行不同的分析。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及从以自然语言描述的文本中提取知识的文本分析方法。主要以呼叫中心的应答历史分析作为对象。
技术介绍
根据用户指定的关键词对文件进行分类的文件分类系统为根据文件中单词的出现频度,通过检测并显示未使用视点(或者在分类上还没有使用的关键词),来支持基于关键词的分类的文件分类系统(例如,参照专利文献1)。作为风险管理上有用知识的提取手段,已考虑过着眼于‘失礼’、‘失望’等消极表达。作为提取消极表达的方法,也考虑过根据区域,预先设置失意’、‘抱怨’等具有消极意义的关键词,执行检索,在命中情况下产生报警的方法。而且,还有设置有用于文件分类的关键词字典用户更新手段的文件分类系统(例如,参照专利文献2)。专利文献1特开2001-101226号公报(日本)专利文献2特开2001-184351号公报(日本)现有的基于关键词的文件分类技术,适合于高频度知识的提取、分类,但在根据呼叫中心的应答历史来提取风险管理上有用的信息和顾客本身的声音时,提取低频度的知识是重要的课题。即,需要从除去大量常见信息的过程中,高效率、并且没有遗漏地提取真正有用的知识。本专利技术的目的在于,根据高频度的查询来形成FAQ,以及从低频度的查询中提取风险管理上有用的信息。在以风险管理为目的进行文本分析时,已考虑过提取消极表达。为了提取消极表达,有根据区域来设置‘失望’、‘失礼’等关键词,并执行检索的方法,但预先设定关键词,不但手续麻烦,而且也难以进行网罗,从而存在产生很多遗漏的问题。
技术实现思路
为了解决上述课题,在文本分析支持系统中,作为提取低频度信息的手段,设置了提取包含高频度信息的文件并保存在文件夹中之后,收集剩余的文件并保存在低频度信息的文件夹中的功能,作为在低频度信息文件夹的数据中没有消极表达的提取遗漏和噪声的手段,通过使用存储有‘失’、‘负’等具有消极意义的文字的字典,从对象文本中提取侯选消极字词,将其中被判定为消极字词的消极字词登录在消极字词字典上后,来使用消极字词字典进行消极表达的提取。附图说明图1是本专利技术的文本分析支持系统的实施例的系统构成图。图2是表示呼叫中心应答历史数据库的数据结构的图。图3是表示关联词库存储部的数据结构的图。图4是表示术语向量存储部的数据结构的图。图5是表示词库概略存储部的数据结构的图。图6是表示文件分类操作画面的构成的图。图7是表示词库浏览所用数据生成处理过程的流程图。图8是表示词库浏览处理过程的流程图。图9是表示文件分类过程的流程图。图10是表示文件保存文件夹的数据结构的图。图11是表示消极字词判定画面的显示例的图。图12是表示消极文字字典的数据结构的图。图13是消极字词字典的数据结构图。图14是表示消极词语停用词字典的数据结构的图。图15是表示情态表达字典的数据结构的图。图16是表示情态表达停用词字典的数据结构的图。图17是表示侯选消极字词提取过程的流程图。图18是表示消极字词字典形成过程的流程图。图19是表示侯选情态表达提取过程的流程图。图20是表示情态表达字典形成过程的流程图。图21是表示消极表达和情态表达的提取过程的流程图。具体实施例方式以下,说明本专利技术的实施例。本实施例是以呼叫中心的应答历史作为对象的文本分析支持系统。以下,使用附图进行详细说明。(系统构成)图1是表示本专利技术第1实施例的文本分析支持系统的构成图。本系统由CPU 101、输入装置102、显示装置103、呼叫中心应答历史数据库104、词库浏览数据存储部105、文件保存文件夹106、低频度知识提取数据存储部107、存储器108构成。词库浏览数据存储部105由关联词库存储部1051、术语向量存储部1052、以及词库概略存储部1053构成。低频度知识提取数据存储部107由用于实现消极表达提取功能的消极文字字典1071、消极字词字典1072、消极字词停用词字典1073、用于实现情态(modality)表达提取功能的情态表达字典1074、情态表达停用词字典1075构成。在存储器108中,存储词库浏览数据生成处理装置1081、词库浏览处理装置1082、文件检索装置1083、侯选消极字词提取装置1084、消极字词字典字典形成装置1085、侯选情态表达提取装置1086、情态表达字典形成装置1087。(呼叫中心应答历史数据库)图2表示呼叫中心应答历史数据库104的数据结构。在呼叫中心应答历史数据库104的各记录中,记述有查询ID 1041、应答历史记录1042、表示以关键词检索方式检索完成的检索标记1043、表示已分类在分类文件夹中的分类标记1044。(词库浏览功能)本系统具备支持提取包含高频度信息的文件的词库浏览功能。这里所谓的词库是表示文件组中的有特征的单词和其关系的网络表达。本系统的词库浏览由从文件组中自动生成词库的功能、以及显示生成的词库概略及细节的功能(概略显示、放大显示)构成。词库自动生成和词库显示按照例如(日本)特开2000-227917中记载的词库浏览方法来进行。以下,说明本系统中用于实现词库浏览功能的数据和处理过程的概要。首先,说明用于实现词库浏览功能的数据。词库浏览用数据存储部105由关联词库存储部1051、术语向量存储部1052、以及词库概略存储部1053构成。在关联词库存储部1051中,存储根据存储于呼叫中心应答历史数据库104的应答历史记录1042中的文件数据而生成的关联词库。关联词库是表示单词和单词之间的关联度的词库。在本实施例中,关联度表示的是两个单词的共起容易程度,是根据与各个单词的频度和共起频度(在文件中的某个范围内两个字词同时出现的频度)来计算的。图3示出关联词库存储部1051的数据结构。关联词库存储部1051由记录ID 10511、术语X10512、术语Y 10513、以及关联度10514构成。在术语X 10512和术语Y 10513中存储具有关联关系的术语,在关联度10514中存储其关联度。在术语向量存储部1052中,存储从存储于呼叫中心应答历史数据库104的应答历史记录1042中的文件数据中提取出的术语向量。术语向量是对文件加以特征的术语的表,可通过利用记载在‘Salton,G.,et al.A Vector Space Model for AutomaticIndexing,Communications of the ACM,Vol.18,No.11(1975).’中的tf-idf法(Term Frequency inverse Document Frequency)来提取。该tf-idf法是文件检索方法中最为众所周知的方法之一,是将某个文件中的术语出现频度(tf)和出现该术语的文件数的倒数(idf)相乘的值作为该文件中的术语权重,并提取该文件中权重高的术语(即重要术语)作为术语向量的一种技术。图4中示出术语向量存储部1052的数据结构。术语向量存储部1052由记录ID 10521、查询ID 10522和重要术语表10523构成。在查询ID 10521中,存储呼叫中心应答历史数据库中存储的应答历史ID,在重要术语表10522中,存储出现在该应答历史的应答记录中的术语中的重要术语表。在词库概略存储部1053中,存储关联词库存储部1051中存储的关联词库的概略。词库概略将文件组中最具特征的单词作为本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:小泉敦子森本康嗣隈井裕之秋良直人
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1