信息处理装置,信息处理方法和程序制造方法及图纸

技术编号:2848486 阅读:180 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种提取给定关键词的特征词的方法。用户指定关键词作为领域知识,以便从文本提取特征词。例如,用户希望从用作音乐领域中的文本的音乐CD音乐评论文本中提取代表歌曲音乐特性或艺术家音乐特性的特征词。在这种情况下,用户指定诸如“声音”、“风格”或“语音”这样本身并不代表具体的音乐特性的词作为关键词。然而,可以预期诸如“声音”、“风格”或者“语音”这样的词能够被诸如“清楚”或者“立体”这样表示音乐特性的词修饰。通过指定诸如“声音”、“风格”或“语音”这样的词作为关键词,可以从原始文本中提取修饰指定词的词。从音乐评论文本中提取的作为修饰关键词的词是适用于表示文本内容的词。

【技术实现步骤摘要】

本专利技术涉及一种信息处理装置,信息处理装置所采用的信息处理方法和实现该信息处理方法的程序。更具体地,本专利技术涉及信息处理装置,其能够正确地从文本提取特征词作为刻画文本内容特征的词,还涉及信息处理装置采用的信息处理方法和实现该信息处理方法的程序。
技术介绍
用于从句子(或文本数据)中选择在句子内容中扮演重要角色的词的特征词提取技术在对文本的有效分类和聚类中是很重要的。特征词提取技术采用在″Introduction to Modern InformationRetrieval(现代情报检索介绍)″(Salton,G.,McGill,M.J.,McGraw-Hill,1983年)中公开的TF/IDF方法作为基于词加权的启发式方法,采用在″Automatic Extraction of Keywords from Japanese Texts(从日文文本中自动提取关键词)″(Nagao等,Information Processing,1976年第17卷第2期)中公开的方法作为用于文件文本地利用X2值的统计方法,以及采用日本专利特许公开号2001-67362中介绍的方法。如果文档文本及其归类类别被作为学习数据提供,那么特征词提取技术采用在″A Comparative Study onFeature Selection in Text Categorization(文本归类中的特征选择的比较研究)″(Yang,Y.,Pedersen、J.O.,ICML-97会议论文集,412到420页,1997年)中公开的方法作为利用X2用于分类的方法和在″Induction ofDecision Trees(决定树归纳)″(Quinlan、J.R.,Machine Learning,1(1),81到106页,1986年)中公开的方法作为利用信息增益的方法。
技术实现思路
然而,上述方法是在一般共同路径(co-path)作为目的的情况下而被采用的。此外,每一种方法都仅仅以单纯的方式利用词的统计特性。因此,这些方法并不能够根据句子内容的专门性话题和根据主题的偏好(bias)来提取词。例如,这些方法不能够从记录在音乐CD(光盘)上的音乐评论文本中提取代表歌曲音乐特性和艺术家的音乐特性的词。音乐评论文本的示例是在作为介绍歌曲和艺术家的句子的、CD上记录的句子。这就是说,这些方法不能够根据句子的内容正确地提取依赖于领域(音乐领域)的词(或者代表音乐特性的词)。由本专利技术提供的信息处理装置被配置,以便该信息处理装置包括获取装置,用于获取表示领域知识的特性的关键词;以及提取装置,用于从文本中提取每个具有接近关键词的距离尺度的接近词,以及通过将特征词与关键词相关联而在接近词之中提取与关键词共同出现的程度高的词作为关键词的特征词。由本专利技术提供的信息处理方法被配置,以便信息处理方法包括获取步骤,用于获取表示领域知识特性的关键词;以及提取步骤,从文本中提取每个具有接近关键词的距离尺度的接近词,以及通过将特征词与关键词相关联而在接近词之中提取与关键词共同出现的程度高的词作为关键词的特征词。由本专利技术提供的程序被配置,以便该程序包括获取步骤,用于获取表示领域知识特性的关键词;以及提取步骤,用于从文本中提取每个具有接近关键词的距离尺度的接近词,以及通过将特征词与关键词相关联而在接近词之中提取与关键词共同出现的程度高的词作为关键词的特征词。依据本专利技术提供的信息处理装置、信息处理方法和程序,获取关键词并且从文本提取修饰关键词的词作为特征词。依据本专利技术,有可能从文本提取特征词作为具有文本的内容特性的词。附图说明图1是示出了本专利技术提供的信息处理装置典型配置的图;图2是示出了典型词模型的表格;图3是示出了典型共同出现频率的表格;图4示出了表示提取特征词的处理的流程图;图5是示出词间KL距离的表格;图6是示出了词间互信息(mutual information)的典型数量的表格;图7是示出了本专利技术提供的信息处理装置的另一个典型配置的图;图8示出了表示提取特征词的另一处理的流程图;以及图9是示出了个人计算机的典型配置的方框图。具体实施例方式在解释本专利技术的最佳实施例之前,在下面的比较描述中解释公开的专利技术和实施例之间的关系。应当注意的是,即使在该说明书中描述的实施例没有包括在下面与专利技术对应的实施例的比较描述中,这样的实施例也不应被解释为不是与专利技术对应的实施例。相反地,作为与特定专利技术对应的实施例被包括在下面的比较描述中的实施例并不解释为不与除了特定专利技术以外的专利技术对应的实施例。此外,下面的比较描述并不被解释为包括在这个说明书中公开的所有专利技术的全面描述。换句话说,下面的比较描述绝非否认这个说明书中公开的但是没包括在权利要求中的专利技术作为用于提交专利申请的专利技术的存在。这就是说,下面的比较描述绝非否认下面专利技术的存在,该专利技术将被包括在专利的分案申请中,被包括在对该说明书的修改中,或者将来被加入。依据本专利技术的实施例,提供一种信息处理装置,其被配置以便该信息处理装置包括用于获取关键词的关键词获取部件(诸如包括在图1所示配置中的关键词获取部件26),以及用于从文本提取修饰关键词的词作为特征词的特征词提取部件(诸如包括在图1所示配置中的特征词提取部件27)。依据本专利技术的另一实施例,上面所描述的信息处理装置进一步被配置以便特征词提取部件能够从文本提取接近关键词的词作为接近词(在图4所示流程图中例如步骤S2的处理中),从接近词中删除具有与关键词相似的意义的关键词类似词,并且把剩下的接近词当作特征词(在图4所示的流程图中例如步骤S4的处理)。依据本专利技术的进一步的实施例,上面描述的信息处理装置进一步被配置以便特征词提取部件(诸如图7所示配置中包括的特征词提取部件31)能够把关键词类似词用作关键词。依据本专利技术的进一步实施例,提供一种信息处理方法,其被配置以便信息处理方法包括用于获取关键词的关键词获取步骤(诸如图4所示流程图的步骤S1),以及用于从文本提取修饰关键词的词作为特征词的特征词提取步骤(诸如图4所示流程图的步骤S2到S5)。依据本专利技术的进一步实施例,提供一种具有与上述信息处理方法相同步骤的程序。图1是显示本专利技术提供的信息处理装置1的典型配置的图。该信息处理装置1利用用户所输入的关键词作为从文本提取特征词的领域知识,该文本例如是涉及该领域的一个领域的文本。例如,希望从作为音乐领域的文本的、记录在音乐CD上的音乐评论文本中提取代表歌曲的音乐特性或艺术家的音乐特性的特征词。在这种情况下,通过输入诸如‘声音’、‘风格’或者‘语音’的词作为关键词,可以从原始文本提取修饰该关键词的词。诸如‘声音’、‘风格’或者‘语音’的关键词本身并不表示具体音乐特性。然而,可以预期诸如‘声音’、‘风格’或者‘语音’这样的关键词能够被诸如″清楚″或者″立体″这样的自身表示音乐特性的词修饰。例如,在被称作共同出现(co-occurrence)的现象中,诸如″声音″、″风格″或者″语音″这样的关键词很有可能随同诸如″清楚″或者″立体″这样的词一起出现。作为修饰关键词的词的、从文本提取的词是适于代表音乐评论文本的内容的词,也就是,代表诸如包括清楚歌曲的CD的音乐CD的音乐特性的词。在这个示例中,从文本提取的典型词是″清楚″和″本文档来自技高网
...

【技术保护点】
一种信息处理装置,包括:获取装置,用于获取代表领域知识特性的关键词;以及提取装置,用于从文本中提取每个具有接近所述关键词的距离尺度的接近词,以及通过将特征词与所述关键词相关联而在所述接近词之中提取与所述关键词共同出现的程度高 的词作为所述关键词的特征词。

【技术特征摘要】
JP 2005-3-31 101963/051.一种信息处理装置,包括获取装置,用于获取代表领域知识特性的关键词;以及提取装置,用于从文本中提取每个具有接近所述关键词的距离尺度的接近词,以及通过将特征词与所述关键词相关联而在所述接近词之中提取与所述关键词共同出现的程度高的词作为所述关键词的特征词。2.根据权利要求1所述的信息处理装置,其中所述提取装置产生词模型,用作规定在作为对文本数据执行语素分析的结果所获取的词之间的关系的数学模型;以及以所述词模型提取每个都具有接近所述关键词的距离尺度的接近词。3.根据权利要求1所述的信息处理装置,其中所述提取装置提取修饰所述关键词的词作为用于关键词的所述特征词。4.根据权利要求1所述的信息处理装置,其中所述提取装置在所述接近词之中提取与所述关键词共同出现的程度低的词,并将所述提取的词用作附加关键词。5.根据权利要求1所述的信息处理装置,其中所述的信息处理装置进一步包括处理装置,用于从其他文本中获取代表另一文本特性...

【专利技术属性】
技术研发人员:馆野启
申请(专利权)人:索尼株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1