当前位置: 首页 > 专利查询>株式会社IPB专利>正文

关键字抽取装置制造方法及图纸

技术编号:2836886 阅读:181 留言:0更新日期:2012-04-11 18:40
一种关键字抽取装置,具备:抽取把由多个文件(D)组成的文件群(E)中包含的索引词(w)中的在上述文件群(E)中的出现频度的高低程度包含在评价中的权重大的索引词即高频度词的高频度词抽取部(30);使上述高频度词基于以与在上述文件群(E)中的索引词(w)的各个的在文件单位中的同现的有无为基础的同现度(C)而成簇的成簇单元(50);对于各个索引词(w)算出对与上述索引词(w)中的属于较多的上述簇(g)的高频度词发生同现,且在较多的文件(D)中与上述高频度词发生同现的东西较高地进行评价所得的得分key(w)的得分算出单元(70);以及基于上述得分来抽取关键字的关键字抽取部(90)。据此,就能自动抽取表示由多个文件组成的文件群的特征的关键字。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及由计算机从由多个文件组成的文件群中自动抽取表现该文件群的主题的关键字的技术,特别是涉及关键字的抽取装置、抽取方法及抽取程序。
技术介绍
以专利文件为首的技术性文件和其他文件每天都有新的出现,数目庞大。为了进行这些文件的检索、分析而自动抽取表示文件的特征的关键字的技术是公知的。例如,在大泽幸生们著「KeyGraph語の共起グラフの分割·統合によるキ一ワ一ド抽出」電子情報通信学会論文誌Vol.J82-D-I,No.2,391-400页(1999年2月)(非专利文献1)中,披露了抽取表示文件的主张的关键字的方法。此方法首先抽取该文件中的出现次数的高位词(HighFreq)。然后,基于HighFreq们在句子单位中的同现(共起)的有无,算出在该文件中的同现度,把同现度高的HighFreq们的组合作为「基台」。同现度不高的HighFreq们就会属于各自的基台。然后,基于跟各基台中的词在句子单位中的同现的有无,算出跟基台中的词的同现度,基于跟此基台中的词的同现度,抽取这些基台们所支撑而统一文章的词(屋顶)。非专利文献1大泽幸生们著「KeyGraph語の共起グラフの分割·統合にょるキ一ワ一ド抽出」電子情報通信学会論文誌Vol.J82-D-I,No.2,391-400页(1999年2月)
技术实现思路
专利技术要解决的课题但是,上述非专利文献1记载的技术不是抽取表示由多个文件组成的文件群的特征的关键字的东西。特别是,就上述非专利文献1记载的技术而言,因为1个文件是为了主张作者独自的考虑而写的,立于以该主张为目标而形成一个流程这样的前提,所以不可能适用于由多个独立文件组成的文件群。本专利技术的课题是提供一种能自动抽取表示由多个文件组成的文件群的特征的关键字的关键字抽取装置、抽取方法及抽取程序。还有,本专利技术另外的课题是从多个观点自动抽取表示由多个文件组成的文件群的特征的关键字,使得能立体地理解文件群的特性。用于解决课题的方案(1)本专利技术的关键字抽取装置是从由多个文件组成的文件群中抽取关键字的装置,具备以下各单元。即,从上述文件群的数据中抽取索引词的索引词抽取单元;算出把对于上述索引词的各个在上述文件群中的出现频度的高低程度包含在评价中的权重,抽取该权重大的索引词即高频度词的高频度词抽取单元;基于上述高频度词的各个和上述索引词的各个在文件单位中的同现的有无,算出上述高频度词的各个和上述索引词的各个在上述文件群中的同现度的高频度词—索引词同现度算出单元;基于上述算出的同现度,对上述高频度词进行分类,生成簇的成簇单元;对于各个索引词算出对与上述索引词中的属于较多的上述簇的高频度词发生同现,且在较多的文件中与上述高频度词发生同现的东西较高地进行评价所得的得分的得分算出单元;以及基于上述算出的得分来抽取关键字的关键字抽取单元。据此,就能自动抽取表示由多个文件组成的文件群的特征的关键字。特别是,把高频度词基于以跟上述文件群中的上述索引词的各个在文件单位中的同现的有无为基础的同现度进行分类,生成簇,高地评价与属于较多的簇的高频度词发生同现,且在较多的文件中发生同现的索引词,抽取关键字,从而能抽取正确表示文件群的特征的关键字。这里说的高频度词的抽取是通过对于从上述文件群的数据中抽取到的索引词的各个算出把在上述文件群中的出现频度的高低程度包含在评价中的权重,按给定数抽取该权重大的索引词来进行的。作为这样的权重,可以是表示在上述文件群中的出现频度的高低程度本身的GF(E)(后述),也可以是把GF(E)作为来变量来包含的函数值。还有,为基于高频度词和上述索引词的各个的同现度对上述高频度词进行分类,例如,对于各高频度词,作成把跟p个索引词的各个的同现度作为成分的p维矢量。并且,借助于成簇单元,进行以与各高频度词有关的上述p维矢量的类似程度(类似度或非类似度)为基础的簇分析。还有,作为高地评价与属于较多的上述簇的高频度词发生同现的索引词的方法,例如,可以考虑把与所有簇(后述的基台)有关的、由包含各索引词和簇内高频度词的同现度(索引词—基台同现度(后述))的积的多项式导出的值作为各索引词的得分。还有,作为高地评价在较多的文件中与上述高频度词发生同现的索引词的方法,例如,可以考虑把以在与属于文件群的所有文件有关的、各索引词和高频度词在文件单位中的同现的有无(1或0或者对其付以给定的权重所得的东西)的和(用于算出索引词—基台同现度Co(w,g)(后述)的同现度C(w,w′)(后述),或者,索引词—基台同现度Co′(w,g)(后述))作为变量来包含的函数值作为各索引词的得分。这样,作为对与属于较多的上述簇的高频度词发生同现且在较多的文件中与上述高频度词发生同现的东西较高地进行评价所得的得分,可以考虑后述的key(w)、Skey(w)。(2)优选的是,在上述各关键字抽取装置中,上述得分算出单元对于各个索引词算出的得分是对在包含上述文件群以外的文件在内的文件集团中的出现频度较低的索引词较高地进行评价所得的得分。据此,就能高地评价分析对象的文件群中特有的索引词而抽取关键字。作为这里说的在文件集团中的出现频度,例如可以举出后述的DF(P)。具体而言,例如可以考虑把DF(P)的倒数,或者DF(P)的倒数×文件集团的文件数,或者其中任意一个的对数,加上或者乘上对与上述属于较多的上述簇的高频度词发生同现,且在较多的文件中发生同现的东西高地进行评价所得的得分。作为对DF(P)低的索引词高地进行评价所得的得分,可以举出后述的Skey(w)。(3)优选的是,在上述关键字抽取装置中,上述得分算出单元对于各个索引词算出的得分是对在上述文件群中的出现频度较高索引词较高地进行评价所得的得分。据此,就能抽取更正确地表示了文件群的内容的关键字。作为这里说的在文件群中的出现频度,例如可以举出后述的GF(E)。具体而言,例如可以考虑把GF(E)乘上或者加上对与上述属于较多的上述簇的高频度词发生同现,且在较多的文件中发生同现的东西高地进行评价所得的得分。作为对GF(E)高的索引词高地进行评价所得的得分,可以举出后述的Skey(w)。(4)在上述各关键字抽取装置中,上述关键字抽取单元也可以基于在上述得分算出单元中被高地评价了的索引词在上述文件群中的出现频度,决定关键字抽取数。据此,就能按照文件群的内容统一性的程度,抽取表示文件群的特征的适当个数的关键字。作为这里说的在文件群中的出现频度,例如可以举出后述的DF(E)。(5)优选的是,在上述关键字抽取装置中,上述关键字抽取单元基于在属于上述文件群的各文件的标题中的词的出现率,抽取上述决定了的抽取数的关键字。据此,就能正确抽取表示了文件群的内容的关键字。(6)优选的是,在上述关键字抽取装置中,还具备对于具备作为分析对象的上述文件群和其他文件群的文件群集团,分别算出与各索引词有关的在各文件群中的评价值的评价值算出单元;以及算出以下集中度的集中度算出单元,该集中度是对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度,上述关键字抽取本文档来自技高网...

【技术保护点】
一种关键字抽取装置,是从由多个文件组成的文件群中抽取关键字的装置,具备:从上述文件群的数据中抽取索引词的索引词抽取单元;算出把对于上述索引词的各个在上述文件群中的出现频度的高低程度包含在评价中的权重,抽取该权重大的索引词即高 频度词的高频度词抽取单元;基于上述高频度词的各个和上述索引词的各个在文件单位中的同现的有无,算出上述高频度词的各个和上述索引词的各个在上述文件群中的同现度的高频度词-索引词同现度算出单元;基于上述算出的同现度,对上述高频度词 进行分类,生成簇的成簇单元;对于各个索引词算出对与上述索引词中的属于较多的上述簇的高频度词发生同现,且在较多的文件中与上述高频度词发生同现的东西较高地进行评价所得的得分的得分算出单元;以及基于上述算出的得分来抽取关键字的关键 字抽取单元。

【技术特征摘要】
【国外来华专利技术】JP 2004-11-5 322924/20041.一种关键字抽取装置,是从由多个文件组成的文件群中抽取关键字的装置,具备从上述文件群的数据中抽取索引词的索引词抽取单元;算出把对于上述索引词的各个在上述文件群中的出现频度的高低程度包含在评价中的权重,抽取该权重大的索引词即高频度词的高频度词抽取单元;基于上述高频度词的各个和上述索引词的各个在文件单位中的同现的有无,算出上述高频度词的各个和上述索引词的各个在上述文件群中的同现度的高频度词-索引词同现度算出单元;基于上述算出的同现度,对上述高频度词进行分类,生成簇的成簇单元;对于各个索引词算出对与上述索引词中的属于较多的上述簇的高频度词发生同现,且在较多的文件中与上述高频度词发生同现的东西较高地进行评价所得的得分的得分算出单元;以及基于上述算出的得分来抽取关键字的关键字抽取单元。2.根据权利要求1所述的关键字抽取装置,其中,上述得分算出单元对于各个索引词算出的得分是对在包含上述文件群以外的文件在内的文件集团中的出现频度较低的索引词较高地进行评价所得的得分。3.根据权利要求1或权利要求2所述的关键字抽取装置,其中,上述得分算出单元对于各个索引词算出的得分是对在上述文件群中的出现频度较高索引词较高地进行评价所得的得分。4.根据权利要求1至权利要求3中任意一项所述的关键字抽取装置,其中,上述关键字抽取单元基于在上述得分算出单元中被高地评价了的索引词在上述文件群中的出现频度,决定关键字抽取数。5.根据权利要求4所述的关键字抽取装置,其中,上述关键字抽取单元基于在属于上述文件群的各文件的标题中的词的出现率,抽取上述决定了的抽取数的关键字。6.根据权利要求1至权利要求3中任意一项所述的关键字抽取装置,其中,还具备对于具备作为分析对象的上述文件群和其他文件群的文件群集团,分别算出与各索引词有关的在各文件群中的评价值的评价值算出单元;以及算出以下集中度的集中度算出单元,该集中度是对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度,上述关键字抽取单元单元对评价加上由上述得分算出单元对于上述分析对象的文件群算出的得分以及由上述集中度算出单元算出的集中度而抽取关键字。7.根据权利要求1至权利要求3中任意一项所述的关键字抽取装置,其中,还具备对于具备作为分析对象的上述文件群和其他文件群的文件群集团,分别算出与各索引词有关的在各文件群中的评价值的评价值算出单元;以及算出以下份额的份额算出单元,该份额是算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和,对于各索引词算出各索引词的评价值对该和的比,从而获得的在上述分析对象的文件群中的各索引词的份额,上述关键字抽取单元单元对评价加上由上述得分算出单元对于上述分析对象的文件群算出的得分以及由上述份额算出单元对于上述分析对象的文件群算出的份额而抽取关键字。8.根据权利要求1至权利要求3中任意一项所述的关键字抽取装置,其中,还具备对于各索引词,算出在具备作为分析对象的上述文件群和其他文件群的文件群集团中的出现频度的倒数的函数值的第1倒数算出单元;对于各索引词,算出在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值的第2倒数算出单元;以及根据从上述第1倒数算出单元的算出结果中减去上述第2倒数算出单元的算出结果所得的东西的函数值,算出在上述文件群集团中的各索引词的独创度的独创度算出单元,上述关键字抽取单元单元对评价加上由上述得分算出单元对于上述分析对象的文件群算出的得分以及由上述独创度算出单元算出的独创度而抽取关键字。9.一种关键字抽取装置,是从由多个文件组成的文件群中抽取关键字的装置,具备从具备作为分析对象的上述文件群和其他文件群的文件群集团的数据中抽取索引词的索引词抽取单元;对于上述文件群集团,分别算出与各索引词有关的在各文件群中的评价值的评价值算出单元;算出以下集中度的集中度算出单元,该集中度是对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度;算出以下份额的份额算出单元,该份额是算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和,对于各索引词算出各索引词的评价值对该和的比,从而获得的在上述分析对象的文件群中的各索引词的份额;以及基于由上述集中度算出单元算出的集中度和由上述份额算出单元对于上述分析对象的文件群算出的份额的组合来抽取关键字的关键字抽取单元。10.根据权利要求9所述的关键字抽取装置,其中,还具备对于各索引词,算出在上述文件群集团中的出现频度的倒数的函数值的第1倒数算出单元;对于各索引词,算出在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值的第2倒数算出单元;以及根据从上述第1倒数算出单元的算出结果中减去上述第2倒数算出单元的算出结果所得的东西的函数值,算出独创度的独创度算出单元,上述关键字抽取单元进一步基于与由上述独创度算出单元算出的独创度的组合来抽取关键字。11.一种关键字抽取装置,是从由多个文件组成的文件群中抽取关键字的装置,具备从具备作为分析对象的上述文件群和其他文件群的文件群集团的数据中抽取索引词的索引词抽取单元;(a)对于各索引词,算出在上述分析对象的文件群中的出现频度的函数值的出现频度算出单元,(b)算出以下集中度的集中度算出单元,该集中度是分别算出与各索引词有关的在各文件群中的评价值,对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度,(c)算出以下份额的份额算出单元,该份额是分别算出与各索引词有关的在各文件群中的评价值,算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和,对于各索引词算出各索引词的评价值对该和的比,从而获得的在上述分析对象的文件群中的各索引词的份额,以及(d)对于各索引词,根据从在上述文件群集团中的出现频度的倒数的函数值中减去在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值所得的东西的函数值,算出独创度的独创度算出单元中的任意2个以上的单元;以及基于由上述任意2个以上的单元算出的、在上述分析对象的文件群中的出现频度的函数值、上述集中度、在上述分析对象的文件群中的份额以及上述独创度中的任意2个以上的组合,分类抽取关键字的关键字抽取单元。12.根据权利要求11所述的关键字抽取装置,其中,上述关键字抽取单元把在上述分析对象的文件群中的出现频度的函数值为给定的阈值以上的索引词判定为在上述分析对象的文件群中的重要词,把在上述分析对象的文件群中的上述重要词中的、上述集中度为给定的阈值以下的索引词判定为在上述分析对象的文件群中的技术领域词,把在上述分析对象的文件群中的上述技术领域词以外的上述重要词中的、在上述分析对象的文件群中的份额为给定的阈值以上的索引词判定为在上述分析对象的文件群中的主要词,把在上述分析对象的文...

【专利技术属性】
技术研发人员:增山博昭佐藤晴正浅田诚莲子和巳堀田任晃
申请(专利权)人:株式会社IPB
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1