关键字抽取装置制造方法及图纸

技术编号：2836886 阅读：181 留言：0更新日期：2012-04-11 18:40

一种关键字抽取装置，具备：抽取把由多个文件（Ｄ）组成的文件群（Ｅ）中包含的索引词（ｗ）中的在上述文件群（Ｅ）中的出现频度的高低程度包含在评价中的权重大的索引词即高频度词的高频度词抽取部（３０）；使上述高频度词基于以与在上述文件群（Ｅ）中的索引词（ｗ）的各个的在文件单位中的同现的有无为基础的同现度（Ｃ）而成簇的成簇单元（５０）；对于各个索引词（ｗ）算出对与上述索引词（ｗ）中的属于较多的上述簇（ｇ）的高频度词发生同现，且在较多的文件（Ｄ）中与上述高频度词发生同现的东西较高地进行评价所得的得分ｋｅｙ（ｗ）的得分算出单元（７０）；以及基于上述得分来抽取关键字的关键字抽取部（９０）。据此，就能自动抽取表示由多个文件组成的文件群的特征的关键字。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及由计算机从由多个文件组成的文件群中自动抽取表现该文件群的主题的关键字的技术，特别是涉及关键字的抽取装置、抽取方法及抽取程序。
技术介绍
以专利文件为首的技术性文件和其他文件每天都有新的出现，数目庞大。为了进行这些文件的检索、分析而自动抽取表示文件的特征的关键字的技术是公知的。例如，在大泽幸生们著「KeyGraph語の共起グラフの分割·統合によるキ一ワ一ド抽出」電子情報通信学会論文誌Vol.J82-D-I，No.2，391-400页(1999年2月)(非专利文献1)中，披露了抽取表示文件的主张的关键字的方法。此方法首先抽取该文件中的出现次数的高位词(HighFreq)。然后，基于HighFreq们在句子单位中的同现(共起)的有无，算出在该文件中的同现度，把同现度高的HighFreq们的组合作为「基台」。同现度不高的HighFreq们就会属于各自的基台。然后，基于跟各基台中的词在句子单位中的同现的有无，算出跟基台中的词的同现度，基于跟此基台中的词的同现度，抽取这些基台们所支撑而统一文章的词(屋顶)。非专利文献1大泽幸生们著「KeyGraph語の共起グラフの分割·統合にょるキ一ワ一ド抽出」電子情報通信学会論文誌Vol.J82-D-I，No.2，391-400页(1999年2月)
技术实现思路
专利技术要解决的课题但是，上述非专利文献1记载的技术不是抽取表示由多个文件组成的文件群的特征的关键字的东西。特别是，就上述非专利文献1记载的技术而言，因为1个文件是为了主张作者独自的考虑而写的，立于以该主张为目标而形成一个流程这样的前提，所以不可能适用于由...

【技术保护点】
一种关键字抽取装置，是从由多个文件组成的文件群中抽取关键字的装置，具备：从上述文件群的数据中抽取索引词的索引词抽取单元；算出把对于上述索引词的各个在上述文件群中的出现频度的高低程度包含在评价中的权重，抽取该权重大的索引词即高频度词的高频度词抽取单元；基于上述高频度词的各个和上述索引词的各个在文件单位中的同现的有无，算出上述高频度词的各个和上述索引词的各个在上述文件群中的同现度的高频度词－索引词同现度算出单元；基于上述算出的同现度，对上述高频度词进行分类，生成簇的成簇单元；对于各个索引词算出对与上述索引词中的属于较多的上述簇的高频度词发生同现，且在较多的文件中与上述高频度词发生同现的东西较高地进行评价所得的得分的得分算出单元；以及基于上述算出的得分来抽取关键字的关键字抽取单元。

【技术特征摘要】
【国外来华专利技术】JP 2004-11-5 322924/20041.一种关键字抽取装置，是从由多个文件组成的文件群中抽取关键字的装置，具备从上述文件群的数据中抽取索引词的索引词抽取单元；算出把对于上述索引词的各个在上述文件群中的出现频度的高低程度包含在评价中的权重，抽取该权重大的索引词即高频度词的高频度词抽取单元；基于上述高频度词的各个和上述索引词的各个在文件单位中的同现的有无，算出上述高频度词的各个和上述索引词的各个在上述文件群中的同现度的高频度词-索引词同现度算出单元；基于上述算出的同现度，对上述高频度词进行分类，生成簇的成簇单元；对于各个索引词算出对与上述索引词中的属于较多的上述簇的高频度词发生同现，且在较多的文件中与上述高频度词发生同现的东西较高地进行评价所得的得分的得分算出单元；以及基于上述算出的得分来抽取关键字的关键字抽取单元。2.根据权利要求1所述的关键字抽取装置，其中，上述得分算出单元对于各个索引词算出的得分是对在包含上述文件群以外的文件在内的文件集团中的出现频度较低的索引词较高地进行评价所得的得分。3.根据权利要求1或权利要求2所述的关键字抽取装置，其中，上述得分算出单元对于各个索引词算出的得分是对在上述文件群中的出现频度较高索引词较高地进行评价所得的得分。4.根据权利要求1至权利要求3中任意一项所述的关键字抽取装置，其中，上述关键字抽取单元基于在上述得分算出单元中被高地评价了的索引词在上述文件群中的出现频度，决定关键字抽取数。5.根据权利要求4所述的关键字抽取装置，其中，上述关键字抽取单元基于在属于上述文件群的各文件的标题中的词的出现率，抽取上述决定了的抽取数的关键字。6.根据权利要求1至权利要求3中任意一项所述的关键字抽取装置，其中，还具备对于具备作为分析对象的上述文件群和其他文件群的文件群集团，分别算出与各索引词有关的在各文件群中的评价值的评价值算出单元；以及算出以下集中度的集中度算出单元，该集中度是对于各索引词，算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和，对于各文件群算出在各文件群中的评价值对该和的比，分别算出该比的平方，算出该比的平方在属于上述文件群集团的所有文件群中的和，从而获得的在上述文件群集团中的各索引词的分布的集中度，上述关键字抽取单元单元对评价加上由上述得分算出单元对于上述分析对象的文件群算出的得分以及由上述集中度算出单元算出的集中度而抽取关键字。7.根据权利要求1至权利要求3中任意一项所述的关键字抽取装置，其中，还具备对于具备作为分析对象的上述文件群和其他文件群的文件群集团，分别算出与各索引词有关的在各文件群中的评价值的评价值算出单元；以及算出以下份额的份额算出单元，该份额是算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和，对于各索引词算出各索引词的评价值对该和的比，从而获得的在上述分析对象的文件群中的各索引词的份额，上述关键字抽取单元单元对评价加上由上述得分算出单元对于上述分析对象的文件群算出的得分以及由上述份额算出单元对于上述分析对象的文件群算出的份额而抽取关键字。8.根据权利要求1至权利要求3中任意一项所述的关键字抽取装置，其中，还具备对于各索引词，算出在具备作为分析对象的上述文件群和其他文件群的文件群集团中的出现频度的倒数的函数值的第1倒数算出单元；对于各索引词，算出在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值的第2倒数算出单元；以及根据从上述第1倒数算出单元的算出结果中减去上述第2倒数算出单元的算出结果所得的东西的函数值，算出在上述文件群集团中的各索引词的独创度的独创度算出单元，上述关键字抽取单元单元对评价加上由上述得分算出单元对于上述分析对象的文件群算出的得分以及由上述独创度算出单元算出的独创度而抽取关键字。9.一种关键字抽取装置，是从由多个文件组成的文件群中抽取关键字的装置，具备从具备作为分析对象的上述文件群和其他文件群的文件群集团的数据中抽取索引词的索引词抽取单元；对于上述文件群集团，分别算出与各索引词有关的在各文件群中的评价值的评价值算出单元；算出以下集中度的集中度算出单元，该集中度是对于各索引词，算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和，对于各文件群算出在各文件群中的评价值对该和的比，分别算出该比的平方，算出该比的平方在属于上述文件群集团的所有文件群中的和，从而获得的在上述文件群集团中的各索引词的分布的集中度；算出以下份额的份额算出单元，该份额是算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和，对于各索引词算出各索引词的评价值对该和的比，从而获得的在上述分析对象的文件群中的各索引词的份额；以及基于由上述集中度算出单元算出的集中度和由上述份额算出单元对于上述分析对象的文件群算出的份额的组合来抽取关键字的关键字抽取单元。10.根据权利要求9所述的关键字抽取装置，其中，还具备对于各索引词，算出在上述文件群集团中的出现频度的倒数的函数值的第1倒数算出单元；对于各索引词，算出在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值的第2倒数算出单元；以及根据从上述第1倒数算出单元的算出结果中减去上述第2倒数算出单元的算出结果所得的东西的函数值，算出独创度的独创度算出单元，上述关键字抽取单元进一步基于与由上述独创度算出单元算出的独创度的组合来抽取关键字。11.一种关键字抽取装置，是从由多个文件组成的文件群中抽取关键字的装置，具备从具备作为分析对象的上述文件群和其他文件群的文件群集团的数据中抽取索引词的索引词抽取单元；(a)对于各索引词，算出在上述分析对象的文件群中的出现频度的函数值的出现频度算出单元，(b)算出以下集中度的集中度算出单元，该集中度是分别算出与各索引词有关的在各文件群中的评价值，对于各索引词，算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和，对于各文件群算出在各文件群中的评价值对该和的比，分别算出该比的平方，算出该比的平方在属于上述文件群集团的所有文件群中的和，从而获得的在上述文件群集团中的各索引词的分布的集中度，(c)算出以下份额的份额算出单元，该份额是分别算出与各索引词有关的在各文件群中的评价值，算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和，对于各索引词算出各索引词的评价值对该和的比，从而获得的在上述分析对象的文件群中的各索引词的份额，以及(d)对于各索引词，根据从在上述文件群集团中的出现频度的倒数的函数值中减去在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值所得的东西的函数值，算出独创度的独创度算出单元中的任意2个以上的单元；以及基于由上述任意2个以上的单元算出的、在上述分析对象的文件群中的出现频度的函数值、上述集中度、在上述分析对象的文件群中的份额以及上述独创度中的任意2个以上的组合，分类抽取关键字的关键字抽取单元。12.根据权利要求11所述的关键字抽取装置，其中，上述关键字抽取单元把在上述分析对象的文件群中的出现频度的函数值为给定的阈值以上的索引词判定为在上述分析对象的文件群中的重要词，把在上述分析对象的文件群中的上述重要词中的、上述集中度为给定的阈值以下的索引词判定为在上述分析对象的文件群中的技术领域词，把在上述分析对象的文件群中的上述技术领域词以外的上述重要词中的、在上述分析对象的文件群中的份额为给定的阈值以上的索引词判定为在上述分析对象的文件群中的主要词，把在上述分析对象的文...

【专利技术属性】
技术研发人员：增山博昭，佐藤晴正，浅田诚，莲子和巳，堀田任晃，
申请(专利权)人：株式会社IPB，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人