用于评估趋势分析系统的方法和装置制造方法及图纸

技术编号:2829683 阅读:148 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种用于评估趋势分析系统的方法和装置,并且该装置包括:容许值输入单元,其用于接收假阳性的容许值和假阴性的容许值;以及准确度计算单元,其用于计算系统的准确度。该准确度计算单元包括:权重确定单元,其用于读取包含正确地指示了在存储装置中所存储的默认数据集里所包括的各数据片之间的存在或不存在关联的正确信息的相关数据,以及用于通过使用包含正确信息的相关数据从假阳性和假阴性的容许值确定被分别分配给该系统所做出的假阳性的数目和假阴性的数目的权重;以及计算单元,其用于通过使用假阳性的数目、被分配给它的权重、假阴性的数目、被分配给它的权重和数据片的总数目来计算系统的准确度。

【技术实现步骤摘要】

本专利技术涉及一种趋势分析系统,并且特别地涉及一种自评估趋势分 析系统。
技术介绍
文本挖掘是趋势分析技术之一,用于主要基于使用自然语言处理的 信息提取的结果,通过找出关于关键词的信息片的总数和在被包含于文 档集合内的各关键词之间的依赖性信息来分析趋势和知识。为了将趋势 分析系统实际引入到 一新位置,必须提供像用户字典这样的语言资源并 且必须根据该位置的情况来调整参数,使得趋势分析系统将能够执行优 化分析。然而,这种调整是在反复试验的基础上以及/或者在经验的基础 上执行的,并且没有任何技术可用于度量调整结果的有效性。此外,这 种调整还需要大量的时间和人力。在诸如从文档中提取或检索信息之类的技术的情况下, 一般通过执 行从事先被给予了属性的正确答案以及属性之间的关联的正确答案的 文档中提取或检索信息,以及通过比较该执行结果与对提取结果或检索 结果的测量,来评估系统或技术。另一方面,在目标是从文档集合中提 取关联、知识和趋势的趋势分析系统的情况下,在实际在已安装的地点 中使用该系统的同时,验证对所获得的结果的有效性的评估。换言之, 还没有建立一种机制用于定量和定性地评估常规趋势分析系统。因此, 当趋势分析系统中的某个部件被改善时,很难客观地评估该系统将被增 强的程度。以下等式已被用来计算在常规系统评估中所使用的准确度。准确度=(系统正确地提取的关联的数目+系统正确地提取的不关 联的数目)/系统提取的总数目。除了上面的考虑了正确的确定的计算方法之外,还存在另一种考虑了错误的确定的准确度计算方法。错误的确 定包括两种类型,即假阳性和假阴性。这两种类型在常规的准确度中被 当成是相同的确定类型来处理,并且由此在准确度中不能反映在各用户地点之间的差异。日本专利申请未审公开号No.2005-237441是相关现 有技术的一个例子。
技术实现思路
已做出本专利技术用于解决上述技术问题。本专利技术的目的是 提供一种装置,用于客观地评估从数据集中提取关联、趋势和知识 的趋势分析系统;提供一种趋势分析系统,其提取数据集中各数据片的属性之间的关 联,并通过对该系统执行定量的评估来对该系统执行自调整;提供一种自评估趋势分析系统,其通过使用包含正确信息的相关数 据执行对从数据集等等中提取关联信息片、趋势信息片和知识信息片的 功能的定量的自评估,并执行针对功能的调整,该正确信息指示了关于 属性之间的关联、以及属性的趋势和知识的信息;提供一种方法,该方法用于通过使用从用户分别针对系统所做出的 假阳性和假阴性设置的容许范围所计算的权重,将准确度计算成用于求 得系统评估的定量结果的指示符;以及提供一种方法,用于根据包含正确信息的相关数据求得用于计算指 示符的不是作为任意值而是作为统计上合适的值的权重,以合理地评估 系统。根据本专利技术,提供了一种趋势分析系统,用于从数据集等等中提取 属性之间的关联(例如,A和B有关联)。在可以获得包含正确信息的 相关数据的情况下,所述趋势分析系统通过使用指示符来对该系统自身 执行定量评估并且接着执行自调整,该正确信息包括关于属性之间的已 知关联的信息。所述评估指示符指示由系统从数据集中提取的关联/趋势 信息覆盖了多少包含正确信息的相关数据中的信息,该正确信息指示存 在或不存在关联。通过使用 一种确定该评估指示符的方法来执行对该系统的定量评估。根据本专利技术,从由用户分别设置的针对假阳性和假阴性的数目的容 许范围求得用于假阳性和假阴性的数目的惩罚分数(权重),并接着通 过使用该惩罚分数来计算准确度。如果所述惩罚分数被给定为任意值, 则该系统不能被合理地评估,并且由此可能执行不合适的调整和反馈。 出于这种原因,在本专利技术中,求得用于包含着正确信息的相关数据的统 计上适合的惩罚分数,以便合理地评估该系统。本专利技术的趋势分析系统 可以不通过使用包含正确信息的相关数据而通过使用这些惩罚分数来 找出合理的准确度。当通过调整参数或更新用于下一次挖掘的字典来改 变系统时,系统执行客观的自评估,其示出根据关联信息或趋势信息的 存在或不存在(二进制分配问题)由系统所提取的假阳性和假阴性的数 目相比用户所希望的数目被改善多少。接着,系统基于评估结果执行自 调整。图8示出根据本专利技术的一种用于评估趋势分析系统的装置。根据本专利技术的该装置包括容许值输入单元810和准确度计算单元820。容许值 输入单元810接收假阳性和假阴性的相应的容许值。假阳性是指数据片 被判断为彼此相关,但是所述数据片实际上并不相关。另一方面,假阴 性是指数据片被判断为不相关,但是所述数据片实际上是彼此相关的。 准确度计算单元820计算系统的准确度,并且包括权重确定单元840和 计算单元850。权重确定单元840读取包含正确信息的相关数据860, 其正确地指示在存储装置830中所存储的默认数据集里所包括的数据片 之间的存在或不存在关联,并且接着通过使用包含正确信息的相关数据 860从假阳性和假阴性的容许值确定被分配给由该系统做出的假阳性和 假阴性的数目的权重。计算单元850通过使用假阳性的数目、被分配给 它的权重、假阴性的数目、被分配给它的权重和数据片的总数目来计算 该系统的准确度。因此,由准确度计算单元820因此所计算的准确度可 被直接用作系统的评估结果。作为替代,参数调整单元可以根据已计算 的准确度来调整系统的参数从而系统的准确度可以被进一 步增加。根据本专利技术,通过提供阚值可以找到趋势分析系统的合理的准确度,而无需使用包含正确信息的相关数据,所述阈值是趋势分析系统所 做出的错误(假阳性和假阴性)的容许值(容许范围),并容易被用户理解。 因此,所找到的准确度可被用作客观的评估的结果。另夕卜,本专利技术的趋 势分析系统可以通过使用满足用户需要的评估指示符来执行自评估,并 接着基于该评估结果来执行参数调整。附图说明为了更完整地理解本专利技术和其优点,现在结合附图参考以下描述。 图1是本专利技术的实施例的处理的流程图。图2是用于解释包括可被取作权重的值的区域的例子的示图,该权 重满足同 一性和鉴别的可能性。图3解释对趋势分析系统的评估结果。图4是调整基于自评估的文本挖掘系统的处理流程。图5示出硬件配置的例子。图6示出指示遗传因子之间的关联的路径。图7示出对趋势分析系统的评估例子。图8是本专利技术的评估系统的框图。具体实施例方式图1示出根据本专利技术的实施例的处理的流程图。在步骤110中,假 阳性和假阴性的容许范围被输入。在步骤120中,用于计算准确度的权 重被计算。如何计算该准确度和权重将稍后描述。在步骤130中,做出 关于是否已经成功地计算这些权重的判决。如果计算这些权重失败了 , 则在步骤135中发出通知"容许范围不合适",并且接着该处理再次移 动回到用于输入容许值范围的处理。如果计算这些斥又重成功了,则在步 骤140中针对该趋势分析系统生成用于通过使用这些权重来计算准确度 的功能。在步骤150中,通过使用所述准确度计算功能来计算系统的准 确度。在下文中,当描述词语"系统"时,这暗指该趋势分析系统。利 用通过使用包含正确信息的相关数据和权重所找到的准确度来评估该系统。当只想得到评估结果时,该处理在步骤150中被终止。当想要进行系统调整时,该处理移动到步骤160。在步骤160中,^f故出关于是否 本文档来自技高网
...

【技术保护点】
一种用于评估趋势分析系统的装置,包括:容许值输入单元,其用于接收假阳性的容许值和假阴性的容许值,所述假阳性是指数据片被判断为彼此相关,但是所述数据片实际上并不相关,所述假阴性是指数据片被判断为不相关,但是所述数据片实际上是彼此相关的 ;以及准确度计算单元,其用于计算所述系统的准确度,其中所述准确度计算单元包括:权重确定单元,其用于读取包含正确地指示了在存储装置中所存储的默认数据集里所包括的各数据片之间存在或不存在关联的正确信息的相关数据,以及用于 通过使用所述包含正确信息的相关数据从假阳性和假阴性的所述容许值确定被分配给所述系统所做出的假阳性和假阴性的数目的权重;以及计算单元,其用于通过使用假阳性的数目、被分配给它的权重、假阴性的数目、被分配给它的权重和数据片的总数目来计算所 述系统的准确度。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:竹内广宜宅间大介
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1